5数要約(四分位数)と箱ひげ図

スポンサーリンク

以下の2つのデータは,\ いずれも平均値50,\ 中央値50である. \
両者は散らばり具合が異なるが,\ これは平均値や中央値といった指標からは判断できない.
このように,\ 代表値(1つの数値)だけでデータの特徴を表現するには限界がある.
そこで,\ 複数の数値でデータの特徴を表現することを考える.
中央値はデータの{個}{数}を2等分する値}であった.
散らばり具合を調べるため,\ さらに細かく{個}{数}を4等分する値}を取り出す.
さらに最小値と最大値}を加えた5数でデータの特徴を表現するのが合理的である.
具体例を以下に示す.\ 中央値を境にデータが2つの下線部に分けられる. 下線部内での中央値20と80が全体の{個}{数}を4等分する値}である.
これに最小値0,\ 最大値100}を加えた5数がデータの散らばり具合を特徴づける値である.
2つのデータから5数を取り出してみると,\ 散らばり具合もわかる形で簡略化できている.
この5数に関連して以下を定義する.
範囲     最大値と最小値の差.\ 外れ値に影響されやすい.
四分位数   値を小さい順に並べたとき,\ 4等分する位置にくる3つの数.
小さい方から第1四分位数,\ 第2四分位数,\ 第3四分位数という.
これを${Q₁,\ Q₂,\ Q₃$と表す.\ 第2四分位数は中央値のことである.
四分位範囲  ${Q₃-Q₁$
四分位偏差  $Q₃-Q₁}{2}$
5数要約   最小値,第1四分位数,第2四分位数,第3四分位数,最大値
ここで示した四分位数の例はデータの個数が11個の場合である.
11個の数値をうまく4等分する位置に3個の四分位数(△)がくる. ○○\ △\ ○○\ △\ ○○\ △\ ○○
データの個数が12個や13個だとうまく4等分できない気がするが,\ その扱いは次の問題で示す.
{4等分するのはデータの個数であって値ではない.}
よって,\ 四分位数で区切られた各区間内には総数の約25\%の個数が含まれる.
値を分割するのは平均値である.\ 平均値まわりの散らばりについては別の指標があるので他で示す.
{中央値まわりのちらばりを数値化}したものが四分位偏差である.
一般には\ Q₂-Q₁\ とQ₃-Q₂\ の値は異なるため,\ Q₃-Q₁\ を2で割ったものと定義する.
5数要約を求めるパターンは,\ 細かく分けると真ん中の値があるかないかで4通りある.
これらはデータの個数を4で割ったときの余りで分類できる.
{データの個数が4で割ると3余る数}のとき,\ 全体のちょうど真ん中が\ Q₂\ である.
また,\ 左右の下線部のちょうど真ん中もあり,\ これが\ Q₁,\ Q₃\ である.
{データの個数が4で割り切れる数}のとき,\ 全体のちょうど真ん中は存在しない.
このとき,\ {真ん中2つの平均値が\ Q₂}(中央値)となる.
また,\ 左右の下線部({6,\ 7を含める})のちょうど真ん中も存在しない.
よって,\ {真ん中2つの平均値がそれぞれ\ Q₁,\ Q₃}\ となる.
このように,\ ちょうど真ん中が存在するときはそれが四分位数となる.
また,\ ちょうど真ん中が存在しないときは真ん中2つの平均値が四分位数となる.
の{4で割ると1余る数}のときとの{4で割ると2余る数}のときも同様である.
箱ひげ図  5数要約を一目でわかるように箱とひげで表現したもの.
複数のデータが比較しやすくなる.
必要ならば,\ 平均値}を『+}』で記入する.
ヒストグラムと箱ひげ図
ヒストグラムはデータの個数を面積で表現したものである.
これは,\ データの個数を箱とひげで表現した箱ひげ図と対応する.
つまり,\ ヒストグラムの面積を4等分する位置が${Q₁,\ Q₂,\ Q₃}$である.
ヒストグラムを元におおよその箱ひげ図を図示できる必要がある.
まず全体の面積を2等分する位置をQ₂とし,\ さらにそれを2等分する位置をQ₁,\ Q₃とする.
正確に4等分する必要はなく,\ 大体でよい.
個数を4等分するのが四分位数なので,\ {ヒストグラムの柱が長いほど箱ひげ図の幅は小さくなる.}