代表値② 中央値(メジアン)と最頻値(モード)

次のデータの中央値を求めよ. 中央値(メジアン)
平均値には,\ たった1つの外れ値のせいで大きく変化してしまうという弱点があった.
ならば,\ 単に小さい順に並べたときの中央の値を代表値とすればよい.\ これが中央値である.
中央値は外れ値に影響されにくいため,\ 外れ値をもつデータの代表値として適切である. 中央値}
データの数が奇数個}  & ちょうど真ん中の値}
データの数が偶数個} & 真ん中の2つの値の平均値}
中央値は結果的に外れ値を無視することにもつながる.
よって,\ 外れ値に影響されにくいといえるが,\ 外れ値の無視が常にベストなわけではない.
外れ値を考慮するべきか否かはデータの種類や目的によって常に変化する.
ゆえに,\ 外れ値がなければ平均値,\ あれば中央値のような絶対的な使い分けがあるわけではない.
なお,\ 小さい順に並べ替えたときは{データの個数が問題と一致しているかを確認}すること.
次の表は男子の身長の度数分布表である.\ 中央値をそれぞれ求めよ.
階級 150以上160未満合計
階級値
度数(人)小さいほうから6人目が真ん中}であるから 中央値は\ ${175\ (cm})}$
小さいほうから5人目の165と6人目の175が真ん中}である.
度数分布表が与えられた場合,\ 階級内の値はすべて階級値であるとみなす.
例えば,\ 150cm}以上160cm}未満の度数は2なので,\ 階級値155cm}が2人いるとみなす.
データの個数が{奇数個}であるからちょうど真ん中の値が存在する.
総数が11個ならば,\ 6番目がちょうど真ん中である.
よって,\ {大きさ順に並べたときに6番目の値がある階級を考える.}
150~170に2+2=4人,\ 150~180に2+2+4=8人いる.
ゆえに,\ {階級170~180に6人目がいる.}\ 結局,\ この階級値175が中央値となる.
実際に11人分の身長を小さい順に書き並べてみると次のようになる.
データの個数が{偶数個}であるからちょうど真ん中の値は存在しない.
総数が10個ならば,\ 5番目と6番目が真ん中2つになる.
150~170に2+3=5人,\ 150~180に2+3+3=8人いる.
よって,\ {階級160~170に5人目,\ 階級170~180に6人目がいる.}
そして,\ 5人目の身長は階級値165cm},\ 6人目の身長は階級値175cm}となる.
この2人の平均が中央値である.\ 実際に10人分を書き並べると次のようになる. $x$を自然数とする.\ 以下のデータの中央値は何通り考えられるか.
x以外を小さい順に並べ,\ その両端と間にxを入れて中央値がどうなるかを考える.
x以外が4個あるから,\ その両端と間は5ヶ所ある.
xが13の左または13と25の間に入る,\ つまりx25のとき,\ 中央値は25になる.
xが25と39の間に入る,\ つまり26 x38のとき,\ 中央値はxになる.
xが39と51の間または51の右に入る,\ つまりx39のとき,\ 中央値は39になる.
このように,\ {x以外が偶数個}あるとき,\ {真ん中2個の値を境に場合分け}することになる.
以上から,\ {25,\ 39,\ および26 x38を満たすすべての整数xが中央値の候補}である.
個数を求めるとき,\ 38-26とすると26も引かれてしまうので,\ 忘れずに+1をする.
x以外が5個あるから,\ その両端と間は6ヶ所ある.
xが14の左または14と22の間に入る(x22)とき,\ 中央値は22と29の平均値.
xが22と29または29と35の間に入る(23 x34)のとき,\ 中央値はxと29の平均値.
xが35と41の間または41の右に入る(x35)のとき,\ 中央値は29と35の平均値.
このように,\ {x以外が奇数個}あるとき,\ {真ん中の値の両端の値を境に場合分け}することになる.
最頻値(モード)
高校生7人の勉強時間が\ 0,\ 0,\ 0,\ 5,\ 10,\ 10,\ 10\ (時間)であるとする.
このデータの平均値は5,\ 中央値も5だが,\ 代表値として適切かは疑問である.
この場合,\ 単純に最も個数が多い0と10を代表値とするのがよい.
また,\ 数量だけで考える平均値・中央値に対し,\ 最頻値は質的な傾向も探ることができる.
例えば,\ 5人の好きな色「赤,\ 赤,\ 赤,\ 白,\ 青」から,\ 最も人気なのは赤といえる.
最頻値は,\ データの個数が少ない場合や値がばらついている場合には使えない.
例えば,\ 「\ 2,3,3,5\ 」や「\ 3,4,6,7\ 」というデータの最頻値はあまり意味がない.
最も度数が多い階級の階級値が最頻値}であるから
小さい順に並べ替えたときは{データの個数が問題と一致しているかを確認}すること.
最頻値を求めるだけならば,\ 小さい順に並べるよりも度数分布表を作るとわかりやすい.
問題全体の流れを見て,\ 並べ替えと度数分布表のどちらが必要かを考えるのがよいだろう.
{最も度数が多い階級(階級値)が最頻値}である.\ 度数の3を間違えて答えないよう注意する.
度数分布表を作成したときも{度数の総和がデータの総数と一致しているかを確認}すること.
最も度数が多い階級は2~3である.\ この階級に含まれる値はすべて階級値2.5とみなす.
タイトルとURLをコピーしました