平均値が5である2つのデータ「\ 3,5,7,4,6\ 」「\ 2,6,1,9,7\ 」がある.
平均値だけではわからないが,\ 両者は散らばり具合が異なる.\
データを識別するため,\ 平均値まわりの散らばりを数値化することを考えよう.
単純には,\ 図のように各値と平均値との差の絶対値を合計するのが合理的であると思える.
すると,\ 左のデータは$2+0+2+1+1=6}$,右のデータは$3+1+4+4+2=14}$となる.
それでは,\ 各値を$x₁,x₂,x₃,x₄,x₅$,\ 平均値を$ x$として一般的に表してみよう. 絶対値が非常に鬱陶しい.
かといって,\ 絶対値をつけずに差を合計すると常に0となり意味がない.
実際,\ $-2+0+2+(-1)+1=0$,$-3+1+(-4)+4+2=0$である.
元はといえば,\ 差の合計が0になるような値が平均値なのであるから当然の結果である.
最終的に,\ 2乗にしてから合計することに行き着く.
これを平均値まわりの散らばりとして定義してもよさそうだがまだ問題がある.
明らかに,\ データの個数が多いほど数値が大きくなる.
よって,\ 個数が異なる複数のデータの散らばり具合を比較できない.
そこで,\ 数値1個あたりの散らばり具合を表すために,\ 2乗の和をデータの個数で割る.}
結局,\ 各値と平均値との差(偏差)の2乗の和の平均を散らばりの指標として定義する.
数式では, 分散を計算してみると
すべてうまくいったかと思いきや,\ 新たな問題が生じている.
元々のデータの単位が仮にcmだったとすると,\ 分散の単位はcm$²$となる.
これでは意味が変化してしまっているし,\ 元々がcm$²$だったならば意味をもたなくなる.
そこで,\ 分散の平方根を標準偏差として定義すると,\ 元のデータと単位が一致する.
標準偏差を計算してみるととなる.
標準偏差(standard deviation)に由来し,\ ${s$で表す.\ 分散$s²$の由来もここにある.
なお,\ 平均値と同様,\ 分散・標準偏差も外れ値に影響されやすい.平均値と標準偏差の関係は,\ 中央値と四分位偏差の関係に類似している.
中央値$Q₂$まわりには,\ $Q₁$~$Q₂$と$Q₂$~$Q₃$にそれぞれデータの約25\%が含まれていた.
つまり,\ 四分位偏差${Q₃-Q₁}{2}$の2倍の範囲内にデータの約50\%}が含まれていたわけである.
平均値$ x$まわりには,\ $ x-s$から$ x+s$の範囲内にデータの約68\%が含まれている.
つまり,\ 標準偏差$s$の2倍$2s$の範囲内にデータの約68\%}が含まれているわけである.
先のデータでは,\ それぞれ$5.01.4$と$5.03.0$の範囲内に5個のうち3個(60\%)がある.
分散の定義式を一般的に表して変形していくと分散を求める別公式が得られる.
2乗の展開後に整理し直すと,\ 2乗の平均と普通の平均の形が現れる.
2乗の平均を{x²},普通の平均を xに変換して再び整理する.
定義式と別公式の使い分けについては具体的な問題で示す.
長々と述べたが,\ ほとんどの場合は以下を公式として覚えておくだけでよい. \各値と平均値との差 偏差の2乗の平均値 または ${(分散)=(2乗の平均)-(平均の2乗)$ 標準偏差$分散の平方根}次のデータの分散と標準偏差を求めよ.
分散と標準偏差の求める方法は定義式と別公式の2通りある.
どちらの方法も{平均値を求めた後,\ 数値の数だけ2乗する}ことに変わりはない.
{偏差(平均値との差)を2乗するのが楽か元の数値を2乗するのが楽か}の2択である.
解法を素早く選択し,\ 計算を開始する.\ 迷っている間にさっさと計算したほうが速いこともある.
本問の場合は偏差がすべて1桁の整数になるので,\ 定義式を用いて計算するのが楽である.
別解のような表を作成するのもよい.
分散だけならば表は必要ないが,\ さらに共分散・相関係数も求める必要があるならば役立つ.
分散・標準偏差を求めるだけならば,\ {仮平均を利用}する方法も有効である.
平均値は約20と予想できるので,\ すべての数値から仮平均20を引く.
{その差の分散は,\ 元の数値で求めた分散と一致する.}\ 分散の意味は{平均値まわりの散らばり}である.
直感的には,\ {全ての数値を等しくずらしても散らばり具合は変化しない}と理解できる.
別項目では,\ このことを数式できちんと確認する.標準偏差}は
平均値が小数になる本問では,\ 偏差も小数になるのでその2乗の計算は大変になる.
このような場合,\ 別公式で分散を求めるのが楽である.\ 本問では小数の2乗は1回で済む.
ちなみに,\ 定義式で計算すると以下のようになる.
平均値だけではわからないが,\ 両者は散らばり具合が異なる.\
データを識別するため,\ 平均値まわりの散らばりを数値化することを考えよう.
単純には,\ 図のように各値と平均値との差の絶対値を合計するのが合理的であると思える.
すると,\ 左のデータは$2+0+2+1+1=6}$,右のデータは$3+1+4+4+2=14}$となる.
それでは,\ 各値を$x₁,x₂,x₃,x₄,x₅$,\ 平均値を$ x$として一般的に表してみよう. 絶対値が非常に鬱陶しい.
かといって,\ 絶対値をつけずに差を合計すると常に0となり意味がない.
実際,\ $-2+0+2+(-1)+1=0$,$-3+1+(-4)+4+2=0$である.
元はといえば,\ 差の合計が0になるような値が平均値なのであるから当然の結果である.
最終的に,\ 2乗にしてから合計することに行き着く.
これを平均値まわりの散らばりとして定義してもよさそうだがまだ問題がある.
明らかに,\ データの個数が多いほど数値が大きくなる.
よって,\ 個数が異なる複数のデータの散らばり具合を比較できない.
そこで,\ 数値1個あたりの散らばり具合を表すために,\ 2乗の和をデータの個数で割る.}
結局,\ 各値と平均値との差(偏差)の2乗の和の平均を散らばりの指標として定義する.
数式では, 分散を計算してみると
すべてうまくいったかと思いきや,\ 新たな問題が生じている.
元々のデータの単位が仮にcmだったとすると,\ 分散の単位はcm$²$となる.
これでは意味が変化してしまっているし,\ 元々がcm$²$だったならば意味をもたなくなる.
そこで,\ 分散の平方根を標準偏差として定義すると,\ 元のデータと単位が一致する.
標準偏差を計算してみるととなる.
標準偏差(standard deviation)に由来し,\ ${s$で表す.\ 分散$s²$の由来もここにある.
なお,\ 平均値と同様,\ 分散・標準偏差も外れ値に影響されやすい.平均値と標準偏差の関係は,\ 中央値と四分位偏差の関係に類似している.
中央値$Q₂$まわりには,\ $Q₁$~$Q₂$と$Q₂$~$Q₃$にそれぞれデータの約25\%が含まれていた.
つまり,\ 四分位偏差${Q₃-Q₁}{2}$の2倍の範囲内にデータの約50\%}が含まれていたわけである.
平均値$ x$まわりには,\ $ x-s$から$ x+s$の範囲内にデータの約68\%が含まれている.
つまり,\ 標準偏差$s$の2倍$2s$の範囲内にデータの約68\%}が含まれているわけである.
先のデータでは,\ それぞれ$5.01.4$と$5.03.0$の範囲内に5個のうち3個(60\%)がある.
分散の定義式を一般的に表して変形していくと分散を求める別公式が得られる.
2乗の展開後に整理し直すと,\ 2乗の平均と普通の平均の形が現れる.
2乗の平均を{x²},普通の平均を xに変換して再び整理する.
定義式と別公式の使い分けについては具体的な問題で示す.
長々と述べたが,\ ほとんどの場合は以下を公式として覚えておくだけでよい. \各値と平均値との差 偏差の2乗の平均値 または ${(分散)=(2乗の平均)-(平均の2乗)$ 標準偏差$分散の平方根}次のデータの分散と標準偏差を求めよ.
分散と標準偏差の求める方法は定義式と別公式の2通りある.
どちらの方法も{平均値を求めた後,\ 数値の数だけ2乗する}ことに変わりはない.
{偏差(平均値との差)を2乗するのが楽か元の数値を2乗するのが楽か}の2択である.
解法を素早く選択し,\ 計算を開始する.\ 迷っている間にさっさと計算したほうが速いこともある.
本問の場合は偏差がすべて1桁の整数になるので,\ 定義式を用いて計算するのが楽である.
別解のような表を作成するのもよい.
分散だけならば表は必要ないが,\ さらに共分散・相関係数も求める必要があるならば役立つ.
分散・標準偏差を求めるだけならば,\ {仮平均を利用}する方法も有効である.
平均値は約20と予想できるので,\ すべての数値から仮平均20を引く.
{その差の分散は,\ 元の数値で求めた分散と一致する.}\ 分散の意味は{平均値まわりの散らばり}である.
直感的には,\ {全ての数値を等しくずらしても散らばり具合は変化しない}と理解できる.
別項目では,\ このことを数式できちんと確認する.標準偏差}は
平均値が小数になる本問では,\ 偏差も小数になるのでその2乗の計算は大変になる.
このような場合,\ 別公式で分散を求めるのが楽である.\ 本問では小数の2乗は1回で済む.
ちなみに,\ 定義式で計算すると以下のようになる.