標本平均の期待値と標準偏差, 大数の法則

スポンサーリンク

母集団から抽出した大きさ$n$の標本$\{X_1,\ X_2,\ ・・・,\ X_n\$を1つのデータ}とみたとき,   その平均値$ X$,\ 分散$S^2$,\ 標準偏差$S$をそれぞれ標本平均,\ 標本分散,\ 標本標準偏差という.  標本平均$ X}$の期待値と標準偏差   母平均$m$,\ 母標準偏差σの母集団から大きさ$n$の無作為標本を抽出するとき   標本平均$ X}$の期待値   $E( X)=m$   標本平均$ X}$の標準偏差   確率変数X_1,\ X_2,\ ・・・,\ X_n\,で定まる標本平均\, X\,も確率変数である. よって,\ 標本平均\, X\,の期待値(平均)や標準偏差を考えることができる. 「標本平均の平均」ではややこしくなるので,\ 「標本平均の期待値」と呼ぶことにする. 証明や意味合いは以下の具体的な問題で確認してほしい. 母集団$\{1,\ 2,\ 3\}$から復元抽出された大きさ2の標本を$\{X_1,\ X_2\}$とする.\  (1)\ \ $\{X_1,\ X_2\}=\{3,\ 2\}$のとき,\ 標本平均$ X$と標本標準偏差$S$を求めよ.  (2)\ \ 標本平均$ X$の確率分布,\ 期待値$E( X)$,\ 標準偏差$σ( X)$を求めよ. \\ (1)\ \ 単に標本\{3,\ 2\}の平均と標準偏差を求めるだけである. \ \ 解答では,\ 標準偏差の定義√{偏差(平均との差)の2乗の平均}\ に基づいて求めた. \ \ もちろん,\ 2乗平均\,3^2+2^2}{2}=13}{2}\,より,\ S=√{13}{2}-52^2}=1}{2}\,と求めてもよい. (2)\ \ 大きさ3の母集団から大きさ2の標本を抽出するとき,\ \{X_1,\ X_2\}の組は3^2=9通りあり得る. \ \ あるときは\{X_1,\ X_2\}=\{3,\ 1\}となり,\ このとき\, X=(3+1)/2=2である. \ \ またあるときは\{X_1,\ X_2\}=\{3,\ 3\}となり,\ このとき\, X=(3+3)/2=3\,である. \ \ このように,\ X_1\,とX_2\,が何になるかによって,\ 本問の場合\, X\,は5通りの値をとりうる. \ \ もちろん,\ X\,の最小値は\{1,\ 1\}のときの1,\ 最大値は\{3,\ 3\}のときの3である. \ \ これら9通りの\{X_1,\ X_2\}の組それぞれの標本平均\, X\,の期待値(平均)がE( X)である. \ \ $毎回どの数字になる確率も\,13\,(復元抽出)より,\,どの\{X_1,\ X_2\}になる確率も\,13・13=19\,である.$ \ \ 以上をまとめたのが左表で,\ さらにこれを元に標本平均\, X\,の確率分布(右表)を作成できる. \ \ 本解は,\ 右表の\, X\,の確率分布に基づいて愚直にE( X)とσ( X)を求めるものである. \ \ σ( X)については,\ 確率変数の標準偏差の定義\ √{Σ{k=1}{n}(x_k- x)^2p_k}\ を用いて求めてもよい. \ \ 母集団の大きさ3,\ 標本の大きさ2の本問ですらこの面倒さである. \ \ 実際の標本調査では,\ 母集団や標本の大きさが何万や何百になる(少ないなら全数調査が可能). \ \ そこで,\ 公式E( X)=m,\ σ( X)=σ}{√ n}\,の利用が重要になるわけである(別解). \ \ 母平均mと母標準偏差\,σ\,は大きさ1の標本\{X_1\}の期待値と標準偏差と一致する}のであった. \ \ 結局,\ E(X_1)と\,σ(X_1)さえ求めれば済む.\ この方法ならば,\ 標本の大きさによらず瞬時に求まる. \ \ 母集団が同じならば,\ E(X_1)と\,σ(X_1)は標本の大きさによらず同じだからである. なお,\ X_1\,とX_2\,の確率分布は同じ(復元抽出)なので,\ E(X_1)=E(X_2),\ σ(X_1)=σ(X_2)である. ところで,\ 実際の標本調査では,\ 非復元抽出が普通}である. ある工場で作られた製品の強度を知りたいとき,\ 同じ製品を何回も調べる意味はない. 一方,\ 標本調査は,\ 母集団が大きく全数調査が困難な場合に行われる. 母集団が十分に大きければ,\ 先に抽出した要素が後に抽出される要素に与える影響は少なくなる. よって,\ 実用上,\ 標本調査は復元抽出で,\ 確率変数X_1,\ X_2,\ ・・・,\ X_n\,は互いに独立として扱う.} 以上を前提とすると,\ 以下のようにして公式を証明できる.\ 難しくはないので理解しておいてほしい. \\E(aX+bY)=aE(X)+bE(Y)X,\ Yが独立}なら\ V(aX+bY)=a^2V(X)+b^2V(Y) 標本全パターンの標本平均\, X\,をそれぞれ求め,\ さらにその期待値を求めると結局母平均と一致する.} 直感的に当然だとまでは思えないかもしれないが,\ そこまで不思議なことではないだろう. また,\ nが大きくなるほど標準偏差\ σ( X)=σ}{√ n}\ (平均値周りの散らばり)が小さくなる. 問題では大きさ2の標本だったが,\ 母集団\{1,\ 2,\ 3\}から大きさ100の標本を復元抽出するとしよう. このとき,\ X=1,\ つまり\{1,\ 1,\ 1,\ ・・・,\ 1\}となる確率はわずか13^{100}になる. 結局,\ 標本平均\, X\,はnが大きくなるほど母平均2に近い値をとりやすくなる. この性質を大数(\.{た}いすう)の法則}といい,\ 標本平均から逆に母平均を推測できることを示唆している