母比率と標本比率の分布

スポンサーリンク

特性Aの母比率$p}$\ \,   母集団の中である特性Aをもつ要素の割合.  特性Aの標本比率$R}$  標本の中である特性Aをもつ要素の割合.  母比率$p}$の母集団から大きさ$n}$の無作為標本を抽出したときの標本比率$R}$の分布}を考える.  標本の中で特性Aをもつ要素の個数を確率変数Xとすると $R=X}{n}$  復元抽出ならば$P(X=k)=C nkp^k(1-p)^{n-k}$であり,\ Xは二項分布$B(n,\ p)$に従う.}  よって,\ $n$が大きいとき},\ Xは近似的に正規分布$N(np,\ np(1-p))$に従う.}  ここで,\ Xは二項分布$B(n,\ p)$に従うから,\ 標本比率$R$の期待値$E(R)$と標準偏差$σ(R)$は  結局,\ $n}$が大きいとき,\ 標本比率$R= Xn}$は近似的に正規分布$N-.2zw}p,\ p(1-p)}{n$に従う. $\left[l} 最初の設定以外はほとんど既習事項の復習である. 標本調査では,\ 母集団が十分に大きく,\ 標本は復元抽出(反復試行)で作ると考えてよい. 1回の試行で事象Aの起こる確率がpの試行をn回行うとする(反復試行). このとき,\ 事象Aの起こる回数Xは二項分布B(n,\ p)に従うのであった. Xが二項分布B(n,\ p)に従うとき,\ 平均E(X)=np,\ 分散V(X)=npq\ (q=1-p)}であった. ここで,\ 平均E(X)=m,\ 標準偏差\,σ(X)=σ\,であるような正規分布をN(m,\ σ^2)と表すのであった. nが大きいとき},\ 二項分布B(n,\ p)は同じ平均と分散をもつ正規分布N(np,\ npq)で近似できた.} さらに,\ 公式E(aX)=aE(X),\ V(aX)=a^2V(X)}を用いて,\ E(R)とσ(R)を求められる. また,\ Xが正規分布に従うとき,\ aX+bも正規分布に従うことが知られている. よって,\ Rは近似的に平均E(R)=p,\ 標準偏差\,σ(R)=√{p(1-p)}{n\,の正規分布に従う. 母比率がpのとき,\ 標本比率の期待値(平均)もpになることは直感的にも納得できる. また,\ nが大きくなるほど標準偏差(平均値周りの散らばり)は小さくなる. 参考までに,\ 標本比率の分布についての別の観点を紹介しておく. 特性 Aの母比率pの母集団の各要素に対して,\ 次のようなダミー変量Xを設定する. このようなダミー変量は,\ 個数や回数の期待値を求めるときにも利用できた(数 A:確率). 例えば,\ 大きさ3の標本を抽出したとき,\ 1回目と3回目の要素が特性 Aをもっていたとしよう. このとき,\ 標本の中で特性 Aをもつ要素の個数をX_1+X_2+X_3=1+0+1=2個と求められる. 大きさnの標本に一般化すると,\ 標本の中で特性 Aをもつ要素の個数は X_1+X_2+・・・+X_n このとき,\ 標本比率R=X_1+X_2+・・・+X_n}{n}= X\,となる. 結局,\ 標本比率Rは標本平均の一種}であり,\ 標本平均と同様に近似的に正規分布に従う. 10万本の当たりくじを含む100万本のくじの中から$n$本引いたときの当たりくじの 割合を$R$とする.  (1)\ \ $n=100$のとき,\ 標本比率$R$の期待値$E(R)$と標準偏差$σ(R)$を求めよ.  (2)\ \ $n=100$のとき,\ 16本以上の当たりくじを引く確率を求めよ. 例によって,\ 正規分布は標準正規分布に変換し,\ 正規分布表を利用する.} Xが平均m,\ 標準偏差\,σ\,の正規分布N(m,\ σ^2)に従うとする. このとき,\ Z=X-m}{σ\,とおくと,\ Zは標準正規分布N(0,\ 1)に従うのであった. すでに本問と本質的に同じ問題を「二項分布の正規分布による近似」の項で扱った. ここでは,\ その復習に加えて改めて問題の意味合いと背景を確認する. 実際にくじをn本引いたときの当たりくじの割合Rは統計的確率}である. 仮に900本のくじ引いて当たりくじが92本だったならば,\ R=92}{900}≒0.102となる. 一方,\ 当たりくじを引く数学的確率}(理論値)は当然\,1}{10}=0.1\ (母比率})である. R-1}{10\,は統計的確率と数学的確率の誤差}を意味しており,\ この場合の誤差は約0.002となる. ここで,\ 実際に100万本のくじの中から900本のくじを引くことを何回も繰り返すとしよう. 900本の内の当たりくじの本数は毎回変わるから,\ 統計的確率も誤差も毎回変わる. このときの誤差が0.01以下におさまる確率を求めるのが本問である. 標本平均\, X\,は,\ nが大きくなるほど母平均mに近い値をとりやすくなるのであった(大数の法則). 標本比率も標本平均の一種であるから,\ これを以下のように言い換えることができる. 標本比率Rは,\ nが大きくなるほど母比率pに近い値をとりやすくなる(大数の法則).} 本問はこれの確認であり,\ 実際n=3600の場合の方が誤差が0.01以下になる確率が高い. 大数の法則は,\ 標本比率から逆に母比率が推定できることを示唆している.