特性Aの\textbf{\textcolor{blue}{母比率$\bm{p}$}}\ \, 母集団の中である特性Aをもつ要素の割合. \\[.2zh] 特性Aの\textbf{\textcolor{blue}{標本比率$\bm{R}$}} 標本の中である特性Aをもつ要素の割合. \\\\ \textbf{母比率$\bm{p}$の母集団から大きさ$\bm{n}$の無作為標本を抽出したときの標本比率$\bm{R}$の分布}を考える. \\[1zh] 標本の中で特性Aをもつ要素の個数を確率変数$X$とすると $R=\bunsuu{X}{n}$ \\[.2zh] 復元抽出ならば$P(X=k)=\kumiawase nkp^k(1-p)^{n-k}$であり,\ \textcolor{red}{$X$は二項分布$B(n,\ p)$に従う.} \\[.2zh] よって,\ \textcolor{red}{\underline{$n$が大きいとき},\ $X$は近似的に正規分布$N(np,\ np(1-p))$に従う.} \\[1zh] ここで,\ $X$は二項分布$B(n,\ p)$に従うから,\ 標本比率$R$の期待値$E(R)$と標準偏差$\sigma(R)$は \\[.8zh] 結局,\ \textcolor{red}{\textbf{\underline{$\bm{n}$が大きいとき}},\ \textbf{標本比率$\bm{R=\bunsuu Xn}$は近似的に正規分布$\bm{N\hspace{-.2zw}\left(p,\ \bunsuu{p(1-p)}{n}\right)}$に従う.}} \\\\\\ \centerline{{\small $\left[\textcolor{brown}{\begin{array}{l} 最初の設定以外はほとんど既習事項の復習である. \\[.2zh] 標本調査では,\ 母集団が十分に大きく,\ 標本は復元抽出(反復試行)で作ると考えてよい. \\[.2zh] 1回の試行で事象Aの起こる確率がpの試行をn回行うとする(反復試行). \\[.2zh] このとき,\ 事象Aの起こる回数Xは二項分布B(n,\ p)に従うのであった. \\[.2zh] Xが二項分布B(n,\ p)に従うとき,\ \bm{平均E(X)=np,\ 分散V(X)=npq\ (q=1-p)}であった. \\[.2zh] ここで,\ 平均E(X)=m,\ 標準偏差\,\sigma(X)=\sigma\,であるような正規分布をN(m,\ \sigma^2)と表すのであった. \\[.2zh] \bm{\underline{nが大きいとき},\ 二項分布B(n,\ p)は同じ平均と分散をもつ正規分布N(np,\ npq)で近似できた.} \\[.4zh] さらに,\ 公式\bm{E(aX)=aE(X),\ V(aX)=a^2V(X)}を用いて,\ E(R)と\sigma(R)を求められる. \\[.2zh] また,\ Xが正規分布に従うとき,\ aX+bも正規分布に従うことが知られている. \\[.2zh] よって,\ Rは近似的に平均E(R)=p,\ 標準偏差\,\sigma(R)=\ruizyoukon{\bunsuu{p(1-p)}{n}}\,の正規分布に従う. \\\\ 母比率がpのとき,\ 標本比率の期待値(平均)もpになることは直感的にも納得できる. \\[.2zh] また,\ nが大きくなるほど標準偏差(平均値周りの散らばり)は小さくなる. \\[1zh] 参考までに,\ 標本比率の分布についての別の観点を紹介しておく. \\[.2zh] 特性\text Aの母比率pの母集団の各要素に対して,\ 次のようなダミー変量Xを設定する. \\[.2zh] このようなダミー変量は,\ 個数や回数の期待値を求めるときにも利用できた(数\text A:確率). \\[.2zh] 例えば,\ 大きさ3の標本を抽出したとき,\ 1回目と3回目の要素が特性\text Aをもっていたとしよう. \\[.2zh] このとき,\ 標本の中で特性\text Aをもつ要素の個数をX_1+X_2+X_3=1+0+1=2個と求められる. \\[.2zh] 大きさnの標本に一般化すると,\ 標本の中で特性\text Aをもつ要素の個数は X_1+X_2+\cdots+X_n \\[.2zh] このとき,\ 標本比率R=\bunsuu{X_1+X_2+\cdots+X_n}{n}=\kyouyaku X\,となる. \\[.8zh] 結局,\ \bm{標本比率Rは標本平均の一種}であり,\ 標本平均と同様に近似的に正規分布に従う. 10万本の当たりくじを含む100万本のくじの中から$n$本引いたときの当たりくじの \\[.2zh] \hspace{.5zw}割合を$R$とする. \\[1zh] \hspace{.5zw} (1)\ \ $n=100$のとき,\ 標本比率$R$の期待値$E(R)$と標準偏差$\sigma(R)$を求めよ. \\[.8zh] \hspace{.5zw} (2)\ \ $n=100$のとき,\ 16本以上の当たりくじを引く確率を求めよ. \\[.8zh] 例によって,\ \bm{正規分布は標準正規分布に変換し,\ 正規分布表を利用する.} \\[.2zh] Xが平均m,\ 標準偏差\,\sigma\,の正規分布N(m,\ \sigma^2)に従うとする. \\[.2zh] このとき,\ \bm{Z=\bunsuu{X-m}{\sigma}}\,とおくと,\ Zは標準正規分布N(0,\ 1)に従うのであった. すでに本問と本質的に同じ問題を「二項分布の正規分布による近似」の項で扱った. \\[.2zh] ここでは,\ その復習に加えて改めて問題の意味合いと背景を確認する. \\[1zh] 実際にくじをn本引いたときの当たりくじの割合\bm{Rは統計的確率}である. \\[.2zh] 仮に900本のくじ引いて当たりくじが92本だったならば,\ R=\bunsuu{92}{900}\kinzi0.102となる. \\[.8zh] 一方,\ 当たりくじを引く\bm{数学的確率}(理論値)は当然\,\bunsuu{1}{10}=0.1\ (\bm{母比率})である. \\[.8zh] \bm{\zettaiti{R-\bunsuu{1}{10}}\,は統計的確率と数学的確率の誤差}を意味しており,\ この場合の誤差は約0.002となる. \\\\ ここで,\ 実際に100万本のくじの中から900本のくじを引くことを何回も繰り返すとしよう. \\[.2zh] 900本の内の当たりくじの本数は毎回変わるから,\ 統計的確率も誤差も毎回変わる. \\[.2zh] このときの誤差が0.01以下におさまる確率を求めるのが本問である. \\[.2zh] 標本平均\,\kyouyaku X\,は,\ nが大きくなるほど母平均mに近い値をとりやすくなるのであった(大数の法則). \\[.2zh] 標本比率も標本平均の一種であるから,\ これを以下のように言い換えることができる. \\[.2zh] \bm{標本比率Rは,\ nが大きくなるほど母比率pに近い値をとりやすくなる(大数の法則).} \\[.2zh] 本問はこれの確認であり,\ 実際n=3600の場合の方が誤差が0.01以下になる確率が高い. \\[.2zh] 大数の法則は,\ 標本比率から逆に母比率が推定できることを示唆している.
母比率と標本比率の分布
