高校数学[総目次]

数学B 第3章 統計的な推測

  スライド ノート
1. 確率変数と確率分布  
2. 確率変数の期待値と分散  
3. 確率変数の変換  
4. 確率変数の和と期待値  
5. 独立な確率変数と期待値・分散  
6. 二項分布  
7. 正規分布  
8. 母集団と標本  
9. 推定  
10. 仮説検定  

8.母集団と標本

注意
 この節では,教科書であいまいにされたままになっている部分などを「発展的補足」として説明した部分が存在するが,その内容について高校数学,あるいは大学受験に必要なものは少ない.

8.1 標本

 統計的な調査には,調査対象の全数を調べる全数調査と,調査対象の一部を調べて全体を推測する標本調査がある.

 全数調査で有名なのが,5年に1度の国勢調査である.一方,テレビの視聴率といったものは標本調査である.

 調査対象を正確に知るには全数調査がよいと思うかもしれないが必ずしもそうではない.調査対象が日本人全体といった場合には莫大な費用と時間を要するし,あるいは製品の破壊強度の検査の場合には全数調査がそもそも意味を持たなくなってしまう.また,経済成長率のように現時点で測定不可能な要素を含む場合もある.

標本調査におけるいくつかの用語

 母集団:調査対象全体
 標本 :母集団から選ばれた要素の集合
 抽出 :母集団から標本を抜き出すこと
 母集団の大きさ:母集団の要素の個数
 標本の大きさ :標本の要素の個数
 無作為抽出:調査対象をランダムに選ぶこと
 無作為標本:無作為抽出によってえらばれた標本

8.2 母集団分布

[全数調査]

 10枚のカードがあり,調べてみると0,1,2が書かれたカードがそれぞれ5枚,2枚,3枚の計10枚であった.ここから無作為に1枚取り出し,カードに書かれた数を $X$ とするとき,$X$ の確率分布は次のようになる.

$X$$0\hspace{8mm}1\hspace{8mm}2$
$P$$\dfrac5{10}\hspace{5mm}\dfrac2{10}\hspace{5mm}\dfrac3{10}$$1$

 上の表は10枚のカードすべてを調べた結果得られた分布で,母集団分布という.この分布をもとにして得られる平均値,分散,標準偏差をそれぞれ母平均母分散母標準偏差という.

例題 上の例における母平均,母分散,母標準偏差を求めよ.

 母平均:$E(X)=0\cdot\dfrac5{10}+1\cdot\dfrac2{10}+2\cdot\dfrac3{10}=\dfrac45$
 母分散:$E(X^2)=0^2\cdot\dfrac5{10}+1^2\cdot\dfrac2{10}+2^2\cdot\dfrac3{10}=\dfrac75$
     $\therefore V(X)=E(X^2)-\{E(X)\}^2=\dfrac75-\left(\dfrac45\right)^2=\dfrac{19}{25}$
 母標準偏差:$\sigma(X)=\sqrt{\dfrac{19}{25}}=\dfrac{\sqrt{19}}5$

8.3 復元抽出と非復元抽出

 母集団から標本を抽出するとき,毎回元に戻して抽出を繰り返す方法を復元抽出といい,元に戻さないで抽出していく方法を非復元抽出という.

 1~10が書かれたカードから,大きさ3の標本を抽出するとき,

復元抽出 :$10^3=1000$ 通りの標本ができる.
非復元抽出:選ぶ順番を考慮すると$_{10}{\rm P}_3=720$ 通りの標本ができる

補足

 復元抽出は,厳密には独立試行とならないが,抽出回数に比べて母集団の大きさが十分大きいとき,前の抽出結果が後の抽出にほとんど影響しないと考えて近似的に復元抽出と同様に独立試行であると考える場合がある.

8.4 標本平均

 母集団(という集合)から大きさ $n$ の無作為標本を抽出する,すなわち無作為に $n$ 個の要素を抽出し,集合を作る.この $n$ 個の変量 $x$ の値を $X_1,X_2,\cdots,X_n$ とすると,これらは標本からの抽出という試行の結果によって定まる確率変数である.

 例えば,1~6の各数字が書かれたカードが1枚ずつ,計6枚あるとしてこれを母集団とする.ここからカードを無作為に1枚ずつ取り出しては戻すという操作を10回行い,$i$ 回目に取り出されたカードの数字を $X_i$ $(i=1,2,\cdots,10)$ とすると,これらは確率変数となり,各 $X_i$ は すべて同じ分布に従う

$X_i$$1\ \ \ \ 2\ \ \ \ 3\ \ \ \ 4\ \ \ \ 5\ \ \ \ 6$
$P$$\dfrac16\ \ \dfrac16\ \ \dfrac16\ \ \dfrac16\ \ \dfrac16\ \ \dfrac16$$1$
$X_i$ が従う確率分布

 次に,標本平均標本標準偏差について説明する.標本平均 $\overline{X}$ と標本標準偏差 $s$ は次のように定義する.

標本平均と標本標準偏差 \[\begin{align*} &\overline{X}=\frac{X_1+X_2+\cdots+X_n}n\\[5pt] &s=\sqrt{\frac1n\sum_{k=1}^n(X_n-\overline{X})^2} \end{align*}\]

 これらは定義式からわかるように,観測された $n$ 個のデータについての平均と標準偏差である.また標本分散は標本標準偏差の2乗で $\displaystyle\frac1n\sum_{k=1}^n(X_n-\overline{X})^2$ となっている.標本平均 $\overline{X}$ については次に示すように期待値 $E(\overline{X})$ が母平均に一致するが,標本分散についてはその期待値 $\displaystyle E\left(\frac1n\sum_{k=1}^n(X_n-\overline{X})^2\right)$ が母分散と一致していない.詳しくは下の発展的補足を参照.

 ある母集団から大きさを $n$ の無作為標本を復元抽出し,変量 $x$ の値を $X_1,X_2,\cdots,X_n$ とする.母平均を $m$,母標準偏差を $\sigma$ とすれば,各 $X_i$ $(i=1,2,\cdots,n)$ はすべて同じ分布(母集団分布)に従うから,すべての $\boldsymbol i$ で

\[\begin{align*} &E(X_i)=m\\[5pt] &\sigma(X_i)=\sigma \end{align*}\]

である.従って,標本平均 $\overline{X}$ の期待値は,

\[\begin{align*} E(\overline{X})&=E\left(\frac{X_1+X_2+\cdots+X_n}n\right)\\[5pt] &=\frac{E(X_1)+E(X_2)+\cdots+E(X_n)}n\\[5pt] &=\frac{nm}n\\[5pt] &=m \end{align*}\]

 また,復元抽出では$X_1,X_2,\cdots,X_n$ は互いに独立であるから,

\[\begin{align*} V(\overline{X})&=V\left(\frac{X_1+X_2+\cdots+X_n}n\right)\\[5pt] &=\frac{V(X_1)+V(X_2)+\cdots+V(X_n)}{n^2}\\[5pt] &=\frac{n\sigma^2}{n^2}\\[5pt] &=\frac{\sigma^2}n\\[5pt] \therefore \sigma(\overline{X})&=\sqrt{V(\overline{X})}=\frac\sigma{\sqrt n} \end{align*}\]

 ここでは復元抽出を仮定したが,母集団の大きさが標本の大きさ $n$ に比べて十分大きいときは,非復元抽出であっても近似的に復元抽出として考えることもある.

まとめ  母平均 $m$,母標準偏差 $\sigma$ の母集団から大きさ $n$ の無作為標本を抽出するとき,標本平均 $\overline{X}$ の期待値と標準偏差は \[\begin{align*} E(\overline{X})&=m\\[5pt] \sigma(\overline{X})&=\frac\sigma{\sqrt n} \end{align*}\]

補足

 上の式から,標本の大きさ $n$ を大きくすると,標本平均 $\overline{X}$ の散らばり具合である標準偏差は0に近付いていくことがわかる.

発展的補足

 標本標準偏差 $s=\displaystyle\sqrt{\dfrac1n\sum_{k=1}^n(X_n-\overline{X})^2}$ から標本分散 $s^2$ は, $s^2=\displaystyle\frac1n\sum_{k=1}^n(X_n-\overline{X})^2$ となるが,この式では母分散を正確に評価できていない.どういうことかといえば,$s^2$ の期待値は母分散 $\sigma^2$ と等しくならないのである.母分散と等しくなるためには,

\[{s’}^{\,2}=\frac1{\boldsymbol{ n-1}}\sum_{k=1}^n(X_n-\overline{X})^2\]

というように,分母を $n-1$ にしなくてはならない.この ${s’}^{\,2}$ を母分散 $\sigma^2$ の不偏推定量,または不偏分散という.実際,$Y_i=X_i-m$ とおくと,

\[\begin{align*} \sum_{i=1}^n(X_i-\overline{X})^2&=\sum_{i=1}^n\{(X_i-m)-(\overline{X}-m)\}^2\\[5pt] &=\sum_{i=1}^n(Y_i-\overline{Y})^2\\[5pt] &=\sum_{i=1}^n({Y_i}^2-2Y_i\overline{Y}+\overline{Y}^2)\\[5pt] &=\sum_{i=1}^n{Y_i}^2-2\overline{Y}\sum_{i=1}^n Y_i+\sum_{i=1}^n\overline{Y}^2\\[5pt] &=\sum_{i=1}^n{Y_i}^2-2n\overline{Y}^2+n\overline{Y}^2\\[5pt] &=\sum_{i=1}^n{Y_i}^2-n\overline{Y}^2 \end{align*}\]

となるから,期待値をとると

\[\begin{align*} E\left(\sum_{i=1}^n(X_i-\overline{X})^2\right)&=E\left(\sum_{i=1}^n{Y_i}^2-n\overline{Y}^2\right)\\[5pt] &=\sum_{i=1}^nE({Y_i}^2)-nE\Bigl(\overline{Y}^2\Bigr)\ \cdots\mbox{①} \end{align*}\]

となる.ここで,

\[\begin{align*} E(Y_i)&=E(X_i-m)\\[5pt] &=E(X_i)-m\\[5pt] &=m-m\\[5pt] &=0\\[5pt] E(\overline{Y})&=E\left(\frac1n\sum_{i=1}^n(X_i-m)\right)\\[5pt] &=\frac1n\sum_{i=1}^nE(X_i-m)\\[5pt] &=\frac1n\sum_{i=1}^n(m-m)\\[5pt] &=0 \end{align*}\]

であるから,

\[\begin{align*} E({Y_i}^2)&=E({Y_i}^2)-\{E(Y_i)\}^2\ \ \ (\because E(Y_i)=0)\\[5pt] &=V(Y_i)\\[5pt] &=V(X_i)\\[5pt] &=\sigma^2\\[5pt] E(\overline{Y}^2)&=E(\overline{Y}^2)-\{E(\overline{Y})\}^2\ \ \ (\because E(\overline{Y})=0)\\[5pt] &=V(\overline{Y})\\[5pt] &=\frac{n\sigma^2}{n^2}\\[5pt] &=\frac{\sigma^2}n \end{align*}\]

 従って①より,

\[\begin{align*} E\left(\sum_{i=1}^n(X_i-\overline{X})^2\right)&=\sum_{i=1}^nE({Y_i}^2)-nE\Bigl(\overline{Y}^2\Bigr)\\[5pt] &=n\sigma^2-n\cdot\frac{\sigma^2}n\\[5pt] &=(n-1)\sigma^2 \end{align*}\]

 ${s’}^{\,2}$ の期待値は,この式を $n-1$ で割れば得られるから,

\[E({s’}^{\,2})=\frac1{n-1}E\left(\sum_{i=1}^n(X_i-\overline{X})^2\right)=\frac{(n-1)\sigma^2}{n-1}=\sigma^2\]

8.5 標本平均の分布と正規分布

 母平均 $m$,母分散 $\sigma^2$ の母集団から,大きさ $n$ の無作為標本を抽出し,それらの変量の値を $X_1,X_2,\cdots, X_n$ とすると,これらはみな同じ分布(母集団分布)に従う確率変数である.

 統計学において,これら $n$ 個の確率変数の和 $X_1+X_2+\cdots+X_n$ をとることには大きな意味がある. $n$ 個の確率変数の平均値 $\dfrac{X_1+X_2+\cdots+X_n}n$ の確率分布が,$n$ を大きくしていくとどんどん正規分布に近付いていくのである.どういうことかを次の例で説明する.

 さいころを何回か投げることを考える.確率変数 $X_n$ を $n$ 回目出た目とする.$X_n$ のとりうる値は 1~6の6つである.

 さいころを1回だけ投げる場合,どの目が出る確率も $\dfrac16(=0.166\cdots)$ となっており,確率分布は次のグラフのようになっている.

 この段階では正規分布の影もない.

 次に,さいころを2回投げたときの標本平均 $\dfrac{X_1+X_2}2$,すなわち2回の出た目の平均値を考える.さいころを2回投げたとき,全部の目の出方は $6\times6=36$ 通りあり,出た目の合計は $2,3,4,\cdots 12$ の11通りある.平均値は2で割って $1.0,1.5,2.0,\cdots6.0$ である.$\dfrac{X_1+X_2}2$ の確率分布を

\[P(X_1+X_2=k)=\left\{ \begin{array}{ll} \dfrac{k-1}{36}&(2\leqq k\leqq7)\\[5pt] \dfrac{13-k}{36}&(8\leqq k\leqq 12) \end{array}\right. \]

によって計算すると次のようになる.

 2回の平均値で既に正規分布の特徴である山型が出現している.

 そして5回投げた平均値 $\dfrac{X_1+X_2+X_3+X_4+X_5}5$ のグラフが次である.

 さいころをたった5回投げただけであるにもかかわらず,一見しただけでは正規分布のグラフと見分けがつかない.

 一般に,標本平均 $\overline{X}=\dfrac{X_1+X_2+\cdots+X_n}n$ について,次の事実が知られている.

定理  母平均 $m$,母分散 $\sigma^2$ の母集団から,大きさ $n$ の無作為標本を抽出する.$n$ が十分に大きいとき,標本平均 $\overline{X}$ は近似的に正規分布 $N\left(m,\dfrac{\sigma^2}n\right)$ に従うとみなすことができる.

補足

 これは統計学における大定理であって,中心極限定理と呼ばれる.この定理は母集団分布が何であっても $n$ が十分に大きいときには $\overline{X}$ が概ね正規分布に従うというもので,神秘的ですらある.
 尚,母集団分布が正規分布とわかっているときには,$n$ の大きさによらず常に正規分布 $N\left(m,\dfrac{\sigma^2}n\right)$ に近似的にではなく正確に従うことが知られている.

母比率と標本比率

 母集団において,ある特性をもつ割合を母比率という.母集団から抽出された標本の中で,その特性をもつ比率を標本比率という.

 ある特性Aをもつ母比率が $p$ である母集団から大きさ $n$ の無作為標本を抽出したとき,特性Aをもつ個数が $S$ であるとすると,$S$ は二項分布 $B(n,p)$ に従う確率変数で,平均は $np$,分散は $np(1-p)$ である.二項分布に従う確率変数は $n$ が十分大きいとき,近似的に正規分布 $N(np,np(1-p))$ に従うのであった.

 ここで特性Aをもつ標本比率を $R$ とすれば,$R=\dfrac Sn$ であるから $R$ もまた確率変数で,その平均,分散はそれぞれ

\[\begin{align*} &E(R)=E\left(\frac Sn\right)=\frac{E(S)}n=\frac{np}n=p\\[5pt] &V(R)=V\left(\frac Sn\right)=\frac{V(S)}{n^2}=\frac{np(1-p)}{n^2}=\frac{p(1-p)}n \end{align*}\]

である.

 次に,$n$ が大きいとき,標本比率 $R$ が近似的に正規分布 $N\left(p,\dfrac{p(1-p)}n\right)$ に従うことを説明する.

 $X_i\ (i=1,2,\cdots n)$ を,$i$ 番目の標本が特性Aをもてば $X_i=1$,もたなければ $X_i=0$ とすると,$X_i$ はすべて $P(X_i=1)=p, P(X_i=0)=1-p$ に従う確率変数で,

\[S=X_1+X_2+\cdots +X_n\]

であるから,

\[R=\frac Sn=\frac{X_1+X_2+\cdots +X_n}n\]

と表される.すなわち標本比率 $R$ は標本平均 $\overline{X}$ なのである.従って中心極限定理により,$n$ が大きいとき $R$ は近似的に正規分布 $N\left(p,\dfrac{p(1-p)}n\right)$ に従うのである.

母比率と正規分布  母比率が $p$ である母集団から大きさ $n$ の無作為標本を抽出すると,標本比率 $R$ は $n$ が大きいとき近似的に正規分布 $N\left(p,\dfrac{p(1-p)}n\right)$ に従う.

8.6 大数の法則

 前節で述べた定理(中心極限定理)は,標本平均 $\overline{X}$ が近似的に $N\left(m,\dfrac{\sigma^2}n\right)$ に従うというものであったが, $n$ を大きくしていくと,$\overline{X}$ は $m$ の付近に集中していく.つまり,$\overline{X}$ が $m$ に近い値をとる確率を,$n$ を大きくすることでいくらでも1に近付けることができるということである.これを大数の法則(law of large numbers)という.

大数の法則  母平均 $m$ の母集団から大きさ $n$ の無作為標本を抽出するとき,標本平均 $\overline{X}$ は $n$ が大きくなるにつれて母平均 $m$ に近付く.

 例えば,硬貨を $n$ 回投げて,表が出る割合(確率)を考える.理論上表の出る割合(確率)は $\dfrac12$ だが,実際に $n$ 回投げたうちのちょうど半分が表という訳ではない.

 確率変数 $X_k$ を

$k$ 回目に表が出れば, $X_k=1$
$k$ 回目に裏が出れば, $X_k=0$

とし,

\[X=X_1+X_2+\cdots+X_n\]

とすると,$X$ は観測された表の出る回数を表し,二項分布 $B\left( n,\dfrac12\right)$ に従うから, $X=x$ となる確率は

\[_n{\rm C}_x\left(\frac12\right)^n\]

である.

 今,10回$(n=10)$投げるとすれば,表の出る割合は $0.0, 0.1, 0.2, \cdots , 1.0$ の11通りあり,そうなる確率 $_{10}{\rm C}_x\left(\dfrac12\right)^{10}$ は $N=2^{10}=1024$ とおけば順に

\[\frac1N,\frac{10}N,\frac{45}N,\frac{120}N,\frac{210}N, \frac{252}N,\frac{210}N,\frac{120}N,\frac{45}N,\frac{10}N,\frac{1}N\]

となる.例えば

\[P\left(0.4\leqq \frac x{10}\leqq 0.6\right)=\frac{210+252+210}{1024}\fallingdotseq0.66\]

であり,真の確率 $\dfrac12$ 周辺の発生割合が高いが,$1-0.66=0.34$ より $34\%$ 程度の確率で $\dfrac12$ から離れた割合となることもわかる.

 ところがこの試行を50回,100回 と増やしていくと,表の出る割合が $0.4$ ~ $0.6$ となる確率は

\[\begin{align*} &P\left(0.4\leqq\frac x{50}\leqq 0.6\right)\fallingdotseq 0.88\\[5pt] &P\left(0.4\leqq\frac x{100}\leqq 0.6\right)\fallingdotseq 0.97 \end{align*}\]

となって,確率 $\dfrac12$ 付近に集中していく.これが大数の法則で主張している内容である.

例1

 あるテレビ番組Aを見た世帯の割合が30%(母比率が0.3)である地域があるとする.いまこの地域から大きさ100の無作為標本を抽出し,それらの変量 $x$ を

番組Aを観たとき   $X_i=1$
番組Aを観てないとき $X_i=0$

とする.$X_1,X_2,\cdots,X_{100}$ は独立で,すべて同一の確率分布 $P(X_i=1)=0.3,P(X_i=0)=0.7$ に従う.ここで

\[S=X_1+X_2+\cdots+X_{100}\]

とおけば,$S$ は抽出された $100$ 世帯の中に番組Aを観た世帯数を表す確率変数で,二項分布 $B(100,0.3)$ に従う.

 標本比率 $\dfrac S{100}$ の平均と分散は次のようになる.

\[\begin{align*} E\left(\frac S{100}\right)&=\frac{E(S)}{100}=\frac{100\times0.3}{100}=0.3\\[5pt] V\left(\frac S{100}\right)&\!=\!\frac{V(S)}{100^2}\!=\!\frac{100\!\cdot\!0.3(1\!-\!0.3)}{100^2}\!=\!\frac{0.3\!\times\!0.7}{100}\!=\!0.0021\\[5pt] \sigma\left(\frac S{100}\right)&=\sqrt{V\left(\frac S{100}\right)}=\sqrt{0.0021}\fallingdotseq 0.046 \end{align*}\]

 よって,観測された標本比率 $\dfrac S{100}$ はほぼ $30\%\pm4.6\%$ 程度になると期待される.そして大数の法則によれば,標本の大きさ $n$ を大きくしていくとどんどん母平均 $0.3$ に近付いていく.

 このように標本平均は全体の一部しか見ていないにもかかわらず,母平均をかなりの精度で推定できるということが,統計学から得られた知見である.

例2

 あるりんご農園で行う選定作業において,基準に満たない母比率が $0.1$ であるとわかっているとき,100個収穫した際に出荷できない個数は二項分布 $B(100,\ 0.1)$ に従う.このとき平均と分散は

\[\begin{align*} &100\times0.1=10,\\[5pt] &100\times0.1\times(1-0.1)=9 \end{align*}\]

となるから, サンプルのために収穫した100個のうち,基準に満たないものの個数は近似的に正規分布 $N(10,9)$ に従う.

 また,標本比率の平均 $E$ と分散 $V$ は次のようになる.

\[\begin{align*} E&=0.1\\[5pt] V&=\frac{0.1(1-0.1)}{100}=0.0009 \end{align*}\]

 従って,サンプルとして収穫したものに含まれる基準に満たない個数の割合(標本比率)は正規分布 $N(0.1,\ 0.0009)$ に従う.

高校数学[総目次]

数学B 第3章 統計的な推測

  スライド ノート
1. 確率変数と確率分布  
2. 確率変数の期待値と分散  
3. 確率変数の変換  
4. 確率変数の和と期待値  
5. 独立な確率変数と期待値・分散  
6. 二項分布  
7. 正規分布  
8. 母集団と標本  
9. 推定  
10. 仮説検定