分散と標準偏差｜意味・公式・変換の性質をやさしく解説

数学Ⅰ　第3章　データの分析

	スライド	ノート
1. データの代表値
2. データの散らばりと四分位範囲
3. 分散と標準偏差
4. 2つの変量の間の関係
5. 仮説検定の考え方

3．分散と標準偏差

3.1 分散と標準偏差

偏差とは?

変量 $x$：$x_1,\ x_2,\ \cdots,\ x_n$
変量 $x$ の平均値：$\overline{x}$

　このとき，

\[x_1-\overline{x},\ x_2-\overline{x},\ \cdots,\ x_n-\overline{x}\]

を，変量 $x_1,\ x_2,\ \cdots,\ x_n$ の平均値からの偏差という．

補足

　偏差とは要するに各データの平均値からのズレのことである．平均値より大きければプラス，小さければマイナスの値となる．

分散とは?

　例えばあるテストの平均点が50点であると言ったとき，全員が50点だった場合や，100点もいれば0点もいるといった場合もあって，平均点からはこういった様子は見えてこない．

　そこで平均値からのズレである偏差を用いて，偏差が平均的にどのような値であるかを見ればデータのばらつき具合がわかりそうであるが、実はそうもいかない．何故ならどんなデータであっても偏差の平均値は常に0となってしまうからである．実際，データ数が3の場合で計算してみると，

\[\begin{align*}
&\frac13\{(x_1-\overline{x})+(x_2-\overline{x})+(x_3-\overline{x})\}\\[5pt]
&=\frac{x_1+x_2+x_3}3-\frac{3\overline{x}}3\\[5pt]
&=\overline{x}-\overline{x}\\[5pt]
&=0.
\end{align*}\]

　そこで，偏差そのものの平均ではなく，偏差の2乗の平均，すなわち

\[\frac1n\{(x_1\!-\!\overline{x})^2\!+\!(x_2\!-\!\overline{x})^2\!+\!\cdots\!+\!(x_n\!-\!\overline{x})^2\}\]

を考えることとする．この値を分散といい，「$s^2$」で表す．「$s^2$」と2乗がついているのはすぐ後ろで説明する標準偏差がアルファベット $s$ で表され，その値の2乗であるという意味である．

　分散の式を見るとわかるように，この値が「どのようなデータでも常に0になる」ということはないので，データのばらつきを見ることができそうである．

　また，分散の正の平方根 $\sqrt{s^2}$ を，標準偏差(standard deviation)といい，$s$ で表す．

分散と標準偏差
　分散　$s^2=\dfrac1n\{(x_1\!-\!\overline{x})^2\!+\!(x_2\!-\!\overline{x})^2\!+\!\cdots\!+\!(x_n\!-\!\overline{x})^2\}$
　標準偏差　$s=\sqrt{\dfrac1n\{(x_1\!-\!\overline{x})^2\!+\!(x_2\!-\!\overline{x})^2\!+\!\cdots\!+\!(x_n\!-\!\overline{x})^2\}\ \ \ \ }$

3.2 分散の書き換え

　分散は定義通りに手計算しようとするとなかなか骨が折れる場合が多い．ところが分散の式を少し変形することで，別の計算の仕方で求めることもできる．

　簡単のためにデータ数を3とするが，データ数が $n$ の場合も計算は全く同じであり，十分に見通しが立つであろう．