あるラーメン屋の来客数を例に分散と標準偏差を考える。
曜日 | 客数 |
---|---|
月 | 20 |
火 | 15 |
水 | 18 |
木 | 19 |
金 | 27 |
土 | 7 |
日 | 6 |
パッと見て「平日は多く、休日は少ない」と感じたと思う。その感覚を数値化したものが分散・標準偏差である。まずは平均を求めよう。
\[ Mean = \dfrac{20 + 15 + 18 + 19 + 27 + 7 + 6}{7} = 16 \]
平均は $16$ 人である。土曜日の $7$ 人という数は平均と比べてかなり少ない。つまり土日は平均よりもかなりずれた値といえる。分散もその分だけ大きくなる。
分散とは? 分散の公式
分散とはデータの散らばり具合である。分散の公式は次のとおり。
\[ Var = \dfrac{1}{n} \sum_{1}^{n} (x_i - x)^2 \]
ここでデータは $x_i \ \ (i=1,\ 2,\ 3,\ \cdots)$ で $x$ はその平均とする。
分散は、各データと平均の差を $2$ 乗して、それを個数で平均した値である。
- データと平均の差を求める
- それを 2 乗する
- それらの平均を求める
分散の計算例
ラーメン屋の客数の分散を求めてみよう。分散を求めるには、表に「差」という項目を追加すればよい。平均は $16$ 人であった。
曜日 | 客数 | 平均との差 |
---|---|---|
月 | 20 | 4 |
火 | 15 | 1 |
水 | 18 | 2 |
木 | 19 | 1 |
金 | 27 | 11 |
土 | 7 | 9 |
日 | 6 | 10 |
平均との差がわかったら、それを $2$ 乗しよう。
曜日 | 客数 | 平均との差 | 2 乗 |
---|---|---|---|
月 | 20 | 4 | 16 |
火 | 15 | 1 | 1 |
水 | 18 | 2 | 4 |
木 | 19 | 1 | 1 |
金 | 27 | 11 | 121 |
土 | 7 | 9 | 81 |
日 | 6 | 10 | 100 |
やっと分散を求める土台が整った。分散 $Var$ は
\[ Var = \dfrac{16 + 1 + 4 + 1 + 121 + 81 + 100}{7} = 46.285 \]
だいたい $46.285$ とわかった。ところでこの値になんの意味があるだろう? その疑問は標準偏差のアイデアにつながる。ちなみに上の分散が本当に正しい値かは下の記事で確かめられる。
すべての曜日で同じ人数だった場合の分散
もし毎日 $16$ 人きたらどうなるか? 分散を求めてみよう。
曜日 | 客数 |
---|---|
月 | 16 |
火 | 16 |
水 | 16 |
木 | 16 |
金 | 16 |
土 | 16 |
日 | 16 |
奇跡のようなデータだ。おそらくこんなラーメン屋はほとんどない。
曜日 | 客数 | 平均との差 |
---|---|---|
月 | 16 | 0 |
火 | 16 | 0 |
水 | 16 | 0 |
木 | 16 | 0 |
金 | 16 | 0 |
土 | 16 | 0 |
日 | 16 | 0 |
平均との差はもちろんすべて $0$ になる。よってそれらを $2$ 乗した値も $0$ であり、それらの平均も $0$ である。つまり分散は $0$ となり、分散していないとわかる。
分散 0 → 分散していない
分散という言葉が妥当な日本語だということがわかっただろうか。分散とは、そのままの意味だったのだ。
ところで分散していない状態はめったにない。つまり確率的にかなり低い。データがランダムに散らばるとき、その分散はある確率分布にしたがうことがなんとなくわかる。
標準偏差とは? 標準偏差の公式
標準偏差とは分散の平方根である。
\[ Std = \sqrt{Var} \]
数学を勉強した人は一回くらい「分散を使えばいいじゃないか、なぜわざわざその平方根をとるのか?」と考える。「分散という値になんの意味があるのか?」という疑問は妥当である。平方根をとる理由は、分散ともとのデータは次元(単位)が異なるため、分散とデータを比較することはできないからだ。
ラーメン屋の標準偏差を求めてみよう。
\[ Std = \sqrt{46.285} = 6.88 \]
だいたい $7$ 人である。そう、 $7$ 人である。標準偏差はもとのデータと同じ単位をもつ。分散の $46$ という数は人数でない。公式をもう一度見てほしい。カッコの中で $2$ 乗している。 $2$ 乗しているため、分散の単位は「人×人」になっている。
値 | 単位 |
---|---|
もとのデータの単位 | 人 |
分散 | 人×人 |
標準偏差 | 人 |
標準偏差とは、「だいたいのデータが平均とどれだけずれているか」を示す値である。つまりラーメン屋の客数はだいたい平均と $7$ 人ずれている。本当にそうだろうか?
曜日 | 客数 | 平均との差 |
---|---|---|
月 | 20 | 4 |
火 | 15 | 1 |
水 | 18 | 2 |
木 | 19 | 1 |
金 | 27 | 11 |
土 | 7 | 9 |
日 | 6 | 10 |
金曜日、土曜日、日曜日ともに $7$ 人を超えているが、それ以外はだいたい $7$ 人を下回っている。どことなく $7$ 人あたりが「差の平均」のような気がする。
標準偏差を超えて現実を考える
ここからは正規分布などの統計にくわしい人に向けた内容になる。
このデータを例にしたのには理由がある。正規分布に従ったデータは確かに、だいたいのデータが標準偏差の範囲内に収まる。そうしたデータを扱うのは面白いし、自分の考えどおりに世界が動いているように見える。
しかし小売や会社の生産額などは正規分布に従わないことがある。パレートの法則で説明したとおり、金回りは正規分布でなくべき分布に従い、いわゆる勝者総取りになる。
標準偏差は「個別的な引力が働かず、物事がランダムに動く」という理想状態で威力を発揮する、理想気体の定数のようなものだ。
ラーメン屋でもデータが $7$ 人の偏差におさまっているような錯覚を受けるが、本当にそうだろうか。もう一度見てほしい。
曜日 | 客数 | 平均との差 |
---|---|---|
月 | 20 | 4 |
火 | 15 | 1 |
水 | 18 | 2 |
木 | 19 | 1 |
金 | 27 | 11 |
土 | 7 | 9 |
日 | 6 | 10 |
無理に平均をとれば $7$ 人に見えなくもないが、実際は金曜日、土曜日、日曜日に大きなズレがある。正規分布というなめらかな分布は理想的で美しいが、実際はこのように大きな不連続がある。標準偏差だけを見るかぎり、この「崖」の性質を知ることはできない。
むしろ次のように考えたほうがいい。標準偏差が無意味になっているブレークポイントはどこか? それはなぜ無意味か? なにが標準偏差を無意味にさせているか?