あるラーメン屋の来客数を例に分散と標準偏差を考える。
曜日 | 客数 |
---|---|
月 | 20 |
火 | 15 |
水 | 18 |
木 | 19 |
金 | 27 |
土 | 7 |
日 | 6 |
パッと見て「平日は多く、休日は少ない」と感じたと思う。その感覚を数値化したものが分散・標準偏差である。まずは平均を求めよう。
平均は 人である。土曜日の
人という数は平均と比べてかなり少ない。つまり土日は平均よりもかなりずれた値といえる。分散もその分だけ大きくなる。
分散とは? 分散の公式
分散とはデータの散らばり具合である。分散の公式は次のとおり。
ここでデータは で
はその平均とする。
分散は、各データと平均の差を 乗して、それを個数で平均した値である。
- データと平均の差を求める
- それを 2 乗する
- それらの平均を求める
分散の計算例
ラーメン屋の客数の分散を求めてみよう。分散を求めるには、表に「差」という項目を追加すればよい。平均は 人であった。
曜日 | 客数 | 平均との差 |
---|---|---|
月 | 20 | 4 |
火 | 15 | 1 |
水 | 18 | 2 |
木 | 19 | 1 |
金 | 27 | 11 |
土 | 7 | 9 |
日 | 6 | 10 |
平均との差がわかったら、それを 乗しよう。
曜日 | 客数 | 平均との差 | 2 乗 |
---|---|---|---|
月 | 20 | 4 | 16 |
火 | 15 | 1 | 1 |
水 | 18 | 2 | 4 |
木 | 19 | 1 | 1 |
金 | 27 | 11 | 121 |
土 | 7 | 9 | 81 |
日 | 6 | 10 | 100 |
やっと分散を求める土台が整った。分散 は
だいたい とわかった。ところでこの値になんの意味があるだろう? その疑問は標準偏差のアイデアにつながる。ちなみに上の分散が本当に正しい値かは下の記事で確かめられる。
すべての曜日で同じ人数だった場合の分散
もし毎日 人きたらどうなるか? 分散を求めてみよう。
曜日 | 客数 |
---|---|
月 | 16 |
火 | 16 |
水 | 16 |
木 | 16 |
金 | 16 |
土 | 16 |
日 | 16 |
奇跡のようなデータだ。おそらくこんなラーメン屋はほとんどない。
曜日 | 客数 | 平均との差 |
---|---|---|
月 | 16 | 0 |
火 | 16 | 0 |
水 | 16 | 0 |
木 | 16 | 0 |
金 | 16 | 0 |
土 | 16 | 0 |
日 | 16 | 0 |
平均との差はもちろんすべて になる。よってそれらを
乗した値も
であり、それらの平均も
である。つまり分散は
となり、分散していないとわかる。
分散 0 → 分散していない
分散という言葉が妥当な日本語だということがわかっただろうか。分散とは、そのままの意味だったのだ。
ところで分散していない状態はめったにない。つまり確率的にかなり低い。データがランダムに散らばるとき、その分散はある確率分布にしたがうことがなんとなくわかる。
標準偏差とは? 標準偏差の公式
標準偏差とは分散の平方根である。
数学を勉強した人は一回くらい「分散を使えばいいじゃないか、なぜわざわざその平方根をとるのか?」と考える。「分散という値になんの意味があるのか?」という疑問は妥当である。平方根をとる理由は、分散ともとのデータは次元(単位)が異なるため、分散とデータを比較することはできないからだ。
ラーメン屋の標準偏差を求めてみよう。
だいたい 人である。そう、
人である。標準偏差はもとのデータと同じ単位をもつ。分散の
という数は人数でない。公式をもう一度見てほしい。カッコの中で
乗している。
乗しているため、分散の単位は「人×人」になっている。
値 | 単位 |
---|---|
もとのデータの単位 | 人 |
分散 | 人×人 |
標準偏差 | 人 |
標準偏差とは、「だいたいのデータが平均とどれだけずれているか」を示す値である。つまりラーメン屋の客数はだいたい平均と 人ずれている。本当にそうだろうか?
曜日 | 客数 | 平均との差 |
---|---|---|
月 | 20 | 4 |
火 | 15 | 1 |
水 | 18 | 2 |
木 | 19 | 1 |
金 | 27 | 11 |
土 | 7 | 9 |
日 | 6 | 10 |
金曜日、土曜日、日曜日ともに 人を超えているが、それ以外はだいたい
人を下回っている。どことなく
人あたりが「差の平均」のような気がする。
標準偏差を超えて現実を考える
ここからは正規分布などの統計にくわしい人に向けた内容になる。
このデータを例にしたのには理由がある。正規分布に従ったデータは確かに、だいたいのデータが標準偏差の範囲内に収まる。そうしたデータを扱うのは面白いし、自分の考えどおりに世界が動いているように見える。
しかし小売や会社の生産額などは正規分布に従わないことがある。パレートの法則で説明したとおり、金回りは正規分布でなくべき分布に従い、いわゆる勝者総取りになる。
標準偏差は「個別的な引力が働かず、物事がランダムに動く」という理想状態で威力を発揮する、理想気体の定数のようなものだ。
ラーメン屋でもデータが 人の偏差におさまっているような錯覚を受けるが、本当にそうだろうか。もう一度見てほしい。
曜日 | 客数 | 平均との差 |
---|---|---|
月 | 20 | 4 |
火 | 15 | 1 |
水 | 18 | 2 |
木 | 19 | 1 |
金 | 27 | 11 |
土 | 7 | 9 |
日 | 6 | 10 |
無理に平均をとれば 人に見えなくもないが、実際は金曜日、土曜日、日曜日に大きなズレがある。正規分布というなめらかな分布は理想的で美しいが、実際はこのように大きな不連続がある。標準偏差だけを見るかぎり、この「崖」の性質を知ることはできない。
むしろ次のように考えたほうがいい。標準偏差が無意味になっているブレークポイントはどこか? それはなぜ無意味か? なにが標準偏差を無意味にさせているか?