分散と標準偏差の公式と求め方(正規分布に従わないラーメン屋の客数から標準偏差を計算してみよう)

あるラーメン屋の来客数を例に分散と標準偏差を考える。

曜日|客数
-|
月|20
火|15
水|18
木|19
金|27
土|7
日|6

パッと見て「平日は多く、休日は少ない」と感じたと思う。その感覚を数値化したものが分散・標準偏差である。まずは平均を求めよう。

平均は 人である。土曜日の 人という数は平均と比べてかなり少ない。つまり土日は平均よりもかなりずれた値といえる。分散もその分だけ大きくなる。

分散とは? 分散の公式

分散とはデータの散らばり具合である。分散の公式は次のとおり。

ここでデータは はその平均とする。

分散は、各データと平均の差を 乗して、それを個数で平均した値である。

  1. データと平均の差を求める
  2. それを 2 乗する
  3. それらの平均を求める

分散の計算例

ラーメン屋の客数の分散を求めてみよう。分散を求めるには、表に「差」という項目を追加すればよい。平均は 人であった。

曜日 客数 平均との差
20 4
15 1
18 2
19 1
27 11
7 9
6 10

平均との差がわかったら、それを 乗しよう。

曜日 客数 平均との差 2 乗
20 4 16
15 1 1
18 2 4
19 1 1
27 11 121
7 9 81
6 10 100

やっと分散を求める土台が整った。分散

だいたい とわかった。ところでこの値になんの意味があるだろう? その疑問は標準偏差のアイデアにつながる。ちなみに上の分散が本当に正しい値かは下の記事で確かめられる。

分散・標準偏差電卓

すべての曜日で同じ人数だった場合の分散

もし毎日 人きたらどうなるか? 分散を求めてみよう。

曜日|客数
-|
月|16
火|16
水|16
木|16
金|16
土|16
日|16

奇跡のようなデータだ。おそらくこんなラーメン屋はほとんどない。

曜日 客数 平均との差
16 0
16 0
16 0
16 0
16 0
16 0
16 0

平均との差はもちろんすべて になる。よってそれらを 乗した値も であり、それらの平均も である。つまり分散は となり、分散していないとわかる。

分散 0 → 分散していない

分散という言葉が妥当な日本語だということがわかっただろうか。分散とは、そのままの意味だったのだ。

ところで分散していない状態はめったにない。つまり確率的にかなり低い。データがランダムに散らばるとき、その分散はある確率分布にしたがうことがなんとなくわかる。

標準偏差とは? 標準偏差の公式

標準偏差とは分散の平方根である。

数学を勉強した人は一回くらい「分散を使えばいいじゃないか、なぜわざわざその平方根をとるのか?」と考える。「分散という値になんの意味があるのか?」という疑問は妥当である。平方根をとる理由は、分散ともとのデータは次元(単位)が異なるため、分散とデータを比較することはできないからだ。

ラーメン屋の標準偏差を求めてみよう。

だいたい 人である。そう、 人である。標準偏差はもとのデータと同じ単位をもつ。分散の という数は人数でない。公式をもう一度見てほしい。カッコの中で 乗している。 乗しているため、分散の単位は「人×人」になっている。

値 | 単位

  • | -
    もとのデータの単位 | 人
    分散 | 人×人
    標準偏差 | 人

標準偏差とは、「だいたいのデータが平均とどれだけずれているか」を示す値である。つまりラーメン屋の客数はだいたい平均と 人ずれている。本当にそうだろうか?

曜日 客数 平均との差
20 4
15 1
18 2
19 1
27 11
7 9
6 10

金曜日、土曜日、日曜日ともに 人を超えているが、それ以外はだいたい 人を下回っている。どことなく 人あたりが「差の平均」のような気がする。

標準偏差を超えて現実を考える

ここからは正規分布などの統計にくわしい人に向けた内容になる。

このデータを例にしたのには理由がある。正規分布に従ったデータは確かに、だいたいのデータが標準偏差の範囲内に収まる。そうしたデータを扱うのは面白いし、自分の考えどおりに世界が動いているように見える。

しかし小売や会社の生産額などは正規分布に従わないことがある。パレートの法則で説明したとおり、金回りは正規分布でなくべき分布に従い、いわゆる勝者総取りになる。

標準偏差は「個別的な引力が働かず、物事がランダムに動く」という理想状態で威力を発揮する、理想気体の定数のようなものだ。

ラーメン屋でもデータが 人の偏差におさまっているような錯覚を受けるが、本当にそうだろうか。もう一度見てほしい。

曜日 客数 平均との差
20 4
15 1
18 2
19 1
27 11
7 9
6 10

無理に平均をとれば 人に見えなくもないが、実際は金曜日、土曜日、日曜日に大きなズレがある。正規分布というなめらかな分布は理想的で美しいが、実際はこのように大きな不連続がある。標準偏差だけを見るかぎり、この「崖」の性質を知ることはできない。

むしろ次のように考えたほうがいい。標準偏差が無意味になっているブレークポイントはどこか? それはなぜ無意味か? なにが標準偏差を無意味にさせているか?

分散とはデータの散らばり具合である。分散は各データと平均の差を2乗して、それを個数で平均した値である。標準偏差とは分散の平方根である。標準偏差は「だいたいのデータが平均とどれだけずれているか」を示す値である。標準偏差はもとのデータと同じ単位をもつ。