管理人のハル(@haru_reha)です。
今回は「分散と標準偏差」についてのお話です。
分散と標準偏差はどちらも「データのバラつきを表す」ことは聞いたことがあるかもしれませんが、なぜ指標が2つあるのでしょうか。またバラつきを判断するにはどうしたらよいのでしょうか。
簡単にまとめてみました。
データのバラつきとは?
まず「データのバラつき」とはどういうことか例を挙げて見てみましょう。
AさんとBさんのテストの点数を例に考えてみます。

Aさん・Bさんとも合計点は350点なので、平均点は70点です。
ですが、点数の内訳をみると、二人の点数の取り方は少し違っています。Aさんは全ての科目でバランスよく点数をとれていますが、Bさんは国語・化学・地理では高得点、数学・英語は低得点になっています。
平均点は同じ70点ですが、点数の取り方は二人で異なっていますよね。これがデータのバラつきを表していて、Aさんの点数はバラつきが少なく、Bさんの点数はバラつきが大きいと言えます。
バラつきを数値化するには
ではバラつきの具合は、どうすれば数値化できるでしょうか。
まず思いつくのは、各データと平均点がどれくらい離れているのかを計算していくことです。これを「偏差」と呼び、下のようになりますね。

これをみると、平均点からどの程度離れているのかが数値で分かるようになりますよね。Aさんは0が多いですが、Bさんは-40~+30までバラついています。また、偏差は合計すると必ず0になることもポイントです。
偏差によってバラつきを数値化できましたが、これではn数が多くなると把握しきれません。できれば全てのバラつきを代表する1つの値が欲しいですよね。
それが「分散」や「標準偏差」といった値になります。
分散の計算方法
では、まず分散の計算方法を説明していきます。
バラつきの程度を1つの数値で代表させたい、と考えたときにまず思いつくのは「バラつきの平均を出す」ということではないでしょうか。
しかし、さきほどの「偏差」は合計すると必ず0になります。偏差は各データから平均値を引いたものですので、+の値と-の値があり、合計すると相殺されて0になるのですね。これでは平均の計算ができません。
そこで、-の値をどうにかする必要があるわけですが、手っ取り早く-を+に変換するには、その値を2乗すれば良いですよね。
というわけで、各データの偏差を2乗し、それを合計して平均を求めます。科目数は5個なので、合計を5で割ればよいですね。この「偏差の2乗の平均」が「分散」と呼ばれる値です。

計算すると、Aさんの分散は40、Bさんの分散は840となり、やはりBさんの方がかなり大きな値となりました。つまりバラつきが大きい、ということですね。
しかし、分散は偏差(点)を2乗したものなので単位は「点2」となっています。元々の値の単位と異なっているので、これではバラつきがどの程度なのか分かりませんよね。
標準偏差の計算方法
では、どうすればよいのかというと、単位を「点2」から「点」に戻す必要があります。つまり分散に√(ルート)をつければ、2乗をなくすことができます。
分散に√をつけた値を「標準偏差(standard deviation;SD)」と呼びます。よくSDと呼ばれるやつです!
Aさんの分散は40でしたので、√をつけると6.3
Bさんの分散は840でしたので、√をつけると29
ということになります。つまりAさんの標準偏差は6.3、Bさんの標準偏差は29ということですね。これは単位は「点」なので、平均値からおおよそどれくらいバラついているかの指標としても分かりやすくなります。
最初に求めた「偏差」をみてみましょう。各偏差はおおよそ±標準偏差に近くなっていると思います。

標準偏差を求めることで、それぞれのデータがどの程度バラついているのかを1つの数値で表すことができました。
まとめ
以上、分散や標準偏差などのバラつきを表す指標について説明しました。
どちらも式だけを覚えようとすると大変ですが、上記のように順を追って理解すれば記憶に残りやすいのではないかと思います。
標準偏差についての解釈については、また次回にでも詳しく説明しようと思います。では、また~。
コメント