こんにちは。管理人のハル(@haru_reha)です。
以前にも標準偏差(standard deviation:S.D.)については記事を書いたことがあるのですが、また違った角度からS.D.の解釈について書いてみようと思います。以前の記事に関しては⇓をご参照ください。
標準偏差の計算方法については⇓の記事内にあります。
「普通の数値」か「特殊な数値」か
いきなりですが、平均値が50、S.D.が10のデータがあるとしましょう。
そこから1つの数値を抜き出すとき、抜き出した数値が「普通(月並み)の数値」なのか「特殊な(めったにない)数値」なのかを考えてみましょう。

ちなみにこの「普通の」とか「特殊な」とかは、私が単に分かりやすいように主観的に書いているだけですので、ご承知おきを…
数値を2回抜き出したところ、1回目は60、2回目は75でした。これらはこのデータ内では「普通の数値」なのでしょうか。それとも「特殊な数値」なのでしょうか。
この場合、S.D.が10であるということに注目です。
実は、平均値から±1S.D.の範囲内の値であれば「普通の数値」、平均値から±2S.D以上離れた値であれば「特殊な数値」であると捉えることができます。
つまり、このデータ内でいえば平均値は50、S.D.は10ですので40~60くらいは「普通の数値」、30以下または70以上は「特殊な数値」と言えます。
平均値から2S.D.以上離れた値は全体の5%未満
S.D.の意味を考えてみるとイメージがつきやすくなります。
正規分布するデータである場合、S.D.は次のようなことを表します。
下のグラフは正規分布したデータで、中心の0が平均値を表します。

σ=S.D.ですので、0~1σの間に34.1%のデータが存在します。ですので-1σ~1σは68.2%≒70%となります。同様に-2σ~2σには95.4%≒95%のデータが存在することが分かります。
平均値から1S.D.の範囲に全体の約70%が集まっていますので、この値は「普通のデータ」と言えます。一方で平均値から2S.D.以上離れたデータというのは全体の約5%の割合ですので「少数派」ということになります。
統計学ではこの5%というのがよく有意水準とされるように、5%未満であれば「めったにない」と判断されます。つまり「特殊なデータ」であると捉えられます。
まとめ
以上、S.D.について「普通のデータ」か「特殊なデータ」か、という観点で説明をしてみましたか。この分け方は少し主観的すぎるかな、とも思ったのですが、ざっくりとS.D.の意味合いを掴むためには良いのではないかと判断しました(笑)
大事なのは平均値から2S.D.以上離れた値は、データ内では5%未満の少数派であるというイメージをもつことかと思います。
では、また。
コメント