平均値から2S.D.以上離れた値は全体の5%未満の少数派である

こんにちは。管理人のハル（@haru_reha）です。

以前にも標準偏差（standard deviation：S.D.）については記事を書いたことがあるのですが、また違った角度からS.D.の解釈について書いてみようと思います。以前の記事に関しては⇓をご参照ください。

標準偏差の計算方法については⇓の記事内にあります。

「普通の数値」か「特殊な数値」か

いきなりですが、平均値が50、S.D.が10のデータがあるとしましょう。

そこから1つの数値を抜き出すとき、抜き出した数値が「普通（月並み）の数値」なのか「特殊な（めったにない）数値」なのかを考えてみましょう。

ちなみにこの「普通の」とか「特殊な」とかは、私が単に分かりやすいように主観的に書いているだけですので、ご承知おきを…

数値を2回抜き出したところ、1回目は60、2回目は75でした。これらはこのデータ内では「普通の数値」なのでしょうか。それとも「特殊な数値」なのでしょうか。

この場合、S.D.が10であるということに注目です。

実は、平均値から±1S.D.の範囲内の値であれば「普通の数値」、平均値から±2S.D以上離れた値であれば「特殊な数値」であると捉えることができます。

つまり、このデータ内でいえば平均値は50、S.D.は10ですので40～60くらいは「普通の数値」、30以下または70以上は「特殊な数値」と言えます。

S.D.の意味を考えてみるとイメージがつきやすくなります。

正規分布するデータである場合、S.D.は次のようなことを表します。

平均値±1S.D.の範囲：全体の約70％のデータが存在する

平均値±2S.D.の範囲：全体の約95％のデータが存在する

下のグラフは正規分布したデータで、中心の0が平均値を表します。

σ＝S.D.ですので、0～1σの間に34.1％のデータが存在します。ですので-1σ～1σは68.2％≒70％となります。同様に-2σ～2σには95.4％≒95％のデータが存在することが分かります。

平均値から1S.D.の範囲に全体の約70%が集まっていますので、この値は「普通のデータ」と言えます。一方で平均値から2S.D.以上離れたデータというのは全体の約5％の割合ですので「少数派」ということになります。

統計学ではこの5％というのがよく有意水準とされるように、5％未満であれば「めったにない」と判断されます。つまり「特殊なデータ」であると捉えられます。

以上、S.D.について「普通のデータ」か「特殊なデータ」か、という観点で説明をしてみましたか。この分け方は少し主観的すぎるかな、とも思ったのですが、ざっくりとS.D.の意味合いを掴むためには良いのではないかと判断しました(笑)

大事なのは平均値から2S.D.以上離れた値は、データ内では5％未満の少数派であるというイメージをもつことかと思います。

では、また。