平均値から2S.D.以上離れた値は全体の5%未満の少数派である

統計学の基礎知識

こんにちは。管理人のハル(@haru_reha)です。

以前にも標準偏差(standard deviation:S.D.)については記事を書いたことがあるのですが、また違った角度からS.D.の解釈について書いてみようと思います。以前の記事に関しては⇓をご参照ください。

標準偏差の計算方法については⇓の記事内にあります。

スポンサーリンク
☆Udemyでのコース公開☆

シロート統計学講座をUdemyで公開しています。3時間の動画で、統計学の基礎からEZRでの解析実施を一気に学べます。統計解析の初心者の方でも、基本的な統計解析が実践できるレベルを目指すことができます。>>>Udemy「シロート統計学講座」

「普通の数値」か「特殊な数値」か

いきなりですが、平均値が50、S.D.が10のデータがあるとしましょう。

そこから1つの数値を抜き出すとき、抜き出した数値が「普通(月並み)の数値」なのか「特殊な(めったにない)数値」なのかを考えてみましょう。

ちなみにこの「普通の」とか「特殊な」とかは、私が単に分かりやすいように主観的に書いているだけですので、ご承知おきを…

数値を2回抜き出したところ、1回目は60、2回目は75でした。これらはこのデータ内では「普通の数値」なのでしょうか。それとも「特殊な数値」なのでしょうか。

この場合、S.D.が10であるということに注目です。

実は、平均値から±1S.D.の範囲内の値であれば「普通の数値」、平均値から±2S.D以上離れた値であれば「特殊な数値」であると捉えることができます。

つまり、このデータ内でいえば平均値は50、S.D.は10ですので40~60くらいは「普通の数値」、30以下または70以上は「特殊な数値」と言えます。

平均値から2S.D.以上離れた値は全体の5%未満

S.D.の意味を考えてみるとイメージがつきやすくなります。

正規分布するデータである場合、S.D.は次のようなことを表します。

平均値±1S.D.の範囲:全体の約70%のデータが存在する

平均値±2S.D.の範囲:全体の約95%のデータが存在する

下のグラフは正規分布したデータで、中心の0が平均値を表します。

σ=S.D.ですので、0~1σの間に34.1%のデータが存在します。ですので-1σ~1σは68.2%≒70%となります。同様に-2σ~2σには95.4%≒95%のデータが存在することが分かります。

平均値から1S.D.の範囲に全体の約70%が集まっていますので、この値は「普通のデータ」と言えます。一方で平均値から2S.D.以上離れたデータというのは全体の約5%の割合ですので「少数派」ということになります。

統計学ではこの5%というのがよく有意水準とされるように、5%未満であれば「めったにない」と判断されます。つまり「特殊なデータ」であると捉えられます。

まとめ

以上、S.D.について「普通のデータ」か「特殊なデータ」か、という観点で説明をしてみましたか。この分け方は少し主観的すぎるかな、とも思ったのですが、ざっくりとS.D.の意味合いを掴むためには良いのではないかと判断しました(笑)

大事なのは平均値から2S.D.以上離れた値は、データ内では5%未満の少数派であるというイメージをもつことかと思います。

では、また。

コメント

タイトルとURLをコピーしました