t検定の理論を分かりやすく解説!【第2回】
第1回は統計学の基本的な考え方である「区間推定とは?」について説明しました。今回は「実際にどうやって95%信頼区間を推定するのか」というお話です。正規分布というものを理解し、区間推定の大まかな流れを掴むことが目標です。
正規分布とは?
はじめに結論から書くと、区間推定には「確率分布」と呼ばれるものを使用します。
確率分布については私もまだ上手く説明できませんが、誤解を恐れずに言うと「色々な物事が起こる確率をグラフにしたもの」という感じです。
この世の中には様々な確率分布が発見されています。例えば「正規分布」「カイ二乗分布」「F分布」「t分布」などの分布です。これらは過去の偉人たちによってよく研究されているため、私たちはそれを利用させてもらうわけです。
一番よく使われるのは「正規分布」です。正規分布とは、下図のような左右対称の釣り鐘型の確率分布です。特に平均値が0、分散が1の正規分布を「標準正規分布」と呼びます。
このグラフは、横軸の中央が「平均値」になっていて、縦軸が「確率密度」を表します。標準正規分布の場合は平均値が0なので、中央に0がきています。縦軸の「確率密度」がピンとこない人は、単に高いほど起こりやすいという理解でよいと思います。
つまり、正規分布は「平均値付近が最も起こる確率が高く、平均値から離れるほど起こる確率が低くなる分布」と言えます。
不思議なことに、世の中には正規分布に従うとされている事象が色々とあるのです。
正規分布の性質とは?
では、この正規分布を区間推定にどう使うのか、というお話です。
正規分布に従うと仮定できる場合、平均値と標準偏差の値が分かれば、分布の確率を知ることができるのです。
どういうことかと言うと、
正規分布では、平均値から両側に1σ(σ=シグマと読み、標準偏差のこと)離れた値に挟まれた区間が生じる確率は約68%とされ、両側に2σ(※)離れた値に挟まれた区間が生じる確率は約95%とされています。
(※)正確には95%となるのは両側に 1.96 ×σ離れた値に挟まれた区間ですが、今回は分かりやすいように 2 にしています。
正規分布を区間推定にどう使うのか?
ここで、区間推定の話を思い出してみましょう。
区間推定とは「母集団の平均値などを、標本から〇~〇のように幅を持たせて推測すること」であり、統計学ではその的中確率が95%になるように設定した「95%信頼区間」を推定することが多い、という内容でした。
勘の鋭いかたはピンときたのではないでしょうか。
そうです。実は先ほどの正規分布の性質を使えば、95%信頼区間を推定することができるのです。
例えば、平均値が80点、分散が100(標準偏差は10)のテストがあるとして、その結果は正規分布に従うものだと考えましょう。
正規分布では平均値から両側に2σ離れた値に挟まれた範囲が、95%の確率で生じるのでした。今回の例の場合、平均値が80点、σ(標準偏差)が10ですので、
80点 – (2×10点)~ 80 + (2×10点)
つまり
60点 ~ 100点
の区間が生じる確率は約95%と考えることができます。
とりあえず平均値と標準偏差さえ分かれば95%の確率で生じる区間を推測できるわけです!
標本から母集団の平均を推測する際には、正規分布の性質に加えて「標本の性質」を使う必要があるのですが、確率分布を使えば95%信頼区間を推測できそうな感じはなんとなく伝わりましたでしょうか。
このように、「すでに十分に研究された確率分布の性質を使って、95%で生じる区間を推測する」というのが区間推定の基本的な考え方になります。
まとめ
以上、今回はどうやって区間推定を行うかについての概要を説明しました。
ポイントをまとめると以下のようになります。
① 区間推定には、よく研究された「確率分布」を使用する
② よく利用される「正規分布」は左右対称の釣り鐘型の確率分布である
③ 正規分布では平均値が中心に位置し、その両側2σの区間が約95%の確率で生じる
④ その性質を利用して95%信頼区間を推測する
なお、実際に標本から母集団を推測するときには母平均・母分散・標本平均・標本分散といった用語を区別する必要があるので、次回はその辺りの用語を整理したいと考えています。
コメント