t検定の理論を分かりやすく解説!【第4回】
第3回ではt検定の理論を理解するために必要な用語の整理を行いました。今回は「中心極限定理」と「標準化」について説明します。これらも、区間推定を行うために必要な知識です。
中心極限定理とは?
中心極限定理のポイントは以下の2つです。
①母集団から標本を抽出する際に、nが十分に大きければ、元の分布が正規分布でない場合でも標本平均の分布は正規分布に近づく
②その正規分布は、平均がµ(母平均)、分散がσ²/n(母分散をnで割った値)となる
少し理解しづらいのは①の「標本平均の分布は」という所ですね。
勘違いしやすいのですが、中心極限定理は「母集団から抽出した標本自体の分布が正規分布になる」わけではありません。
あくまで「標本平均の分布が正規分布になる」というものです。
標本平均の分布というのは「母集団から標本を取り出して標本平均を求める」という作業を何度も繰り返したときに標本平均がとる分布というイメージです。
そして、母集団の分布がどうであれその標本平均の分布は正規分布になるというのが①の主張であり、さらにその分布の平均値(つまり正規分布の中央)は µ 、分散は σ²/n となる、というのが②です。
µは母平均のことなので、母集団から標本平均を何回も計算すれば「標本平均の平均」は母平均に近づくということになります。
また、母分散σ²が分かっている場合であれば、標本平均の分散は σ²/n で計算できるということですね。
例を出して考えてみましょう。
身長の平均が170㎝、分散が 3² の正規分布に従う母集団があるとして、そこから標本X(n=36)を抽出する
とします。これに中心極限定理を適応すると、
その標本平均の分布は平均170㎝、分散は 3²/36 の正規分布に従う
このように、母集団の分布によらず(母集団が正規分布でなかったとしても)、nが十分に大きければ標本平均の分布は平均µ、分散σ²/nの正規分布になる、というのが中心極限定理です。
ちなみに「nが十分に大きければ」というのは、具体的には「n≧30」としている書籍が多いです。
標準化とは?
次に「標準化」について説明します。
ここでいう標準化というのは、「正規分布を標準正規分布に変換する」という意味です。
標準正規分布というのは「平均0、分散1の正規分布」のことです。
ある変数Xが平均µ、分散σ²の正規分布に従うとき、標準化をするには「Xからµ(平均)を引いて、σ(標準偏差)で割る」という計算を行います。
先ほどの例を用いて考えてみましょう。
身長の平均が170㎝、分散が 3² の正規分布に従う母集団から標本X(n=36)を抽出するとき
中心極限定理により、
その標本平均の分布は平均170㎝、分散は 3²/36(=3²/6²)の正規分布に従う
というものでした。
この標本平均の分布を標準化してみましょう。
標準化する時は、その変数を「Z」とすることが多いです。
また、標準偏差は分散にルートをつけた値であり、今回は分散が 3²/6² ですのでルートをつけると 3/6、つまり 0.5 となります。
よって、Zの計算式は以下のようになります。
これで計算された変数Zは、平均0、分散1(標準偏差1)の正規分布に従うということになります。
これが「標準化」と呼ばれる作業です。
正規分布では横軸の中央が平均値となり、その両側 ±(2×標準偏差) の範囲が全体の約95%になるという性質がありました。
標準正規分布の場合は平均が0、標準偏差が1となりますので、Zの値が -2~2 が約95%で生じるということになります(正確には -1.96 ≦ Z ≦ 1.96)。
つまり、元々の平均や標準偏差の値によらず、常にこの範囲で95%信頼区間の推定を行うことができるようになります。
まとめ
中心極限定理と標準化について説明しました。
ポイントを3つにまとめます。
①母集団から標本を取り出すとき、nが十分に大きければ、母集団の分布によらず、標本平均の分布は平均µ、分散σ²/nの正規分布に従う(中心極限定理)
②正規分布を標準正規分布に変換するためには「変数から平均を引いて、標準偏差で割る」という計算を行い、それを変数Zとおくことが多い(標準化)
③変数Zは -2 ≦ Z ≦ 2 の範囲が約95%の確率で生じるので、95%信頼区間を計算できる
区間推定に正規分布を用いる際は「標準化」して考えることが多いです。
「変数から平均を引いて、標準偏差で割る」という計算方法にはあまり馴染みがないかもしれませんが、使う機会が多いので少しずつ慣れてくると思います。
次回は、中心極限定理と標準化を用いて、いよいよ標本から母平均の区間推定を行います!
コメント