t検定の理論を分かりやすく解説!【第5回】
前回は「中心極限定理と標準化」について説明しました。今回はいよいよ標本から母平均の区間推定を行います。まずは母分散が既知の場合の区間推定です。
母平均を推定する時に”母分散だけがすでに分かっている”という場面は現実世界では少ないかもしれませんが、区間推定の方法を理解するためには分かりやすい想定となります。
想定する場面
今回、想定するのは次のような場面です。
チームA(100人)の握力の平均値を推測したい。そこで、チームAから36人を抽出して握力を測定したところ、その標本平均は60kgであった。このとき、チームA全体の握力の平均値を95%信頼区間で推定せよ。なお、チームAの握力の分散は3²になることが分かっている。
「チームAの中から36人を選んで握力を測定し、その値からチームA全体の握力の平均値を推測したい」ということですね。
まずは、用語の定義を明確にしておきます。
チームA:母集団
チームAの握力の平均:母平均µ(=不明)←ココを推測したい!
チームAの握力の分散:母分散σ²(=3²)
抽出した36人:標本
抽出した36人の握力の平均:標本平均(=60kg)
抽出した36人の握力の分散:標本分散s²(文章からは不明)
これらの用語については過去記事で説明しています。
>>区間推定を理解するために必要な用語
中心極限定理で標本平均の分布を推定
最終的に推測したいのはチームAの握力の平均(つまり母平均µ)の95%信頼区間です。
母平均µを推測するためには中心極限定理を利用し、標本平均の分布を想定することから開始します。
中心極限定理とは、母集団から標本を抽出したときに、標本平均の分布が平均µ、分散σ²/nの正規分布に従うという性質でした。標本平均はXの上に一本線を引いた記号(読み方:エックスバー)で表されることが多いです。
ちなみに標準偏差は分散にルートをつけた値となります。
標本平均の分布を標準化
次に、この標本平均の分布を標準化します。標準化というのは「変数から平均を引いて、標準偏差で割る」というものでした。
今回の場合は標本平均の分布をみているので、「変数」が「標本平均」、「平均」が「µ」となります。
標準化した式は「変数Z」とおき、
とします。
この変数Zは平均0、標準偏差1の標準正規分布に従います。
そして、正規分布の性質から、平均の両側1.96×標準偏差の範囲が全体の約95%となります。標準正規分布の場合だと平均0、標準偏差1となるので、-1.96 ≦ Z ≦ 1.96 が約95%の確率で成り立つことになります。
それぞれの値を代入
ここで、今回はσ²=3²、n=36(=6²)、標本平均=60ですので、それをZに代入していきます。µは不明ですので、そのままµとしておきます。
という式が得られます。
そして、-1.96 ≦ Z ≦ 1.96 のZにそれを代入します。
最終的には µ の95%信頼区間を求めるのが目標ですので、この不等式を 〇 ≦ µ ≦ 〇 の形に変形していきます。
ここは地道に計算するしかないです。まずは分母を取っ払うために、√3²/6² = 0.5 を掛けましょう。
ここから 60 を引きます。
µ がマイナスになっているため、-1 を掛けてマイナスをなくします(-1を掛けると不等号は逆転します)。
元々の不等式は95%の確率で成り立つものでしたので、µ について解いたこの不等式も同様に95%の確率で成り立ちます。
つまり、これが µ の95%信頼区間となります。
ついに標本から母平均の区間推定を行うことができました!
チームAから抽出された36人の握力の平均値が60kgであった場合、「チームA全体の握力の平均値は59.02~60.98kgである」という推測を行うことができたわけですね。
95%信頼区間の解釈
95%信頼区間の解釈は「95%信頼区間を推測するという作業を100回行ったとき、95回はその区間の中に真の値(本当の母平均)が含まれる」というのが正しい解釈です。
間違いやすい解釈は「求めた信頼区間の中(今回でいうと 59.02 ≦ µ ≦ 60.98)に95%の確率で母平均が含まれる」というものです。
これがなぜ間違いかというと、推測しようとしている母平均は変動しない値(決まった値=定数)だからです。
「59.02~60.98の中に95%の確率で母平均が含まれる」という解釈だと、母平均が同じ区間の中に”含まれたり含まれなかったりする”ことになるため、母平均自体が変動していることになります。
母平均は定数であるため、推定した区間に母平均が「含まれる」か「含まれない」かの二択となるはずです。
つまり、95%信頼区間というのは”区間推定を100回行ったとき、その区間内に母平均が「含まれる」回数が95回程度であり、母平均が「含まれない」回数が5回程度となる精度”ということを表しているわけですね。
まとめ
今回は母分散σ²が予め分かっているという想定でしたので、標本平均の分散がσ²/nとなる性質を使って、σ²をそのまま代入して計算することが可能でした。
ポイントをまとめると、以下の3つとなります。
①母集団から標本を抽出すると、その標本平均の分布は平均µ、分散σ²/nの正規分布となる(中心極限定理)
②標本平均の分布から「平均を引いて、標準偏差で割る」ことで標準化する(標準正規分布に従う変数Zを作成)
③ -1.96 ≦ Z ≦ 1.96 が約95%で成り立つので、それを µ について解くと、µ の95%信頼区間が計算できる(〇 ≦ µ ≦ 〇 の形にする)
しかし、母平均を推測したい場合に、母分散だけが予め分かっている場面は稀かと思います。つまり、現実世界では母分散が分からない状態で母平均を推測したいわけです。
そこで登場するのが「t分布」です!次回からはこの講座の最終ゴールであるt検定に話を進めていきます。
⇒第6回:母分散が分からない場合の母平均の区間推定
コメント