t検定の理論を分かりやすく解説!【第6回】
前回は「母分散が分かっている場合の母平均の区間推定」を説明しました。しかし、現実世界では事前に母分散だけが分かっていて母平均が不明という場面は稀だと思います。
そこで今回は、事前に母分散が不明な場合の母平均の区間推定を説明していきます。
想定する場面
次のような場面を想定します。
チームA全体(100人)の握力の平均値を推測したい。そこで、チームAから36人を抽出して握力を測定したところ、標本平均が60kg、標本分散(不偏分散)が2²であった。このとき、チームA全体の握力値の平均を95%信頼区間で推定せよ。
この場合、母分散σ²は不明です。その代わり、標本から計算できる標本分散s²(不偏分散)は分かっている状況です。
チームA全体:母集団
チームAの握力の平均:母平均µ(不明)←ココを推測したい
チームAの握力の分散:母分散σ²(不明)
抽出した36人:標本
抽出した36人の握力の平均:標本平均(=60kg)
抽出した36人の握力の分散:標本分散s²(=2²)
これらの用語についてが曖昧な方は「区間推定を理解するための用語の整理」にまとめていますので、ご参照ください。
変数tとは
前回のように母分散σ²が分かっている場合であれば、中心極限定理(標本平均の分布が平均µ、分散σ²/nの正規分布となる性質)を利用して区間推定を行うことができました。
その際、標本平均の分布を標準化したものをZとおくと、
となるので、そこに標本平均、母分散、症例数を代入し、-1.96≦Z≦1.96が約95%となることを利用してµの95%信頼区間を計算することができました。
しかし今回は母分散σ²の値が不明なので、Zの式にσ²の値を代入することができません。
そこでどうするかというと、σ²の代わりに標本分散s²を使用します。
そして、σ²をs²に置き換えた式は「変数t」とします。
つまり、
という式を作ります。
t分布とは
ようやく、この講座のメインとなる「t」という統計量が出てきました。
元々、Zは正規分布に従う式でしたが、tは正規分布ではなく「t分布」と呼ばれる分布に従うようになります。
「t検定」というのはこの「t」という値や「t分布」を利用して実施する検定のことなのです。
t分布は正規分布とよく似た形をした分布なのですが、次のような特徴があります。
- 左右対称である
- 正規分布よりも両裾が上がり、中央の山が低くなる
- 自由度によって分布の形が変わる
- 自由度が高いほど正規分布に近づく
基本的にはt分布も正規分布と同様に左右対称の釣り鐘型となります。
しかし、2.にあるように正規分布よりも両裾が上がり、中央の山が低くなります。
3.4.の自由度というのは理解しにくい概念なのですが、ここでは「症例数によって分布の形が変わる」というくらいの解釈で良いと思います。
具体的には、t分布の自由度は(n-1)になります。例えば、n=36のt分布を描くと、そのt分布の自由度は(36-1)=35 となります。
t分布は自由度が高くなるほど正規分布に近づくので、nが多くなれば正規分布に近い形で区間推定が行えます。
区間推定を行うにあたって、自由度によるt分布の形の違いは細かく理解する必要はありません。
区間推定を行う際には、t分布表というものを参考にして95%信頼区間を調べます。細かい値を覚える必要はなく、その都度、表を見て確認すれば良いです。
変数tに各値を代入
では、今回の例に沿って変数tに各値を代入してみましょう。
今回は標本平均=60、s²=2²、n=36(6²)ですので、それぞれ代入していきます。µの値は不明ですので、そのままµとしておきます。
すると
となります。
また、今回はn=36ですので、この変数tは自由度35のt分布に従います。
自由度35のt分布の95%信頼区間をt分布表から調べてみましょう。
このt分布表では各自由度に対して、危険率α(片側)に該当するt値が記載されています。
片側の危険率というのは下図の範囲を表しています。
一方で、下図のような範囲を両側確率といいます(左右の片側確率を足したもの)。
母平均の95%信頼区間を求めるためには、95%となるtの範囲を調べたいわけですので、下図のような範囲となるtの範囲を調べます。
つまり、片側確率が2.5%となるt値を調べるわけです。t分布表の片側確率0.025、自由度35に該当するt値をみていきます。
これを見ると2.030となっていますね。t分布は左右対称の分布であるため、-2.030≦t≦2.030の範囲が95%になるといえます。
これに先ほどの t を代入していきます。
元々、t が95%となる区間をとってきているため、この不等式も95%の確率で成り立つと言えます。
そして、最終的に求めたいのはµの95%信頼区間であるため、この不等式を 〇≦µ≦〇 の形に変換していきます。
ここは前回と同じく、地道に計算していきます。
まずは分母を取っ払うため、√2²/6²=1/3を掛けましょう。
ここから60を引きます。
µがマイナスになっているため、-1を掛けます(不等号が逆転します)。
元々が95%で成り立つ不等式でしたので、この不等式も95%で成り立つと言えます。
つまり、これがµの95%信頼区間となります。
チームAから抽出した36人の握力の平均値が60kg、分散が2²であったとき「チームA全体の握力の95%信頼区間は59.323~60.677kgである」という推測を行うことができました。
母分散が分からない場合でも、標本から計算できる標本分散(不偏分散)を代用し、t分布を利用することで母平均µの推測を行うことができました!
まとめ
以上、母分散が分からない場合の母平均の区間推定について説明しました。
ポイントをまとめると以下のようになります。
① 母分散σ²が分からない場合、標本分散s²を代用し、変数tを作成する
② 変数tはt分布に従い、「左右対称である」「正規分布よりも両裾が上がり、中央の山が低くなる」「自由度によって分布の形が変わる」「自由度が高いほど正規分布に近づく」という特徴がある
③ t分布表から自由度(n-1)、片側確率0.025となるt値を確認し、tが95%となる区間を調べる(〇≦t≦〇)
④ 〇≦t≦〇をµについて解き、〇≦µ≦〇の形にする(=µの95%信頼区間)
このように、t分布を利用することで、標本から得られる情報のみを用いて母平均の区間推定を行うことが可能となります。
次回は、EZRを使ってこの区間推定を行い、EZRで出力される値と今回の値が一致するかどうかを確認してみようと思います。
⇒第7回:EZRで母平均の区間推定を行う
コメント