t検定の理論を分かりやすく解説!【第8回】
前回はEZRを使って標本から母平均の区間推定を行いました。
今回からは、いよいよt検定の話に移ります。
t検定は「対応のあるt検定」と「対応のないt検定」の2種類がありますが、まずは理解しやすい「対応のあるt検定」について説明していきます。
※「対応のある」や「独立した」などの用語は過去記事で説明していますので、そちらをご参照ください ⇒ 統計学で理解すべき用語①
想定する場面
以下の場面を想定します。
5人の体重を去年と今年に測定して差を計算した。有意な差と言えるか検証せよ。
去年 | 今年 | 差 |
30kg | 35kg | +5kg |
28kg | 32kg | +4kg |
26kg | 32kg | +6kg |
27kg | 31kg | +4kg |
31kg | 37kg | +6kg |
「対応のあるt検定」の例ですので、対応のある2群間で平均値を比較する場面です。
人数が多い方が高い精度で検定を行えますが、今回は計算しやすいように5人で考えます。
ちなみに、この5人は共通の母集団から抽出した標本と捉えてください。
検定の基本的な考え方
対応のあるt検定を行う際に注目するのは2群間の差です。
今回でいうと「去年の体重と今年の体重の差」です。
そして、その「差」が統計学的に有意であるかを検定します。
つまり、「去年の体重と今年の体重には差があるという仮説」が正しいのかを検証することになります。
検定の考え方として、最初に「帰無仮説」と「対立仮説」を考えます。
上記のような「検証したい仮説」を「対立仮説」として考えます。
そして、それが生じない仮説を「帰無仮説」とします。
帰無仮説:去年の体重と今年の体重には差がない
対立仮説:去年と体重と今年の体重には差がある
検定で帰無仮説を棄却することができれば、対立仮説が正しいと証明することができます。
どうやって帰無仮説を棄却するのかというと、「帰無仮説が正しいという前提で統計量を計算」し、それが確率的に矛盾しないかを調べるという流れです。
これは文章だけでは理解しづらいので、実際に統計量を計算して理解すると良いと思います!
tについて復習
対応のあるt検定は、名前の通り「t」という統計量を利用する検定です。
ここで、tについて復習しておきましょう。
tを考える際には、正規分布を標準化する流れを思い出すと分かりやすいです。
標準化とは「変数から平均を引いて、標準偏差で割る」というものでした。
中心極限定理によって標本平均の分布を考えるとき、その平均はµ、分散はσ²/nになることから、標準化した変数Zは次の式で表すことができました。
しかし、変数Zは予め母分散σ²が分かっている場合にしか計算ができません。
母分散σ²が不明である場合、代わりに標本から計算できる標本分散s²を用いるのでした。
そして、σ²をs²に置き換えた式が変数tとなります。
tは自由度(n-1)のt分布に従います。
標本平均と標本分散の計算
それでは今回のデータの話に戻ります。
去年 | 今年 | 差 |
30kg | 35kg | +5kg |
28kg | 32kg | +4kg |
26kg | 32kg | +6kg |
27kg | 31kg | +4kg |
31kg | 37kg | +6kg |
このデータは、共通の母集団から抽出した標本として考えます。
そして「差」の列に注目して標本平均と標本分散を計算してみます。
標本平均は
となるので、5です。
標本分散(不偏分散)は
となるので、1です。
つまり、この5人を標本とみなすと、標本平均は5、標本分散は1となります。
tの計算
先ほど計算した標本平均と標本分散、およびnをtに代入していきます。
しかし「母平均µをどうすればよいか?」という疑問が生じるかと思います。
ここが、検定の特徴的なところです。
検定では「帰無仮説が正しいという前提で統計量を計算」します。
今回の帰無仮説は「去年の体重と今年の体重には差はない」というものでした。
つまり「差=0」と考え、母平均µ=0として計算を行うのです。
よってtの計算は
となり、t≒11.18と分かりました。
帰無仮説の棄却
最後にt≒11.18という結果から、帰無仮説を棄却できるのかを考えます。
今回、n=5ですのでtは自由度4のt分布に従います。
t分布表(引用:統計検定2級公式問題集)を確認すると、両側確率が0.05となるのは -2.776≦t≦2.776 だと分かります。つまりtは95%の確率で -2.776~2.776 の範囲の値となるはずです。
tがこの区間の外側にある場合、それが生じる確率は5%未満であることを意味します。今回はt≒11.18なので、95%の範囲外に該当します。
統計学では、生じる可能性が5%未満の場合は「滅多に起こらないこと」と見なします。もし、それが生じた場合には次の2通りの解釈があります。
①滅多に起こらないことがたまたま生じた
②帰無仮説が間違っている
この場合、基本的には②を採用します。
つまり帰無仮説を棄却するということです。
「帰無仮説が正しいという前提で統計量tを計算したところ、その値が生じる可能性は5%未満であり、滅多に起こらない値だった。つまり、帰無仮説は間違っているだろう」という解釈をするわけです。
まとめ
以上から、帰無仮説を棄却して対立仮説を採用し「去年の体重と今年の体重を比較したところ、統計学的な有意差を認めた」という結論を得ることができました。
「5%未満の場合に帰無仮説を棄却する」というのは、論文や学会発表でよく出てくる「P=0.05を有意水準とした」や「P<0.05の場合に有意と判断した」と同義です。
つまりP値というのは「帰無仮説が正しいという前提で計算した統計量が生じる確率」を計算している感じです(言い回しが変かもしれませんが…)。
今回のポイントをまとめておきます。
①対応のあるt検定で注目するのは2群間の「差」
②「差」の平均・分散を計算し、tに代入する
③帰無仮説が正しい(µ=0)と考えてtを計算する
④そのtが95%の範囲外であれば帰無仮説を棄却する
ちなみに、計算したtが95%の区間に含まれる場合には、帰無仮説は棄却できません。
その場合の解釈としては「差があるとは言えない」となります。
P≧0.05であったとしても、差がないことを示すわけではないので要注意です。
今回は「対応のあるt検定」の理論を説明しました。
次回は独立した2群を比較する「対応のないt検定」について説明します。
では、また。
⇒第9回:対応のないt検定の理論
コメント
いつも勉強させて頂いています。t検定の理論、とてもわかりやすく勉強になりました!
対応なしの方も楽しみにしています!
さすらいの理学療法士さま
コメントありがとうございます。対応のないt検定の理論の記事、おそくなり申し訳ないです。執筆を進めていきます~。