対応のあるt検定の理論

統計学の基礎知識

t検定の理論を分かりやすく解説!【第8回】

前回はEZRを使って標本から母平均の区間推定を行いました。

今回からは、いよいよt検定の話に移ります。

t検定は「対応のあるt検定」と「対応のないt検定」の2種類がありますが、まずは理解しやすい「対応のあるt検定」について説明していきます。

※「対応のある」や「独立した」などの用語は過去記事で説明していますので、そちらをご参照ください ⇒ 統計学で理解すべき用語①

スポンサーリンク

想定する場面

以下の場面を想定します。

想定する場面

5人の体重を去年と今年に測定して差を計算した。有意な差と言えるか検証せよ。

去年今年
30kg35kg+5kg
28kg32kg+4kg
26kg32kg+6kg
27kg31kg+4kg
31kg37kg+6kg

「対応のあるt検定」の例ですので、対応のある2群間で平均値を比較する場面です。

人数が多い方が高い精度で検定を行えますが、今回は計算しやすいように5人で考えます。

ちなみに、この5人は共通の母集団から抽出した標本と捉えてください。

検定の基本的な考え方

対応のあるt検定を行う際に注目するのは2群間の差です。

今回でいうと「去年の体重と今年の体重の差」です。

そして、その「差」が統計学的に有意であるかを検定します。

つまり、「去年の体重と今年の体重には差があるという仮説」が正しいのかを検証することになります。

検定の考え方として、最初に「帰無仮説」と「対立仮説」を考えます。

上記のような「検証したい仮説」を「対立仮説」として考えます。

そして、それが生じない仮説を「帰無仮説」とします。

POINT

帰無仮説:去年の体重と今年の体重には差がない

対立仮説:去年と体重と今年の体重には差がある

検定で帰無仮説を棄却することができれば、対立仮説が正しいと証明することができます。

どうやって帰無仮説を棄却するのかというと、「帰無仮説が正しいという前提で統計量を計算」し、それが確率的に矛盾しないかを調べるという流れです。

これは文章だけでは理解しづらいので、実際に統計量を計算して理解すると良いと思います!

tについて復習

対応のあるt検定は、名前の通り「t」という統計量を利用する検定です。

ここで、tについて復習しておきましょう。

tを考える際には、正規分布を標準化する流れを思い出すと分かりやすいです。

標準化とは「変数から平均を引いて、標準偏差で割る」というものでした。

中心極限定理によって標本平均の分布を考えるとき、その平均はµ、分散はσ²/nになることから、標準化した変数Zは次の式で表すことができました。

しかし、変数Zは予め母分散σ²が分かっている場合にしか計算ができません。

母分散σ²が不明である場合、代わりに標本から計算できる標本分散s²を用いるのでした。

そして、σ²をs²に置き換えた式が変数tとなります。

tは自由度(n-1)のt分布に従います。

標本平均と標本分散の計算

それでは今回のデータの話に戻ります。

去年今年
30kg35kg+5kg
28kg32kg+4kg
26kg32kg+6kg
27kg31kg+4kg
31kg37kg+6kg

このデータは、共通の母集団から抽出した標本として考えます。

そして「」の列に注目して標本平均と標本分散を計算してみます。

 

標本平均は

となるので、5です。

 

標本分散(不偏分散)は

となるので、1です。

 

つまり、この5人を標本とみなすと、標本平均は5、標本分散は1となります。

tの計算

先ほど計算した標本平均と標本分散、およびnをtに代入していきます。

しかし「母平均µをどうすればよいか?」という疑問が生じるかと思います。

ここが、検定の特徴的なところです。

検定では「帰無仮説が正しいという前提で統計量を計算」します。

今回の帰無仮説は「去年の体重と今年の体重には差はない」というものでした。

つまり「差=0」と考え、母平均µ=0として計算を行うのです。

 

よってtの計算は

となり、t≒11.18と分かりました。

帰無仮説の棄却

最後にt≒11.18という結果から、帰無仮説を棄却できるのかを考えます。

今回、n=5ですのでtは自由度4のt分布に従います。

t分布表を確認すると、両側確率が0.05となるのは -2.776≦t≦2.776 だと分かります。つまりtは95%の確率で -2.776~2.776 の範囲の値となるはずです。

tがこの区間の外側にある場合、それが生じる確率は5%未満であることを意味します。今回はt≒11.18なので、95%の範囲外に該当します。

統計学では、生じる可能性が5%未満の場合は「滅多に起こらないこと」と見なします。もし、それが生じた場合には次の2通りの解釈があります。

POINT

①滅多に起こらないことがたまたま生じた

②帰無仮説が間違っている

この場合、基本的にはを採用します。

つまり帰無仮説を棄却するということです。

帰無仮説が正しいという前提で統計量tを計算したところ、その値が生じる可能性は5%未満であり、滅多に起こらない値だった。つまり、帰無仮説は間違っているだろう」という解釈をするわけです。

まとめ

以上から、帰無仮説を棄却して対立仮説を採用し「去年の体重と今年の体重を比較したところ、統計学的な有意差を認めた」という結論を得ることができました。

「5%未満の場合に帰無仮説を棄却する」というのは、論文や学会発表でよく出てくる「P=0.05を有意水準とした」や「P<0.05の場合に有意と判断した」と同義です。

つまりP値というのは「帰無仮説が正しいという前提で計算した統計量が生じる確率」を計算している感じです(言い回しが変かもしれませんが…)。

今回のポイントをまとめておきます。

POINT

①対応のあるt検定で注目するのは2群間の「差」

②「差」の平均・分散を計算し、tに代入する

③帰無仮説が正しい(µ=0)と考えてtを計算する

④そのtが95%の範囲外であれば帰無仮説を棄却する

ちなみに、計算したtが95%の区間に含まれる場合には、帰無仮説は棄却できません。

その場合の解釈としては「差があるとは言えない」となります。

P≧0.05であったとしても、差がないことを示すわけではないので要注意です。

 

今回は「対応のあるt検定」の理論を説明しました。

次回は独立した2群を比較する「対応のないt検定」について説明します。

では、また。

コメント

タイトルとURLをコピーしました