t検定の理論を分かりやすく解説【第10回】
前回、対応のないt検定の理論について説明しました。
今回は、EZRでt検定を行った際に表示される統計量を確認し、理論をしっかり定着させます。
今回でt検定の理論を分かりやすく解説シリーズは終了となります。
想定する場面(サンプルデータあり)
今回は、シロート統計学講座(其の10)の「EZRでt検定を行う方法」で使ったサンプルデータをもとに進めていきます。
サンプルデータ(Excel)はこちら↓です。EZRを操作しながら進めたいという方はダウンロードしてご使用ください(サンプルデータなしでも理解できるようには進めます)。
各群の平均値・標準偏差
このサンプルデータでは、A群30人とB群30人で、握力の平均値を比較する場面を想定します。
サンプルデータをEZRにインポートし、データの要約を行うことで各群の平均値や標準偏差などを知ることができます(データの要約方法は「EZRでt検定を行う方法」を参照)。
データを要約すると、次の結果となります。
A群は平均28.12kg、標準偏差8.98であり
B群は平均35.07kg、標準偏差11.05と分かりました。
EZRでは「不偏標準偏差」と表示されますが、これは「不偏分散にルートをつけた値」の意味と考えられます。
EZRでのt検定の結果
はじめにEZRでt検定を実施してみます。
実施方法については「EZRでt検定を行う方法」を参照してください。
t検定を実施すると、次の結果が表示されます。
P値(p-value)が0.05未満ですので、この2群間の平均値は「有意差あり」と解釈できます。
では、P値を計算するために必要なt(t値)、df(自由度)についてはどのような計算となっているか、前回までの復習を兼ねて見てみましょう。
t値の計算式
対応のないt検定における「t値」の計算は次の式でした。
式の中にある「s²」は「プールした分散」と言い、2群の分散を合わせたものです。
計算式は次のようなものでした。
プールした分散の計算
まずはプールした分散を計算してみます。
以上から、プールした分散は 101.37 と分かりました!
t値の計算
ではt値を計算してみましょう。
よってt値は -2.67 と分かりました。
EZRで計算されたt値と合致しました!
tの自由度
対応のないt検定におけるtの自由度は(n₁+n₂-2)となります。
今回でいうと 30+30-2 =58 です。
これが、EZRの結果における df に該当します。
t分布の両側5%点
計算したt値から、2群間の握力の平均値に有意差があるかを判断します。
有意水準(棄却域)は、一般的な両側5%としましょう。
t分布表(引用:統計検定2級公式問題集)から、両側5%となる点(片側が2.5%となる点:α=0.025)を見ていきます。
自由度58の値はピンポイントでは記載してないので、自由度40と自由度60を確認してみましょう!
自由度40の場合の両側5%点は t = 2.021 です。
自由度60の場合の両側5%点は t = 2.000 です。
つまり、自由度58の時は、2.000< t < 2.021 の範囲に両側5%点があるはずです。
有意差の判断
今回のt値は -2.67 でした。
有意水準を両側5%とすると、棄却域に入っています。
つまり、「2群の平均値に有意差はない」という帰無仮説が棄却されます。
よって、2群の平均値には有意な差があると言えます。
P値
最後にP値についてです。
今回のP値は 0.00975 です。
これは、自由度58の場合に、t値の絶対値が 2.67以上となる確率を表しています。
t分布表からはこの確率を求めることはできませんが、次のようなイメージです。
つまり「帰無仮説が正しいと仮説した場合に、実際に測定された以上の差が生じる確率」と言えます!
まとめ
以上、全10回の記事で「t検定の理論を分かりやすく解説」シリーズを書いてきました。
検定の中で最も一般的なイメージがあるt検定ですが、理論を学んでいくとなかなか奥が深いと感じました。
特に区間推定の話は、統計学の根本とも言える分野ではないかと思います。
理論を理解していなくても検定の実施自体はできますが、やはり検定の正確な使用・解釈に向けてはある程度の理論を理解しておくと良いのではないでしょうか。
今回はt検定に着目しましたが、今後は「分散分析」や「相関係数」、「多変量解析」などの理論も学習していければと考えています。
それでは、ブログを読んで頂き、ありがとうございました!!
今後もよろしくお願いします<(_ _)>
コメント