P値の意味を改めて理解する

シロート統計学講座

シロート統計学講座 其の12

当講座では以下の4STEPで統計学を学んでおり、現在STEP3まで進めています!!

理解までの4STEP

STEP1 統計解析の種類
STEP2 統計解析の選択方法
STEP3 統計解析の実施方法
STEP4 統計解析の結果解釈

 

前回・前々回は実際にEZRを使って2つの検定を実施しました。

▼其の10・其の11▼

EZRでt検定を行う方法
シロート統計学講座「其の10」
EZRでMann-Whitney U 検定を行う方法
シロート統計学講座「其の11」

 

これらの記事では実際にEZRを操作してもらいましたが、結果解釈のところである疑問が生じた方もおられるのではないでしょうか。

 

あれ?P値って何だっけ?

 

統計解析は最終的にP値をみて結果を解釈しますが、なぜP値をみることで結果が分かるのでしょうか?そもそもP値とは何なんでしょうか?

 

今回はP値の意味をなるべくシンプルに説明しておきます。これが分かると、統計解析の結果解釈への理解が深まると思います。

スポンサーリンク

帰無仮説と対立仮説

P値を理解するためにまず知っておく必要があるのが帰無仮説(きむかせつ)と対立仮説についてです。イメージをもってもらうために例を挙げます。

 

例えばA群(30人)とB群(30人)で握力を比較する場合を想定してください。A群は平均30kg、B群は平均40kg、であったとします。

 

この2群を比較する時に考えられる仮説はたった2つだけです。

(1) 2群間に差はない
(2) 2群間に差がある

 

群間を比較する際には必ずこの2つの仮説になります。そして仮説を検証するためには、どちらかの仮説が正しいことを示すか、またはどちらかが間違っていることを示す必要があります。統計解析で仮説を検証する場合、基本的には後者(どちらかの仮説を棄却することによって、もう一方の仮説を支持する)が行われます。

 

では、この2つの仮説のうち、棄却(仮説を否定)するのが簡単なのはどちらでしょうか。

 

答えは (1) 2群間に差はない です。

 

今回の場合、A群の平均は30kgなので「2群間に差がない」という仮説通りであればB群が取り得る値は30kgだけです。つまり、B群が平均30kgではないことが示されれば(1)の仮説は棄却できるわけです。

 

一方(2)は「2群間に差がある」という仮説ですので、B群の取り得る値は無限にあります。つまり「2群間に差がある」という仮説は簡単には棄却できません

 

これは統計解析の基本的な原理で、統計解析では(1)の仮説を棄却することで(2)を証明します。(1)と(2)の仮説には名前が付けられています。

(1)は無に帰す(棄却する)ための仮説
→「帰無仮説
(2)は帰無仮説に対立する仮説
→「対立仮説

 

「帰無仮説を棄却して対立仮説を証明する」

これがポイントですね。

P値の意味

ここでP値の話に戻ります。P値とは一体何でしょうか。

 

P値は

帰無仮説が正しい場合に、実際に観察された、あるいはそれ以上の2群の差が観察される確率

参考:フリー統計ソフトEZRで誰でも簡単統計解析(p8)

とされています。

 

・・が、これだけだと少し分かりにくいですね。

 

先ほどの、握力を比較する例で考えてみましょう。

 

帰無仮説は「A群とB群で握力の平均値に差はない」となります。A群とB群の間で実際に観察された差は10kgですので、帰無仮説が正しいとした時、P値は「握力の平均値に10kg以上の差が出る確率」となりますね。

 

P値が0.07(7%)であったとすると「100回同じことを行うと7回は10kg以上の差が出る」という解釈になります。

 

そこで、P値がいくらであれば帰無仮説を棄却してよいかを決めるのが有意水準です。つまりP値が有意水準未満であれば滅多に起こらないことが起こっている(つまり帰無仮説が正しくない)と見なしてよい、ということです。

 

有意水準は

習慣的に0.05(5%)に設定

参考:フリー統計ソフトEZRで誰でも簡単統計解析(p8)

されます。

 

要するに「100回同じことをやって10kg以上の差が出るのは5回未満」であれば帰無仮説は棄却できるということですね。

 

ちなみに0.05というのは習慣的に決められているだけで、はっきりした根拠はないようです。現段階では論文などでも0.05で問題ないとは思いますが、もう少し有意水準を下げた方が良いのではないかという議論もなされています。

正規性の検定でのP値

余談ですが「其の10」で正規性の検定というのを行いました。t検定を行う前に各群が正規分布に従うかどうかを調べるやつです。

EZRでt検定を行う方法
シロート統計学講座「其の10」

 

正規性の検定はP<0.05であれば「正規分布ではない」と判断できるというものでしたが、、これ「P値が小さいときは正規分布を示すんだったかな?あれ?非正規分布だっけな」と迷うことが多いんですよね(私だけかもしれませんが…笑)

 

でもP値の意味を理解しておけば迷うことが少なくなります。帰無仮説は基本的に「差がない」という仮説を表しますので、正規性の検定の場合、帰無仮説は「分布の左右差はない」となります。

 

▼正規分布は左右対象の鐘型の分布▼

 

P<0.05の時にはその帰無仮説が棄却されて「分布の左右差あり」となりますから「正規分布ではない(非正規分布)」と判断できますよね。

まとめ

以上、P値についてなるべくシンプルに説明しました。

 

P値に対する誤解を招きやすい点としては

P値は観察された差が偶然によるものとして矛盾しないかどうかだけを検討する値で、実際に観察された差の大きさを判断するものではありません。

参考:フリー統計ソフトEZRで誰でも簡単統計解析(p10)

という点です。

 

つまりP値が小さいからといって、2群の差が大きいわけではないということですね。

 

また

P値が小さくなかったとしても、それは有意差を検出することができなかっただけであり、2群に差がないと結論することはできません。

参考:フリー統計ソフトEZRで誰でも簡単統計解析(p10)

という点にも注意が必要です。

 

P≧0.05であったとしても、サンプル数が増えるだけで容易に変化し得るものです。つまり、P値は統計解析の結果を解釈する際の目安にはなりますが、P値だけで研究を語ることは避けた方がよさそうですね。

 

EZRの実践を行っている最中ではありましたが、ここで一旦P値の理解をしておいた方が良いと思い、今回の記事を書いておきました。次回は予定通り「対応のあるt検定」に移ります。

▼其の13に続く▼

EZRで対応のあるt検定を行う方法
シロート統計学講座「其の13」

コメント