必要サンプルサイズを計算する理由

研究雑学

管理人のハル(@haru_reha)です。今回は、必要サンプルサイズを計算する理由について説明しておきます。

スポンサーリンク

サンプルサイズとP値の関係

サンプルサイズとは「標本の大きさ」のことです。

基本的に、統計学ではサンプルサイズが大きいほど正確なデータが取れます。

ですのでサンプルサイズが大きくなることは統計学的には良いことです。

ただ、サンプルサイズが大きくなるにつれて、P値はどんどん小さくなります。

2群で平均値を比較する場合を考えると、平均値の差が非常に小さいとしても、サンプルサイズを大きくすれば、必ずどこかで有意差(P<0.05)が出ます。

P値はサンプルサイズによって容易に変動するものでした。

サンプルサイズが原因で起こる問題

これで問題になるのは「見すぎによる(有意差の)出すぎ」です。

 

例えば、A群とB群で握力の平均値を比較したとして、2群の差が1kgであったとします。

1kg程度の握力の差は、臨床的には「誤差の範囲内」です。

何回か握力を測ったら、誰でも1~5kg程度は誤差があると思います。

つまり、1kgの差というのは「臨床的にはそれほど意味がない差」であると言えます。

 

しかし、サンプルサイズを大きくすると1kgの差であってもP<0.05になるようになります。

臨床的に意味のない差でも、統計学的には有意な差として判断されてしまうのです。

これでは、研究の結果を誤って判断する可能性がありますよね。

 

また、反対にサンプルサイズが小さすぎる場合にも問題が起こります。

それは「サンプルサイズが足りないことによって統計学的有意差が出ない」という点です。

例えばある治療の効果をA群(n=300)とB群(n=10)で調べた時に、明らかにB群(n=10)の方が効果が出ているのに、サンプルサイズの関係でA群にしか有意差が出ない、ということが起こってしまいます。

必要サンプルサイズとは?

そこで「必要サンプルサイズ」というのを計算します。

 

必要サンプルサイズというのは、

予測される差(自分が証明したい仮説)を統計学的に検証するために必要なサンプルサイズ

のことです。

 

つまり研究計画の段階で、必要となるサンプルサイズを求めることができます。サンプルサイズを予め決めておくことで、サンプルサイズが原因で起こる問題は起こりにくくなります。

臨床的に意味のある差を仮説として設定しておけば、「臨床的に意味のある差」と「統計学な有意差」の乖離も少しは解消される可能性があります。

必要サンプルサイズはEZRで計算することができます!

まとめ

恥ずかしながら、私は今まで必要サンプルサイズを計算せずに研究を開始してしまっていました。やはり、それでは結果の解釈が曖昧になってしまいます。

統計学的有意差が出ても「サンプルサイズが大きすぎるだけかもしれない」となりますし、逆に有意差が出ないと「もう少しサンプルサイズを増やせば有意差が出る」となり、堂々巡りの議論が生じてしまいます。

必要サンプルサイズはEZRで計算できます。研究計画段階で、予め必要となるサンプルサイズを把握しておくと結果が解釈しやすくなると思います。

次回に続く。。

コメント