シロート統計学講座 其の22
シロート統計学講座ではEZRという無料統計ソフトを用いて、基礎的な統計解析のデモンストレーションを行っております。前回はFriedman(フリードマン)検定を行いました。
今回はPearson(ピアソン)の(積率)相関係数を評価する方法を説明します。
相関を評価する検定は「pearsonの積率相関係数」と「spearmanの順位相関係数」の2つがありますが、これはパラメトリック検定とノンパラメトリック検定の違いです。
spearmanの順位相関係数:ノンパラメトリック検定
パラメトリック・ノンパラメトリックの用語を確認したい方はこちらをご覧ください。
ちなみに相関は連続変数(数値)の関係性をみるものなので、名義変数は使用できませんよ(当たり前かもしれませんが、私は初め混乱しておりました)。
デモデータ
今回もデモデータをご用意しておりますので、時間のある方はダウンロードして一緒にEZRを操作してみてください。
今回のデモテータは「6分間歩行距離(6MWD)と肺活量(VC)は相関するか」を調べた仮想データとなっています。EZRを用いたpearsonの相関係数の求め方と、相関の解釈について説明していきますね。では、はじめましょう!
データの取り込み
まずはExcelのデータをEZRに取り込んでいきましょう。
Excelファイルを開き、データを囲った状態でコピーします(Ctrl+Cでも可)。
EZRの画面で「ファイル」➡「データのインポート」➡「ファイルまたはクリップボード, URLからテキストデータを読み込む」
データセット名は何でもよいですが、今回は歩行距離と肺活量の関係をみるデータなので「gait.vc」とでもしておきましょう。あとはクリップボードとタブにチェックを入れてOKをクリックします。
データセットが「gait.vc」になっているかを確認し、表示をクリックしてデータが正しく表示されれば取り込み完了です(6MWDは×6MWDとなるかと思いますが正常です)。
正規分布の確認
pearsonの相関係数を調べる検定はパラメトリック検定ですので、データが正規分布に従うことが前提となります。と、いうことで正規分布の確認をしていきましょう。
「統計解析」➡「連続変数の解析」➡︎「正規性の検定(Kolmogorov-Smimov検定)」
まずは6MWDの方を選択してOKをクリック。
するとヒストグラムと正規性の検定の結果が表示されます。
ヒストグラムをみる限り、鐘型を大きく逸脱していることはなさそうですね。次に2つの正規性の検定の結果もみてみましょう。
正規性の検定はP<0.05の時に正規性が棄却されるので、どちらの結果も正規性は棄却されませんでした。よって、ヒストグラム・正規性の検定ともに正規分布は否定されませんでした。
VCについても同様の方法で正規分布を確認してみてください。詳しくは省略しますが、VCも正規分布は否定されないはずです。
pearsonの相関係数の検定
6MWD・VCとも正規分布である可能性は否定されませんでしたので、pearsonの相関係数の検定に移ります。
相関係数の検定の実施
いつもの如く、実施は非常に簡単です。
「統計解析」➡「連続変数の解析」➡「相関係数の検定(Pearsonの積率相関係数)」
変数はVCと6MWDの2つを選択して(Ctrlを押しながらクリックすると複数選択できます)OKを押します。
すると相関係数の検定が実施され、散布図と結果が表示されます。
結果の解釈(散布図とP値)
散布図は縦軸をVC、横軸を6MWDとして各サンプルでプロットしたものです。斜めに走る緑の線は最小2乗直線といって、各座標から垂直に測った距離の総和が最小になる位置に描かれた直線です。
これは見るからに相関してそうですね(仮想データなので綺麗すぎますが・・)。
検定の結果を見てみましょう。
まずみるのはP値ですね。今回は「0」と表示されていますが、実際には0に限りなく近い値、という解釈になります(厳密にいってP値が0になることはないので)。
相関係数の検定ではP<0.05の時に「2つの連続変数の間に全く関連がない」という帰無仮説が棄却されます。ですので、6MWDとVCには統計学的に有意な関連があることが分かります。
結果の解釈(相関係数)
次にどの程度の相関があるのかをみていきます。相関の強さを表すのは「相関係数」というものになります。結果の一番左に書いてあるやつですね。
今回は相関係数が0.989となっていますね。
相関係数は-1~1までの値を取り、1に近いほど「正の相関が強い(片方の値が上がればもう片方も上がる)」こと表し、-1に近いほど「負の相関が強い(片方の値が上がればもう片方は下がる)」ことを表します。
ちなみに相関の強さの目安としては
相関係数の絶対値が
0.2未満:ほとんど相関なし
0.2~0.4:弱い相関あり
0.4~0.7:相関あり
0.7以上:強い相関あり
参考:フリー統計ソフトEZRで誰でも簡単統計解析(P135)
とされています。
P値はあくまで確率ですので、P値が小さいからといって相関が強いとは限らない、ということには注意が必要です。
今回はP<0.05であり、相関係数=0.989でしたので「6MWDとVCの間には相関係数0.989の強い正の相関があり、両者の相関は統計学的に有意であった」と結論づけられます。
相関の解釈における注意点
さて、無事に6MWDとVCとの相関を証明できたわけですが、相関の解釈には注意点があります。それは「相関を認めたからといって必ずしも因果関係を表すわけではない」ということです。
今回、6MWDとVCには正の相関がありましたが、これを「VCの低下は6MWDの低下の原因となる」と解釈するのはとても安直になってしまいます。
これには理由が3つあります。
1つ目は6MWDの低下には様々な因子が関与する可能性があるからです。
例えば「年齢」の影響が考えられますよね。今回、もしかすると6MWDが低かった人ほど高齢であった可能性があります。そして高齢であるほどVCが低い、ということであれば、本当に6MWDに影響するのは「年齢」であるかもしれません。
相関はこのような交絡因子の存在を無視してしまう可能性があります。
2つ目は6MMD低下とVC低下の順序が不明であるためです。
相関は2つの数値のどちらかが動けばもう一方も動く、ということを示すだけであり、どちらが先に生じるかということまでは分かりません。つまり「VCが低下した結果、6MWDが低下した」のか「6MWDが低下した結果、VCが低下した」のかということは分からないんですよね。
因果関係となる場合は必ず原因が結果に先行しますよね。例えば「たくさん食事を食べたので、体重が増えた」のは原因が食事であって、体重増加が結果となりますよね。「体重が増えたので、食事が増えた」とはなりませんよね。
相関はどちらも同じように捉えてしまうので、順序が分からなくなってしまいます。
3つ目は6MWDとVCは無関係である可能性があるためです。
よく例に出されるのは「地球温暖化に伴って、海賊の数が減った」というものがありますね。数値だけみると地球の温度と海賊の数に相関があるのですが、これには全く関係がなく、たまたま相関しているだけ、というものです。
実際に研究を行っている際にも、本当は無関係なのにたまたま相関がみられることはよくあると思います。2つの数値が本当に関係しているのかどうかは、慎重に見極める必要があります。
まとめ
以上、EZRでpearsonの相関係数を評価する方法について説明しました。
単なる群間比較ではなく、数値の関係性をみる検定ですので、書いていてとても楽しかったです。相関は簡単に評価することが出来る分、その解釈には注意が必要となります。相関を認めたからといってすぐに因果関係に飛びつくのだけは避けたいところです。
n数が少なくて多変量解析が行えない場合に、少しでも関連性を示唆したいな、という時には便利かもしれません(論理の飛躍には注意ですが)。
さて、次回は多変量解析の1つである重回帰分析を行いたいと思います。重回帰分析を行えば、相関だけでは見ることができなかった年齢の影響も含めて6MWDとVCとの関係を調べることができますよ。シロート統計学講座を読んでくださり、ありがとうございました。
▼其の23に続く▼
コメント