シロート統計学講座 其の24
前回(其の23)は多変量解析の概要について説明しました。
今回はEZRを使って多変量解析の一つである重回帰分析を行う方法を紹介します。重回帰分析は、従属変数が連続変数の場合に使用する検定になります。EZRの操作自体は簡単ですが、結果解釈が少し特殊なので、なるべくシンプルにお伝えできればと思います。
多変量解析を行うことで、考察が一歩先に進みます。
デモデータ
デモデータは前回具体例として挙げたデータです。30人に対して6分間歩行距離(6MWD)と肺活量(VC)を測定し「VCは6MWDに対して影響を与えるのか」をみていきます。今回は交絡因子となりそうな年齢・性別の影響も含めて検討します。
Excelデータの作り方で今までと異なる点が一つあります。それは性別(sex)を「男・女」ではなく「0・1」としている点です(男性=0、女性=1とみなすということ)。
EZRでは文字(日本語・英語・記号)で入力すると自動的に名義変数とみなすので、普段は文字入力で構わないですが、多変量解析の場合、あとで従属変数に対する予測式をみるときに分かりやすいので「0・1」としています。
データのインポート
まずはデモデータをEZRにインポートします。
Excelファイルを開き、データを囲ってコピーします(Ctrl+Cでも可)。
EZRの画面で「ファイル」→「データのインポート」→「ファイルまたはクリップボード, URLからテキストデータを読み込む」
データセット名は「gait.vc」として(なんでも良い)、クリップボードとタブにチェックを入れてOKをクリックします。
データセットが「gait.vc」になり、「表示」を押して正しくデータが表示されればインポート完了です。
従属変数の分布の確認
重回帰分析を行う場合、まずは従属変数の分布を確認します。ヒストグラムの確認も兼ねて、正規分布の確認を行っていきましょう。
今回は6MWDに対して影響を与える因子を調べるのが目的なので
独立変数:VC・年齢・性別
となります。
よって、6MWDが正規分布に従うかを確認します。
「統計解析」→「連続変数の解析」→「正規性の検定(Kolmogorov-Smimov検定)」
変数は「6MWD」を選択してOKを押します。
すると正規性の検定が実施され、ヒストグラムと検定結果が表示されます。ヒストグラムをみると、鐘型を大きく逸脱することはなさそうですね。
2つの正規性の検定結果をみても両者ともP>0.05という結果になっています(正規性は棄却されなかったということ)。
ヒストグラム・正規性の検定結果から、6MWDは正規分布に従うといって問題なさそうです。
重回帰分析の実施
従属変数である6MWDの分布が確認できましたので、重回帰分析を実施します。
「統計解析」➡「連続変数の解析」➡「線形回帰(単回帰、重回帰)」
目的変数(従属変数)は「6MWD」、説明変数(独立変数)は「age, sex, VC」を選択します(Ctrlを押しながらクリックすると複数選択できます)。
OKを押すと重回帰分析が実施され、結果が表示されます。
重回帰分析の結果解釈
重回帰分析を実施すると沢山の結果が出力欄に表示されます。
確認するポイントを順に説明します。
モデル全体のP値
まずはモデル全体のP値です。
「Residual standard error…」から始まる三行の最後にある「p-value」です。
これは重回帰分析で算出した予測式が有意であるかを表しています。P<0.05の場合は有意な予測式だと言えます(上記のP値は「2.2×10の−16乗」ですので、かなり小さなP値になっています)。
P≧0.05の場合は、そもそもモデルのはまりが悪く、予測式が当てにならないことを示します。
自由度調整済み決定係数
次に、先ほどと同じ文章内の2行目にある「Adjusted R-squared」と書いた部分を確認してみましょう。
これは「自由度調整済み決定係数(R²)」と呼ばれ、1に近いほどモデルの当てはまりが良いことを示します。今回は0.9763と1にかなり近い値になっているので、モデルの当てはまりは良いと言えます。
この数値は「○○以下だと使えない」というものではなく、モデルの妥当性を示すものなので、論文などでも「調整済みR²=〇〇」と併記してある場合が多いです。
回帰係数推定値
次は重回帰分析の結果のKeyとなる部分です。
下の表は重回帰分析で求めた予測式の結果を表しています。
Estimateとは「回帰係数推定値」と呼ばれるものです。
ageは「-0.14」、sexは「-7.11」、VCは「0.33」、そしてIntercept(切片)は「-217.14」となっています。
これは6MWDが以下のような予測式になったことを表します。
今回はこの式を使って何かするわけではないですが、回帰係数推定値はこれを表していることは理解しておきましょう。
ちなみに、論文等でよく出てくる「標準化偏回帰係数(β)」は、回帰係数推定値を標準化したものです。
回帰係数推定値のP値
そして次に、先程と同じ表のP値をみていきます。
このP値は「回帰係数推定値が0である」という帰無仮説に対するP値です。
P<0.05の場合に帰無仮説が棄却され、その独立変数が「有意な影響を与えている」と判断します。
ただし、P≧0.05の場合も、今回は有意差が出なかっただけで、全く影響がないわけではありません。
今回だとVCのみがP<0.05になっています(InterceptのP値は関係ありません)。ageやsexは有意差なしですので、年齢や性別で補正してもVCは6MWDに影響することが分かります。
VIF
最後に「>vif‥」と書かれた部分を確認します。
VIFは独立変数間での相関(多重共線性)を調べる指標です。
5以上:多重共線性の可能性あり
10以上:多重共線性の可能性がかなり高い
今回はいずれも2未満ですので、多重共線性の問題はなさそうです。
(5以上であればその独立変数を投入するかどうか検討が必要)
↑VIFの基準値が間違っておりましたので訂正しました(2018年6月17日)
つまり今回は「年齢・性別で補正した状態でも、VCは6MWDに有意な影響を与える独立した関連因子であった」と結論づけることができます。
まとめ
以上、EZRで重回帰分析を行う方法を説明しました。
結果解釈では回帰係数推定値、R²、VIFといった聞き慣れない用語が出てきたので、抵抗があった方もおられたかもしれません。私も詳細を理解しきれていない部分もありますが、まずはその数値が「何を表しているのか」を知っておくことは重要だと感じます。
群間比較だけで終わる研究よりも、群間比較の次に多変量解析を行った研究の方が、考察が一歩先へ進むのではないでしょうか。
ぜひ実際に自分の研究データで解析してみて下さい。そうすると「ああ、この数値はこんなことを表していたのか」と実感しながら学習ができると思います。
次回は従属変数が名義変数(二値変数)の場合に使用する多変量解析であるロジスティック回帰分析を実践してみます。これも使用頻度の高い解析です!
▼其の25に続く▼
コメント
EZRの重回帰について質問させてください。
EZRで出てくる回帰係数推定値は、論文で目にするβ(標準回帰係数)と同じもの(呼び方が違うだけ?)と解釈してよろしいでしょうか?
加賀屋勇気さま
ご質問ありがとうございます。
EZRで出てくる回帰係数推定値と標準化回帰偏回帰係数(β)は異なる値となります。
回帰係数推定値を標準化して、他変数との比較も行えるようにしたのがβとなります。
これについては下記の記事にまとめています!
https://haru-reha.com/regression_coefficient/