EZRで重回帰分析を行う方法

シロート統計学講座

シロート統計学講座 其の24

前回(其の23)は多変量解析の概要について説明しました。

多変量解析とは?意味・使い方・解釈の概要
シロート統計学講座「其の23」

 

今回はEZRを使って多変量解析の一つである重回帰分析を行う方法を紹介します。重回帰分析は、従属変数が連続変数の場合に使用する検定になります。EZRの操作自体は簡単ですが、結果解釈のところが少し特殊なので、そこはなるべくシンプルにお伝えできればと思います。

多変量解析が使えるようになると、研究の質がUPしますよ。

 

スポンサーリンク

デモデータ

 

デモデータは前回具体例として挙げたデータです。30人に対して6分間歩行距離(6MWD)と肺活量(VC)を測定し「VCは6MWDに対して影響を与えるのか」をみていきます。今回は交絡因子となりそうな年齢・性別の影響も含めて検討します。

 

Excelデータの作り方で今までと異なる点が一つあります。それは性別(sex)を「男・女」ではなく「0・1」としている点です(男性=0、女性=1とみなすということ)。

 

EZRでは文字(日本語・英語・記号)で入力すると自動的に名義変数とみなすので、普段は文字入力で構わないですが、多変量解析の場合、あとで従属変数に対する予測式をみるときに分かりやすいので「0・1」としています。

データの取り込み

まずはデモデータをEZRに取り込みます。

Excelファイルを開き、データを囲ってコピーします(CtrlCでも可)。

 

EZRの画面で「ファイル」→「データのインポート」→「ファイルまたはクリップボード, URLからテキストデータを読み込む

 

データセット名は「gait.vc」として(ここはなんでも可)、クリップボードタブにチェックを入れてOKをクリックします。

 

データセットが「gait.vc」になり、「表示」を押して正しくデータが表示されれば取り込み完了です。

正規分布の確認

重回帰分析を行う場合、従属変数が正規分布に従うことが前提となりますので、まずは正規分布の確認を行っていきましょう。

 

今回は6MWDに対して影響を与える因子を調べるのが目的なので

従属変数:6MWD
独立変数:VC・年齢・性別

となります。

 

よって、6MWDが正規分布に従うかどうかを確認する必要がありますね。

 

統計解析」→「連続変数の解析」→「正規性の検定(Kolmogorov-Smimov検定)

 

変数は「6MWD」を選択してOKを押します。

 

すると正規性の検定が実施され、ヒストグラム検定結果が表示されます。ヒストグラムをみると、鐘型を大きく逸脱することはなさそうですね。

 

2つの正規性の検定結果をみても両者ともP>0.05という結果になっています(正規性は棄却されなかったということ)。

 

ヒストグラム・正規性の検定結果から、6MWDは正規分布に従うといってよさそうですね。

重回帰分析を行う

重回帰分析の実施

従属変数である6MWDの正規分布が確認できましたので、重回帰分析を実施します。

 

統計解析」➡「連続変数の解析」➡「線形回帰(単回帰、重回帰)

 

目的変数(従属変数)は「6MWD」、説明変数(独立変数)は「age, sex, VC」を選択します(Ctrlを押しながらクリックすると複数選択できます)。

 

OKを押すと重回帰分析が実施され、結果が表示されます。

重回帰分析の結果解釈

重回帰分析を実施すると沢山の結果が「出力」欄に表示されます。初めてだと分かりにくいですが、見るポイントは決まっているので順に説明しますね。

 

第一に確認するのは、モデル全体のP値です。「Residual standard error…」から始まる三行の最後にある「p-value」ですね。

 

これは重回帰分析で算出した予測式が有意であるかを表しています。P<0.05の場合は有意な予測式だと言えます(上記のP値は「2.2×10の−16乗」ですのでかなり小さなP値になっています)。

 

逆にここがP≧0.05になった場合は、そもそもモデルのはまりが悪く、予測式が当てにならないことを示します。

 

次に確認するのは、さっきと同じ文章内の2行目にある「Adjusted R-squared」と書いた部分です。

 

これは「決定係数)」と呼ばれ、1に近いほどモデルの当てはまりが良いことを示します。今回は0.9763と1にかなり近い値になっているので、モデルの当てはまりは良いと言えます。

 

この数値は「○○以下だと使えない」というものではなく、モデルの妥当性を示すものなので、論文などでも「調整済みR²=〇〇」という風に値が記載してある場合が多いです。

 

次は重回帰分析のキーとなる部分です。下の表は重回帰分析で求めた予測式の結果を表しています。

 

Estimateとは「回帰係数推定値」と呼ばれるものです。ageは「-0.14」、sexは「-7.11」、VCは「0.33」、そしてIntercept(切片)は「-217.14」となっていますね。

 

これは6MWDが以下のような予測式になったことを表します。

 

今回はこの式を使って何かするというわけではないですが、回帰係数推定値はこれを表していることは理解しておいた方がいいかもですね。

 

そして次に、先程と同じ表のP値をみていきます。

 

このP値をみることで、どの独立変数が有意な影響を与えているかを知ることができます。P<0.05の場合に「有意な影響あり」と判断できます。

P≧0.05の場合も今回は有意差が出なかっただけで、全く影響がないわけではありません。

 

今回だとVCのみがP<0.05になっています(InterceptのP値は関係ないです)。ageやsexは有意差なしですので、年齢や性別で補正してもVCは6MWDに影響することが分かりますね。

 

最後に「>vif‥」と書かれた部分を確認します。

 

VIFは独立変数間での相関多重共線性)を調べる指標になります。

VIFが
5以上:多重共線性の可能性あり
10以上:多重共線性の可能性がかなり高い

 

今回はいずれも2未満ですので、多重共線性の問題はなさそうです。

5以上であればその独立変数を投入するかどうか検討が必要)

↑VIFの基準値が間違っておりましたので訂正しました(2018年6月17日)

 

つまり今回は「年齢・性別で補正した状態でも、VCは6MWDに有意な影響を与える独立した関連因子であった」と結論づけることができます。

まとめ

以上、EZRで重回帰分析を行う方法を説明しました。

 

結果解釈のところでは回帰係数推定値、R²、VIFといった聞き慣れない用語が出てきたので、少し抵抗がある方もおられたかもしれませんね。私もあまり詳しく理解しているわけではないです。大事なのは、その数値が「何を表しているのか」を知っておくことだと思います。

 

研究が群間比較だけで終わっているのか、群間比較の次に多変量解析が行われているのかで研究の質がかなり変わります。やはり多変量解析まで行っている方が信憑性はUPします。

 

ぜひ実際に自分の研究データで解析してみて下さい。そうすると「ああ、この数値はこんなことを表していたのか」と実感しながら学習もできると思いますよ。

 

次回は従属変数が名義変数(二値変数)の場合に使用する多変量解析であるロジスティック回帰分析を実践してみます。これも研究でかなり使えます!

▼其の25に続く▼

EZRでロジスティック回帰分析を行う方法
シロート統計学講座「其の25」

>>>シロート統計学講座のTOPへ戻る

コメント