シロート統計学講座 其の26
其の24・25では重回帰分析とロジスティック回帰分析を実践しました。
多変量解析を行う際に独立(説明)変数を選ぶ必要がありますが、どうやって選べばいいのでしょうか?今回は主に新谷歩先生の「みんなの医療統計 多変量解析編」を参考にして、独立変数を選び方をまとめてみました。
独立変数を慎重に選ぶ理由
多変量解析は因果関係を推測したり、群間の背景因子を補正したりと、とても便利なものです。一方で独立変数の選び方によって、P値の変動がとても大きいのも事実です。
例えば、A・B・Cを独立変数にするとAに有意差が出るのに、A・C・Dを独立変数とするとAの有意差はなくなる、ということが起こり得るんですよね。となると、Aに有意差が出るように独立変数を選択する、というように恣意的な選択になりかねません。
研究というのは再現性(誰がやっても同じ結果になる)が大事な要素なので、独立変数の選び方で結果が異なるようでは再現性は乏しいですよね。
そもそも、本来は交絡因子を補正するために多変量解析を行うのに、自分が見たいアウトカムに有意差が出るように調整してしまっては意味がありません。
新谷先生の言葉を引用すると、以下のように説明されています。
ひと昔前までは、最も有意差の出やすいモデルが良しとされた時代があり、有意差の出る変数を優先的にモデルに入れるなどデータを見ながらモデルを組み立てていました。今ではデータを見てモデルに投入する変数を決めることは、多くのジャーナルでタブーとされています。
みんなの医療統計 多変量解析編(P215)
では、どのようにして独立変数を選べばいいのでしょうか。
基本的なルールを覚えておきましょう。
投入できる独立変数の数
まずは投入できる独立変数の数についてです。
投入可能な数は、どの多変量解析を使うかによって変わってきます。
●重回帰
総症例数を15で割った数まで
●ロジスティック回帰
イベントありとなしの小さい方を10で割った数まで
●Cox比例ハザード回帰
イベントありの数を10で割った数まで
参考:みんなの医療統計 多変量解析編(P208)
イメージがつきにくい方もおられるかもしれないので、例を挙げてみますね。
重回帰は従属変数が連続変数の時に使用する解析でした。例えば「6分間歩行距離(m)に影響する因子を調べる」という場合ですね。6分間歩行距離を調べたのが60人であれば、60÷15=4個となりますね。
ロジスティック回帰は従属変数が名義変数(二値変数)の時に使用しますね。例えば「合併症あり・なしに影響する因子を調べる」という場合です。合併症ありが30人、合併症なしが50人だとすれば、あり・なしで小さい方を10で割るので、30÷10=3個となります。
Cox比例ハザード回帰は生存曲線を解析する時に使用します。例えば「退院から死亡までの期間に影響する因子を調べる」という場合です。死亡が50人、生存が100人だとすればイベントあり(死亡)の方を10で割るので、50÷10=5個となります。
このように、投入できる独立変数の数にはルールがあることをまずは押さえましょう。
独立変数の選び方
投入できる独立変数の数は分かりましたが、どのように独立変数を選べばよいのでしょうか?
単刀直入に言いますと
何がアウトカムと因果関係をもつかを、データを見ずに先行文献や医学的観点から考え、アウトカムとの関連性の上で重要なものから選んでいく
みんなの医療統計 多変量解析編(P215)
これが正解のようです。
データを解析した後でP値などをみて決めるのではなく、データを見る前に、です。
そのためには研究計画段階で先行文献をしっかりと調べ、何が交絡因子となり得るのかを見定めておく必要があります(難しい!)
何が交絡因子となるのかは、研究テーマによって様々です。症例数の問題から投入したい独立変数が全部入らないときは、重要なものから入れていきます。
ちなみに、年齢と性別はほとんどの場合で投入した方がbetterなようです。
あと、重回帰とロジスティック回帰をやったときに紹介した多重共線性(独立変数間の相関)が見られる場合には、最も適したものだけをチョイスしましょう。
例えば、身長・体重・BMIなどは相関すると思いますが、「体格」という要素で補正したいだけであればBMIだけを投入すれば良いかもしれません。身長・体重を外すことができれば、それだけでもう2つは独立変数を投入できますよね。
このように、限られた独立変数の数で、重要なものを選択していきます。
独立変数の間違った選び方
独立変数の間違った選び方は
・ステップワイズ法によって独立変数を選ぶ
などです。
以前は私も、2群間で色々とアウトカムを比較して有意差のあったものを独立変数として選択する方法をしてしまっていました。
でも、それだと有意差のあるものしか選ばれないので医学的に大切な因子が抜けることがあるんですよね。
例えば肺がんの研究で、2群間で男女比の有意差はなかったとしても、そもそも肺がんは男性の方が多い疾患なので、やはり性別は交絡因子となる可能性がありますよね。
ですので、2群間で差があった・なかったという話ではなく、過去の研究で明らかになっている医学的知識から交絡因子を予測する必要があるわけです。
ステップワイズ法も同様の理由で、使ってはダメなようです。
ステップワイズ法はP値などを参考にして機械に独立変数を選ばせる、という方法ですが、これも医学的に大切な因子が抜けてしまう可能性があります。
新谷先生の書籍のなかでは
「ステップワイズ法を用いたら、即クビだ!」
みんなの医療統計 多変量解析編(P221)
とまで言われていた、と紹介されています。
EZRでもステップワイズ法が選択できるようになっていますが、使わない方が良さそうです。
<補足>2018.6.25追記
交絡因子の補正という目的ではステップワイズ法は使えませんが、診断モデルや予後予測モデルを構築する目的の場合には有用です。何を目的に多変量解析を行うか、が大事ですね。(参考:EZRでやさしく学ぶ統計学P16)
まとめ
以上、多変量解析における独立(説明)変数の選び方について説明しました。
独立変数を選択するポイントは以下の3点です。
●データを見ずに決める
●先行文献、医学的観点から交絡因子になりそうなものを選ぶ
●ステップワイズ法は使わない
大事な因子が独立変数として選択されていなければ、研究の質が落ちてしまう可能性もあるので、しっかりと先行文献をサーベイした上で選択したいものですね。
今回の記事を書くにあたって参考にしたのは↓の書籍です。
著者の新谷歩先生は大阪市立大学大学院の教授で、統計学を専門としている先生です。内容は結構深いところまで書いてありますが、初心者にも分かりやすいよう平易な言葉で書かれているので、多変量解析をしっかりと勉強したい人にはおススメです。
では、次回は生存曲線を比較するlogrank検定について説明します。シロート統計学講座をお読み頂きありがとうございました。
▼其の27に続く▼
コメント