シロート統計学講座 其の23
前回(其の22)ではEZRでPearsonの相関係数を評価する方法を説明しました。

今回からは多変量解析の話に移ります。
統計学の初心者の方は「はて?多変量解析って何だっけ」「名前は聞いたことあるけど詳しくは知らない」「名前すら聞いたことない」などなど思われる方も多いのではないでしょうか。
私も統計学を勉強し始めたころは群間比較(A群とB群の平均を比較する!とか)に目が向きがちで、多変量解析は「?」という感じでした。
でも今は統計学を学ぶ上で一番の強みになるのは多変量解析だと思っています。今回はEZRの具体的な方法は少し置いといて、まずは多変量解析の概要を説明します。
多変量解析とは何なのか?
どんなときに使うのか?
何のために行うのか?
など大まかなイメージを掴んでもらえればと思います。多変量解析を扱えるようになれば、研究の質がグーンとUPします。それでは、始めましょう!
多変量解析とは?
まず多変量解析とは何なのかを説明しておきますね。
教科書的に言うと、多変量解析とは
ある結果を表す変数をその他の変数によってどの程度説明(予測)できるか
参考 フリー統計ソフトEZRで誰でも簡単統計解析(P151)
を解析するものです。
・・が、
これだけでは多変量解析に馴染みのない方は少し理解しづらいかもしれませんね。
誤解を恐れず私の言葉で説明すると
POINTある結果に対して、他の因子がどれくらい影響しているのかを調べる
ものです。
そして「ある結果」と「他の因子」には名前がつけられています。
他の因子→独立変数または説明変数
それぞれ呼び方が2つずつありますが、これは使用する統計ソフトや、教科書によって異なります。どちらでも良いですが「従属変数と独立変数」「目的変数と説明変数」がセットです。
名前をただ暗記しようとすると混乱しますが、意味を考えればそれほど難しくありません。「変数」というのは「データ」だと思えばよしです。
独立変数:従属変数に影響を与える独立した変数
説明変数:目的変数を説明するための変数
個人的には従属変数・独立変数の呼び方をよく使うので、当記事内ではそれで統一します。
多変量解析の原理については、私も詳しくは説明できないですが、すごく簡単に言うと従属変数を予測するための公式を作ってくれる、ということなんですよね。
その公式をみることで、どの独立変数が強く影響しているのかが分かるわけです。また反対に影響が弱いものも分かりますので、それを利用して「補正」という役割も担います(これは後で具体例を出します)。これがとても面白い所ですね。
ちなみにEZRで使用できる多変量解析は「ロジスティック回帰」「重回帰」「Cox比例ハザード回帰」です。
多変量解析の使い方
どんなときに多変量解析を使うのか?
では具体例を挙げて多変量解析の使い方をみていきましょう。前回使用したデモデータをさらに詳しくみていくことにします。
30人の6分間歩行距離(6MWD)と肺活量(VC)を調べたところ、6MWDとVCには強い正の相関があることが分かりました。
でも相関は6MWDとVCの関係しか分からないので、その他の因子がどれくらい影響しているのかは不明です。
6MWDに影響しそうな因子として、すぐに思いつくものとしては「年齢」や「性別」がありますよね。
多変量解析を行うことで、VCに加えて年齢や性別の影響も検討することができます。つまり6MWDが従属変数、VC・年齢・性別が独立変数、ということになりますね。
多変量解析の選択方法
ここで「ロジスティック回帰」「重回帰」「Cox比例ハザード回帰」の選択方法についても話しておきます。
多変量解析は従属変数の種類によって使い分ける必要があります。具体的には以下の通りです。
従属変数が
連続変数(順序変数も含む)の場合 ➡ 重回帰
名義変数(二値変数)の場合 ➡ ロジスティック回帰
生存期間の場合 ➡ Cox比例ハザード回帰
今回の従属変数である6MWDは○mと数値で表される連続変数ですので、使用する多変量解析は「重回帰」ということになります。
ちなみに、独立変数は連続変数・名義変数どちらでも投入できますが、投入できる数にはルールがあります。
例えば重回帰の場合ですと(サンプル数÷10)個とされています。
今回はサンプル数30ですので、投入できる独立変数は3つまでということですね。
多変量解析の結果解釈
重回帰分析を行うと、それぞれの独立変数が6MWDに有意な影響を与えているかどうかを示すP値が計算されます。
例えば↓のような結果になったとしましょう。
多変量解析ではP<0.05の場合に有意な影響を与えていると判断できます。今回、VCはP<0.05であり、6MWDに有意な影響を与えていると分かりますね。
一方、年齢や性別はP≧0.05であり統計学的に有意な影響はありませんでした(影響が全くないということではないですよ)。
多変量解析の場合、このP≧0.05にも意味があります。
今回はVC・年齢・性別を独立変数として重回帰分析を行いましたね。そのなかでVCのみが有意な影響を与える因子でした。これは年齢・性別の影響を除外してもVCは6MWDに影響を与える、ということを表します。
つまり「年齢・性別で補正した状態でもVCは6MWDに影響を与え、VCは6MWDに対する独立した関連因子である」と結論づけることができるわけです。
これがいわゆる多変量解析による背景因子の補正です。
今回はサンプルデータですので、年齢・性別のみで補正していますが、実際に6MWDに影響を与える因子を同定しようとすると、まだまだ独立変数が足りないと思います。
例えば運動耐容能は呼吸機能・心機能・骨格筋機能で決定されますので、心機能を表すEFですとか、腎機能を表すCr値とか、下肢筋力の値とか・・・自分が明らかにしたいことに影響しそうな交絡因子は全て補正しておく必要があるわけですね。
これは一朝一夕でできることではなく、事前に綿密な研究計画を立てて、それなりのサンプル数を用意する必要がありますよね。重回帰分析の場合、10個の独立変数を投入するには最低でもサンプル数100は必要となりますからね。
まとめ
今回はEZRの使い方は置いといて、まずは多変量解析の概要についてをお話しました。
多変量解析を用いることで、臨床研究でありがちな背景因子のズレを統計学的に補正することができます。これは私も含めて臨床研究を行う人たちにとってものすごい強みになります。
実際に研究で多変量解析を使う際には結果解釈のところをもう少し詳しく知っておく必要がありますが、それは次回以降でEZRを使いながら説明できれば、と思っています。
今回はとにかく「多変量解析って便利なんだ」ということが伝われば幸いです。次回は今回説明した重回帰分析を、EZRで実践してみますね。今後ともシロート統計学講座をよろしくお願いいたします。
▼其の24に続く▼

コメント