統計学で理解すべき用語②

シロート統計学講座

シロート統計学講座 其の6

「其の5」では基本的な統計解析(紹介している11個の統計解析のうち①~⑥)を理解するために必要な用語をテスト形式で確認しました。

▼其の5がまだの方はこちら▼

統計学用語を定着させる確認テスト
シロート統計学講座「其の5」

今回は残りの統計解析である⑦~⑪を理解するための用語を解説します。⑦~⑪は少し特殊な統計解析になります。ここが理解できればSTEP1は修了です。ちなみに⑦~⑪の統計解析は以下のものでした。

少し特殊な統計解析

⑦ 2つの連続変数の相関を評価する
⑧ 比率についての多変量解析を行う
⑨ 連続変数についての多変量解析を行う
⑩ 2群間の生存曲線を比較する
⑪ 生存曲線についての多変量解析を行う

ここで押さえるべき用語は「相関」「多変量解析」「生存曲線」の3つです。ざっくりと理解していきましょう。

スポンサーリンク
☆Udemyでのコース公開☆

シロート統計学講座をUdemyで公開しています。3時間の動画で、統計学の基礎からEZRでの解析実施を一気に学べます。統計解析の初心者の方でも、基本的な統計解析が実践できるレベルを目指すことができます。>>>Udemy「シロート統計学講座」

相関とは

相関とは「2つの連続変数の関連の強さを評価するもの」です。学会発表や論文でこのような図をみたことがないでしょうか?

これは握力が強い人ほど下肢筋力も強いという正の相関を示しています。正の相関は、片方の値が上がれば、もう一方の値も上がる、という関係です。

逆に年齢と握力のように負の相関を示す場合もあります。

つまり年齢が高い人ほど握力が弱いということを示します。負の相関は、片方の値が上がれば、もう一方の値は下がる、という関係です。

このように、どちらかの値が動けば、もう一方の値も動く、というのが相関関係です。これで⑦についてはOKですね。

⑦ 2つの連続変数の相関を評価する

多変量解析とは

次に、多変量解析とはなんでしょうか?

簡単に言うと「あるイベントに対して、他の要素がどれだけ影響を与えているのか」を調べるものです。つまり因果関係の推測を行うことができるんです。

例えば手術を受けた30人に対して、手術前後で6分間歩行距離を測定したところ、手術後に平均30m短縮したとします。多変量解析を行えば、この短縮に何が影響しているのかを調べることができます。

具体的にはこんな感じです。

6分間歩行距離に影響を与えそうな因子として、年齢・性別・手術様式・術前リハの有無を挙げて多変量解析を行ったところ、術前リハの有無が有意に影響した。

つまり、術前リハを行わなかったことが6分間歩行距離の短縮に影響したかもしれない、ということを示すことができます。

注意点としては、多変量解析は因果関係を推測するために実施されますが、有意差が出たからといって必ずしも因果関係を示すとは限らないということです。

はっきりと因果関係を示すには、他の因子の影響を限りなく小さくする必要があるんです(ここが難しい所ですが)。でも因果関係がある場合には、必ず多変量解析で有意差は出るはずです。

あと、多変量解析には補正という役割もあります。よく出てくるのは年齢の補正ですね。例えば、さっきの6分間歩行短縮に関して、こんな指摘をする人が現れるでしょう。

若い人ほど短縮が少なかったんじゃないですか?
リハの影響ではなくて、年齢の影響かもしれませんよ!

こんなときは、多変量解析で年齢の影響は有意ではないことを示せば「今回は年齢の影響はそれほどなさそうですよ」と返しができます。年齢を多変量解析に入れておくことで年齢で補正されたリハの効果をみることができるわけです。

このように多変量解析には「因果関係の推測」と「補正」という役割があり、研究を行う上で、欠かせない存在になります。

これで⑧・⑨はイメージがつきそうですね。

⑧ 比率についての多変量解析を行う
⑨ 連続変数についての多変量解析を行う

6分間歩行距離のような連続変数に対して多変量解析を行う場合は「⑨連続変数についての多変量解析を行う」であり、男・女のような名義変数に対する多変量解析であれば「⑧比率についての多変量解析を行う」ということになります。

▼データの尺度を復習したい時は「其の4」をご参照ください▼

統計学で理解すべき用語①
シロート統計学講座「其の4」

生存曲線とは

最後に生存曲線についての説明です。生存曲線とは↓のようなグラフのことです。

こちらも論文などで一度はみかけたことがあると思います。これはkaplan-meier(カプランマイヤー)曲線というもので、生存期間を表すときに使用するグラフになります。

生存期間とは「あるイベントが発生するまでの期間」のことです。

「生存期間」だからといって必ずしもそのイベントは「死亡」である必要はなく、一度だけ生じるものであればなんでも可です。例えば「治療を行ってから再発までの期間」とか「退院から再入院までの期間」などですね。

⑩ 2群間の生存曲線を比較する
⑪ 生存曲線についての多変量解析を行う

⑩については2群間で生存期間を比較して生存曲線に差があるかを調べるものです。たとえば治療あり群なし群で生存率を比較する、みたいな感じです。⑪については生存期間に対する多変量解析ですので、生存期間に影響を与える因子を調べたいときに使用するものになります。

まあ、この辺は本当にざっくりとだけ理解しておけば良いと思います。″生存曲線”と聞いて、カプランマイヤー曲線のイメージがなんとなく出てくるくらいでOKです。

まとめ

これでようやく①~⑪までの統計解析を大まかにはイメージできるようになったかと思います。なんとなーくでもイメージできていればOKですよ。イメージしにくい所があれば、過去の記事を見直してみて下さいね。

医学系研究で使う統計解析

① 独立した2群間の連続変数を比較する
② 対応のある2群間の連続変数を比較する
③ 独立した2群間の比率を比較する
④ 対応のある2群間の比率を比較する
⑤ 独立した3群以上の間の連続変数を比較する
⑥ 対応のある3群以上の連続変数を比較する
⑦ 2つの連続変数の相関を評価する
⑧ 比率についての多変量解析を行う
⑨ 連続変数についての多変量解析を行う
⑩ 2群間の生存曲線を比較する
⑪ 生存曲線についての多変量解析を行う

さて、今回でSTEP1は修了となります。次回以降はSTEP2に入っていきます。いよいよ統計解析を選択して、実際に使用する過程に入っていきますよ。

理解までの4STEP

STEP1 統計解析の種類
STEP2 統計解析の選択方法
STEP3 統計解析の実施方法
STEP4 統計解析の結果解釈

▼其の7に続く▼

連続変数を比較する統計解析の選択方法
シロート統計学講座「其の7」

>>>シロート統計学講座のTOPへ戻る

コメント

タイトルとURLをコピーしました