こんにちは、管理人のハルです。
今回はEZRでROC曲線を描いて、カットオフ値を算定する方法をまとめておきます。
どんな時に役に立つのか
まず、この方法がどんな時に役に立つのかを説明しておきます。
医療においては色々な検査がありますよね。
例えばインフルエンザが疑われるときには、インフルエンザの検査が行われます。検査の結果は「陰性」「陽性」で表され、「陽性」ならインフルエンザの罹患が疑われます。このように「陰性」「陽性」で表される検査は比較的分かりやすいですよね。
一方、検査の中には○点などのように得点で表されるものもあります。例えば認知症の検査にはHDS-Rという検査を用いることがありますが、これは認知機能を30点満点で得点化するものです。
この場合、「○○点以下では認知症の疑いあり」というような基準が必要となります。この基準値のことを「カットオフ値」と呼びます。ちなみにHDS-Rのカットオフ値は20点とされています。
カットオフ値を求めるために必要となるのがROC曲線と呼ばれるものになります。つまり、今回のテーマは「○○点以上(or 以下)で□□の疑いあり」というように、連続変数と二値変数の関係を調べたい時に役立つ方法になります。
実際にデモデータを用いてカットオフ値を算定してみましょう。
デモデータ
今回のデモデータは、ある検査と病気Aの罹患(病気Aなし=0/あり=1)との関係を調べることを想定した仮想データです。検査は20点満点であり、点数が上がるほど病気Aの罹患確率が上がると考えてください。この場合のカットオフ値は何点になるでしょうか。
データのインポート
さっそく、デモデータをEZRに取り込みます。
まずデモデータを開いて、データが打ち込まれている範囲を選択してコピーします(ctrl+Cでも可)。
次にEZRの画面で「ファイル」→「データのインポート」→「ファイルまたはクリップボード…を読み込む」を選択します。
「クリップボード」と「タブ」を選択してOKをクリックします。
※データセット名はそのままでOKです。
OKをクリックするとデータがEZRにインポートされますので「表示」を押して、正確にデータが取り込まれているか確認してください。
これでデータのインポートは完了です。
EZRでROC曲線を描いてカットオフ値を算定する
つぎにEZRでROC曲線を描いてカットオフ値を算定する作業です。
EZRで「統計解析」→「検査の正確度の評価」→「定量検査の診断への正確度の評価(ROC曲線)」を選択します。
そして「結果」に「病気A」、「予測に用いる値」に「点数」を選択します。その下の「陽性の判定基準」は「閾値以上を陽性と判断する」にチェックをいれておきます。
※「陽性の判定基準」は「○○点以上で□□の疑いあり」と言いたい時には「閾値以上を陽性と判定する」に、「○○点以下で□□の疑いあり」としたいときは「閾値以下を陽性と判定する」にチェックを入れます。
そしてOKをクリックするとROC曲線と結果が表示されます。
結果の解釈方法
これがROC曲線です↓
ROC曲線はReceiver Operatorating Characteristic curveの略語です。
縦軸はSensitivity(感度)、横軸はSpecificity(特異度)となっています。
※横軸は左端が1.0、右端が0.0となっていることに注意
感度と特異度については過去記事で説明しています。
このROC曲線が何を表しているかというと、カットオフ値を0~20点まで順に移動させた際の感度と特異度をプロットしたものです。
つまり、カットオフ値が1点の場合は感度1(100%)、特異度0(0%)、2点の場合は感度1(100%)、特異度0.05(5%)、3点の場合は・・・と続いていき、20点までの感度と特異度がプロットしてあります。
感度と特異度の値についてはEZRの出力欄に表示されています。
↑(注)文字が小さくなるので3までしか載せていません
そして、最終的なカットオフ値は「感度と特異度の和が最大になる」ポイントが選択されます。今回は11点の時(感度0.857、特異度0.900)の時に和が最大となるので、カットオフ値は11点ということになりました。
曲線下面積について
ちなみにEZRの出力欄の一番下をみると「曲線下面積」というのが記載されています。
これはROC曲線の下の面積を求めたもので、検査の正確性をみる指標として用いられます。縦軸・横軸とも0~1ですので曲線下面積の最大値は1であり、1のときはパーフェクトな検査となります。面積が0.5となれば検査の信憑性はまったくなし、0の時は負の相関(逆の予測)という解釈になります。
今回は0.94ですので、正確性の高い検査であると判断できます。
まとめ
以上、EZRでROC曲線を描いてカットオフ値を算定する方法をご紹介しました。
医学研究においては連続変数と名義変数(二値変数)の関連をみたいという場面は比較的多いのではないでしょうか。検査のカットオフ値を調べる場合のみでなく、研究で使用したoutcomeの妥当性(感度・特異度)を示すためにも使えると思います。
では、また。
コメント