EZRでROC曲線を描いてカットオフ値を算定する方法

EZRの基本操作

こんにちは、管理人のハルです。

今回はEZRでROC曲線を描いて、カットオフ値を算定する方法をまとめておきます。

スポンサーリンク

どんな時に役に立つのか

まず、この方法がどんな時に役に立つのかを説明しておきます。

 

医療においては色々な検査がありますよね。

 

例えばインフルエンザが疑われるときには、インフルエンザの検査が行われます。検査の結果は「陰性」「陽性」で表され、「陽性」ならインフルエンザの罹患が疑われます。このように「陰性」「陽性」で表される検査は比較的分かりやすいですよね。

 

一方、検査の中には○点などのように得点で表されるものもあります。例えば認知症の検査にはHDS-Rという検査を用いることがありますが、これは認知機能を30点満点で得点化するものです。

 

この場合、「○○点以下では認知症の疑いあり」というような基準が必要となります。この基準値のことを「カットオフ値」と呼びます。ちなみにHDS-Rのカットオフ値は20点とされています。

 

カットオフ値を求めるために必要となるのがROC曲線と呼ばれるものになります。つまり、今回のテーマは「○○点以上(or 以下)で□□の疑いあり」というように、連続変数と二値変数の関係を調べたい時に役立つ方法になります。

 

実際にデモデータを用いてカットオフ値を算定してみましょう。

デモデータ

今回のデモデータは、ある検査と病気Aの罹患(病気Aなし=0/あり=1)との関係を調べることを想定した仮想データです。検査は20点満点であり、点数が上がるほど病気Aの罹患確率が上がると考えてください。この場合のカットオフ値は何点になるでしょうか。

データのインポート

さっそく、デモデータをEZRに取り込みます。

まずデモデータを開いて、データが打ち込まれている範囲を選択してコピーします(ctrl+Cでも可)。

 

次にEZRの画面で「ファイル」→「データのインポート」→「ファイルまたはクリップボード…を読み込む」を選択します。

 

「クリップボード」と「タブ」を選択してOKをクリックします。
※データセット名はそのままでOKです。

 

OKをクリックするとデータがEZRにインポートされますので「表示」を押して、正確にデータが取り込まれているか確認してください。

 

これでデータのインポートは完了です。

EZRでROC曲線を描いてカットオフ値を算定する

つぎにEZRでROC曲線を描いてカットオフ値を算定する作業です。

EZRで「統計解析」→「検査の正確度の評価」→「定量検査の診断への正確度の評価(ROC曲線)」を選択します。

 

そして「結果」に「病気A」、「予測に用いる値」に「点数」を選択します。その下の「陽性の判定基準」は「閾値以上を陽性と判断する」にチェックをいれておきます。

※「陽性の判定基準」は「○○点以上で□□の疑いあり」と言いたい時には「閾値以上を陽性と判定する」に、「○○点以下で□□の疑いあり」としたいときは「閾値以下を陽性と判定する」にチェックを入れます。

 

そしてOKをクリックするとROC曲線と結果が表示されます。

結果の解釈方法

これがROC曲線です↓

ROC曲線はReceiver Operatorating Characteristic curveの略語です。

縦軸はSensitivity(感度)、横軸はSpecificity(特異度)となっています。
※横軸は左端が1.0右端が0.0となっていることに注意

 

感度と特異度については過去記事で説明しています。

感度と特異度について例を用いて分かりやすく理解する
こんばんは。管理人のハルです。 今回は「感度と特異度」についてまとめておきます。 病気Aの検査法の精度は… 理解しやすくするために例を用いて説明しますね。 Aという病気があるとします。最近、Aの新たな検査法が開発されました。そし...

 

このROC曲線が何を表しているかというと、カットオフ値を0~20点まで順に移動させた際の感度と特異度をプロットしたものです。

 

つまり、カットオフ値が1点の場合は感度1(100%)、特異度0(0%)、2点の場合は感度1(100%)、特異度0.05(5%)、3点の場合は・・・と続いていき、20点までの感度と特異度がプロットしてあります。

感度と特異度の値についてはEZRの出力欄に表示されています。


↑(注)文字が小さくなるので3までしか載せていません

 

そして、最終的なカットオフ値は「感度と特異度の和が最大になる」ポイントが選択されます。今回は11点の時(感度0.857、特異度0.900)の時に和が最大となるので、カットオフ値は11点ということになりました。

曲線下面積について

ちなみにEZRの出力欄の一番下をみると「曲線下面積」というのが記載されています。

これはROC曲線の下の面積を求めたもので、検査の正確性をみる指標として用いられます。縦軸・横軸とも0~1ですので曲線下面積の最大値は1であり、1のときはパーフェクトな検査となります。面積が0.5となれば検査の信憑性はまったくなし、0の時は負の相関(逆の予測)という解釈になります。

今回は0.94ですので、正確性の高い検査であると判断できます。

まとめ

以上、EZRでROC曲線を描いてカットオフ値を算定する方法をご紹介しました。

医学研究においては連続変数と名義変数(二値変数)の関連をみたいという場面は比較的多いのではないでしょうか。検査のカットオフ値を調べる場合のみでなく、研究で使用したoutcomeの妥当性(感度・特異度)を示すためにも使えると思います。

では、また。

コメント