シロート統計学講座 其の13
前回はP値についての記事を挟みました。P値を理解することで統計解析の結果を正しく解釈できるようになり、論文を読む際のリテラシーにも繋がると思います。
▼其の12がまだの方はこちら▼
さて、今回からは無料統計ソフトEZRでの統計解析の実践を再開します。今回は「対応のある2群間の連続変数を比較する」統計解析で、パラメトリック検定である対応のあるt検定です。時系列の変化をみることができるので、理学療法分野で初めて観察研究を行う人には使用しやすい検定ではないでしょうか。
デモデータ
今回もデモデータ(Excelファイル)をダウンロードできます。時間のある方はEZRを使って、一緒に対応のあるt検定を実施してみましょう。
▼EZRのダウンロードがまだの方は▼
今回は、30人に対して手術前(pre)と手術後(post)で6分間歩行距離(m)を調べた仮想データです。6分間歩行距離とは名前の通り、6分間で歩行できる最大歩行距離のことです。理学療法評価ではよく用いられる指標です。
「対応のある2群」ですので、同一人物に対して6分間歩行距離を手術前・手術後の2回測定したデータになります。t検定の時は下図の左側のように群分けを行いましたが、対応のあるt検定では2群を横並びにしてデータを作成します。
またデモデータでは、一番右の欄に「difference」という項目をつけています。これはpostとpreの差を示した値で、正規分布を確認する際に必要なデータとなります。
それでは始めましょう。
データの取り込み
まずはExcelデータをEZRに取り込みます。ここはもうお馴染みの手順ですね。
以下のようにデータを囲った状態で「右クリック」→「コピー」(ctrl+Cでも可)。
そのままRコマンダーのウインドウで「ファイル」→「データのインポート」→「ファイルまたはクリップボード, URLからテキストデータを読み込む」を選択。
今回は6分間歩行距離のデータなので、データセット名は「gait」としておきましょう。あとは「クリップボード」と「タブ」にチェックを入れて「OK」を選択。
そして、データセット名が「gait」になっていることを確認し、「表示」を押してデータが正しく取り込まれているかを確認します。
きちんとデータが表示されれば取り込み完了です。
正規性の確認
さて、対応のあるt検定はパラメトリック検定ですので、データが正規分布に従っていることが前提となります。
ここが間違えやすいポイントですが、対応のある2群の場合は「2群の差」が正規分布に従うかどうかをチェックする必要があります。
デモ用データで言うと「difference」の列ですね。
では正規性の確認をやってみましょう。正規性を確認する方法は
②正規性の検定を行う
がありました。
そして視覚的に分布を確認する方法としては「ヒストグラム」と「QQプロット」という2つの方法があります。今回は「QQプロット」を見てみましょう。
まず「グラフと表」→「QQプロット」を選択。
変数は「difference」を選択して「OK」。
するとQQプロットが表示されます。
QQプロットはデータを正規分布の理論的な分布と比較してプロットしたものです。データが正規分布であれば真ん中の斜めに走った赤いラインに沿って丸印が表示されます。
今回のデータでは概ね赤いラインに沿ってプロットされているので正規分布でよさそうです。視覚的な確認なので主観的になりますが、赤いラインを大きく逸脱していなければOKのようです。
正規性の確認は「ヒストグラム」「QQプロット」「正規性の検定」の3つで総合的に判断すると良いと思います。
正規性の検定を行うとヒストグラムも同時に確認できるのでやってみましょう。
「統計解析」→「連続変数の解析」→「正規性の検定」を選択。
変数は「difference」で「OK」。
するとヒストグラムと検定の結果(2つ)が表示されます。
ヒストグラムは概ね左右対称の鐘型の分布になれば正規分布です(今回は割ときれいな鐘型)。そして2つの検定の結果はP値を見ればよいですね。P<0.05の時に正規性が棄却されますので、今回は棄却されませんでした。
「ヒストグラム」「QQプロット」「正規性の検定」いずれでも正規性は否定されませんでしたので、今回は正規分布とみなして良さそうですね。
対応のあるt検定を行う
今回も正規性の確認に時間をかけましたが、対応のあるt検定はすぐに実施できます。
「統計解析」→「連続変数の解析」→「対応のある2群間の平均値の比較(paired t検定)」
※対応のあるt検定は英語では paired-t-test.
第1の変数は「pre」、第2の変数は「post」を選択し「OK」。
以下が結果になりますね。
手術前が平均353.5m、手術後が平均289.3mであったと分かりますね。P値は2.91e-06と変な表示になっていますね。この表示は 2.91×「10の-6乗」 を表しています。
つまり0.00000291ですね(0の数合ってますかね・・笑)
要はP値がめちゃくちゃ小さいわけですね。対応のあるt検定ではP<0.05で「有意差あり」と判断できます。よって今回は「手術後には手術前と比較して6分間歩行距離が有意に短縮した」と言えますね。
まとめ
以上、EZRで対応のあるt検定を行う方法を説明しました。t検定の時と同様に正規性の確認をしっかりとやりましたが
サンプル数(※1)が十分に大きい場合(n≧30など)は正規分布に従わなくても対応のあるt検定を使用できます。
参考:フリー統計ソフトEZRで誰でも簡単統計解析(p100)
(※1)「サンプル数」⇒「サンプルサイズ」の意味と思われます
とされていますので、n数が30以上のときは確認程度で良いのかもしれません。
対応のあるt検定は、例えば理学療法初期評価と最終評価の比較ができるので初心者にもイメージしやすいですよね。ただ、評価間の日数にバラツキがあると日数の影響を受けるので、日数を統一したり、後日紹介する多変量解析での調整などが必要ですね。
また、対応のあるt検定では、対照群との比較はできないので「理学療法の効果」を同定することまでは難しいので注意が必要です(理学療法効果を調べるには色んな調整が必要!)。
では次回は「対応のある2群間の連続変数を比較する」統計解析で、ノンパラメトリック検定であるWilcoxon符号付順位和検定を行ってみます。
▼其の14に続く▼
《シロート統計学講座 in YouTube》
EZRで対応のあるT検定を行う方法を動画にしてみました。ブログを読んだあと、実際にEZRを操作している所をこちらで見てみてください。
コメント