シロート統計学講座 其の11
シロート統計学講座では、フリー統計ソフトEZRを使って基本的な統計解析を実施する方法をご紹介しています。「其の10」ではt検定を行う方法を説明しました。

今回は「独立した2群間の連続変数を比較する」統計解析のノンパラメトリック検定であるMann-Whitney U 検定(マンホイットニーU検定)を行います。
デモデータ
今回もデモデータ(Excelファイル)をダウンロードできるようにしたので、時間がある人は実際にパソコンでEZRを操作してみてくださいね。
今回のデモデータはA群(30人)とB群(30人)で膝関節伸展のMMTを記録した仮想データで、下のような構図になります。
MMTは理学療法の世界ではメジャーな筋力評価で、筋力を0~5までの6段階で評価するものです。このようにスコアリングした尺度は順序尺度と呼ばれていましたね。
▼順序尺度などのデータ尺度について▼

ノンパラメトリック検定であるMann-Whitney U 検定は
●正規分布に従わない2群間の連続変数を比較する場合
に使用します。
パラメトリック検定は平均値で比較しますが、ノンパラメトリック検定では中央値が比較に用いられます。中央値について知りたい方はこちら>>>平均値と中央値
では、実際にEZRでMann-Whitney U検定を行ってみましょう。
データの取り込み
EZRを起動し、まずはデモデータをEZRに取り込みます。ここは前回と同様ですが、まだ慣れていない方も多いと思うので再度説明しますね。
デモ用のExcelファイルを開き、データを囲って「右クリック」→「コピー」(Ctrl+Cでも可)。
EZRのウインドウに移動して「ファイル」→「データのインポート」→「ファイルまたはクリップボード、URLからテキストデータを読み込む」を選択。
データセット名は「MMT」にして(ここは何でもよいです)、「クリップボード」と「タブ」にチェックを入れて「OK」。
データセットが「MMT」になっていること確認し、「表示」をおして取り込まれた正常にデータが取り込まれたかどうかをチェックします。
きちんとデータが表示されれば、取り込み完了です。
Mann-Whitney U 検定を行う
ではEZRでMann-Whitney U 検定を行ってみましょう。ノンパラメトリックは正規分布を前提にしないので、今回は正規性の確認は必要ありません。
「統計解析」→「ノンパラメトリック検定」→「2群間の比較(Mann-Whitney U検定)」を選択。
そして「比較する群」で「category」を選択してOKをクリック。
するとMann-Whitney U検定が実行され、箱ひげ図と結果が表示されます。
箱ひげ図の見方
ここで、結果の解釈の仕方も少し説明しておきますね。
ノンパラメトリック検定の結果を表す場合は棒グラフではなく箱ひげ図を用います。箱ひげ図は長方形とその上下に伸びるヒゲで表現されます。
まず、長方形の真ん中の太い線が中央値(メディアン)です。中央値は数値を大きさの順に並べた時の中央の値のことです。例えば5人のグループがあったとして、それぞれ年齢が10才、20才、30才、40才、50才であったとすると、中央値は30才になります。
※サンプル数が偶数の場合は中央を挟む2者の平均値が中央値。
箱ひげ図の長方形の下辺は第1四分位数(25パーセンタイル値)、上辺は第3四分位数(75パーセンタイル)です。
25パーセンタイル値とは「全サンプルの25%がその値以下である」ことを示し、75パーセンタイル値は「全サンプルの75%がその値以下である」ことを示しますね。
ヒゲの先端は最小値・最大値を用いたり、10・90パーセンタイル値を用いたりします(今回は最小値・最大値になっています)。
これでもう一度結果をみてみましょう。
A群は中央値が3、B群は中央値が4であり、P値は0.0256となっていますね。Mann-Whitney U 検定ではP<0.05で「有意差あり」と判断できます。
よって今回は「B群はA群よりも有意にMMTが高い」と言うことができます。B群の方の箱ひげ図は第3四分位点と中央値が重なっていて変な形になっていますが、これは特に問題ありません。
まとめ
以上、EZRでMann-Whitney U検定を行う方法を説明しました。
検定の実施自体は全く難しくありませんが、箱ひげ図は見慣れない方もおられたかもしれません。でも箱ひげ図は論文で見る機会も多いので、理解しておくと良いと思います。
ノンパラメトリック検定は
検定は値そのものではなく順位に基づいて行われますので、母集団の分布や外れ値の存在による影響を受けにくいという特徴があります。しかし、正規分布で等分散性が成立するような場合はMann-Whitney U 検定よりもt検定の方が有意差を検出する力は強いのでt検定を用います。
参考:フリー統計ソフトEZRで誰でも簡単統計解析
(p99)
とされていますので、正規分布の連続変数を比較する時にはロジック通りにt検定を用いた方が良いですね。
次回は「対応のある2群間の連続変数を比較する」統計解析でパラメトリック検定である対応のあるt検定を実施してみます。・・が、その前に統計解析の結果を解釈するために必要な「P値」についてを一旦整理しておきましょう。
▼其の12に続く▼

コメント