EZRでKruskal-Wallis(クラスカル・ウォリス)検定を行う方法

シロート統計学講座

シロート統計学講座 其の18

其の17ではEZRで分散分析(ANOVA)を実施しました。

EZRで分散分析(ANOVA)を行う方法
シロート統計学講座「其の17」

 

今回は「独立した3群以上の間の連続変数を比較する」統計解析でノンパラメトリック検定であるKruskal-Wallis(クラスカル・ウォリス)検定を行います。独立した3群以上で、正規分布に従わない連続変数や、スコアリングした値(順序変数)を比較する場合に使用する検定です。

▼EZRのダウンロード▼

無料統計ソフトEZRのダウンロード
シロート統計学講座「其の9」
スポンサーリンク

デモデータ

今回もデモ用のExcelファイルを用意していますので、必要な方は↓からダウンロードしてEZRを実際に操作しながら読んでみてくださいね。

 

今回のデモデータはA群(30人)、B群(30人)、C群(30人)で体重(kg)を比較した仮想データとなっています。体重は連続変数なので、正規分布に従えばパラメトリック検定である分散分析(ANOVA)を使用しますが、今回のデモデータはバラツキが大きく正規分布に従わないデータとなっています。

 

それでは、始めますね。

データの取り込み

まずデータをEZRに取り込みます。今回もExcelデータを直接インポートする方法を行ってみましょう。

 

ファイル」→「データのインポート」→「Excelのデータをインポート

 

今回は体重のデータなので、データセット名は「BW」として「OK」を選択。

 

ダウンロートしたデモデータ(demo-kruskal-wallis-test)を選択して「開く」をクリック。

 

データセットが「BW」になっていることを確認し、表示を押してデータが正しく表示されれば取り込み完了です。

正規分布の確認

次に各群が正規分布に従うかどうかを確認します。

 

統計解析」→「連続変数の解析」→「正規性の検定(Kolmogorov-Smimov検定)

 

正規性は3群それぞれで確認する必要があるので、1群ずつ指定します。A群を指定する場合、下の欄に「category==”A”」と記入して「OK」。

 

するとヒストグラムと検定結果が表示されます。

 

ヒストグラムは鐘型ではなく二峰性となっていますし、2つの正規性の検定のうち、1つ(Shapiro-Wilk normality test)ではP<0.05であり正規性が棄却されました。つまりA群は正規分布ではないと判断できます。

 

B群、C群も同様に正規分布の確認を行ってみてください。両群とも正規性が棄却されると思います。

Kruskal-Wallis(クラスカル・ウォリス)検定を行う

今回は3群とも正規分布ではないとみなされるためノンパラメトリック検定を用いる必要がありそうです。そこで「独立した3群以上の間の連続変数を比較する」統計解析でノンパラメトリック検定であるKruskal-Wallis(クラスカル・ウォリス)検定を行います。

 

統計解析」→「ノンパラメトリック検定」→「3群以上の間の比較(Kruskal-Wallis検定)

 

目的変数(比較したい変数)は「BW」、グループ(群分け)は「category」を選択します。Kruskal-Wallis検定では分散分析と同様に、どこの群間に差があるのかを調べる際には多重比較というものを行う必要があります。

 

分散分析後の多重比較で言うTukey法に相当するのがSteel-Dwass法になりますので、とりあえずはそれを選択しておけばOKです。

 

するとKruskal-Wallis検定と多重比較が実施され、結果が表示されます。

 

箱ひげ図の解釈は以下の通りでしたね。

 

EZRのデフォルトでは一番上は90パーセンタイル値、一番下は10パーセンタイル値に設定されています(B群の一番上にある白〇は、90パーセンタイル値を超えた値を示しています)。

 

 

Kruskal-Wallis検定の結果はP<0.05なので「3群間のどこかに有意差がある」と分かります。3群間のどこに有意差があるかは、多重比較の結果をみます。

 

上から「A群とB群」「A群とC群」「B群とC群」のP値が示されています。「A群とB群」「A群とC群」がP<0.05となっていますので有意差ありです。つまり「A群はB群・C群と比較して有意に体重が重かった」と結論できますね。

まとめ

以上、EZRでKruskal-Wallis検定(クラスカル・ウォリス)検定を行う方法を説明しました。考え方は前回の分散分析とほぼ同様かな、と思います。

 

ノンパラメトリック検定は中央値での比較ですので、バラツキが大きくても影響を受けにくいという特徴があります。3群以上で群分けする研究では、比較的よく用いられる検定ではないでしょうか。

 

次回は「対応のある3群以上の連続変数を比較する」統計解析でパラメトリック検定である反復測定分散分析を実施します。

▼其の19に続く▼

EZRで反復測定分散分析(repeated-measures-ANOVA)を行う方法①
シロート統計学講座「其の19」

>>>シロート統計学講座のTOPへ戻る

コメント