連続変数を比較する統計解析の選択方法

シロート統計学講座

シロート統計学講座 其の7

「其の6」までで統計解析の種類と最低限覚えておくべき用語を説明しました。今回からSTEP2「統計解析の選択方法」に進みます。

理解までの4STEP

STEP1 統計解析の種類
STEP2 統計解析の選択方法
STEP3 統計解析の実施方法
STEP4 統計解析の結果解釈

▼其の6がまだの方はこちら▼

統計学で理解すべき用語②
シロート統計学講座「其の6」

 

ここからは難しそうな検定名が出てきますが、名称を覚える必要はないですよ。焦らず、記号のような感覚でとらえてもらえば良いです。とにかくSTEP1で学んだように、どんな種類の統計解析なのかというイメージをもつことが大事です。名称はその都度見て確認すれば良いだけですので。

スポンサーリンク

どんな検定があるのか

では、さっそくどんな検定があるのか下の図で見てみましょう。一番左の欄に書いてあるのが統計解析の種類で、右側の欄に書いてあるのが検定名です。

これをみると、各統計解析には1~2種類の検定が準備されていることが分かります。例えば①独立した2群間の連続変数を比較する統計解析には「t検定」と「Mann-Whitney U 検定」の2種類がありますよね。

 

これをどう使い分けるのか、というのがSTEP2のテーマになります。今回はまず連続変数を比較する統計解析の選択方法について説明します。

連続変数を比較する統計解析には全て2種類の検定が準備されています。これはパラメトリック検定ノンパラメトリック検定の2種類になります。また出ましたね、聞き慣れない統計学用語。でもここは避けては通れない所なので、さくっと理解してしまいましょう。

パラメトリックとノンパラメトリック

定義

最初に定義を言っておくと、

パラメトリック検定:正規分布を前提にする統計解析
ノンパラメトリック検定:正規分布を前提にしない統計解析

・・と、いうことはパラメトリックとノンパラメトリックを理解するためには「正規分布」というものに触れておく必要がありますね。

正規分布とは

データの分布が上の図のような対称型の鐘型の分布を示す場合を正規分布と言います。教科書をみると「平均値と分散で規定され、なんたらかんたら・・」と書いてありますが、小難しい話はナシにしましょう。

 

つまりはデータの分布を眺めたときに、平均値を真ん中にして左右対称の鐘型の分布になる場合、つまりある程度のサンプル数があり(30以上くらい)、ばらつきが少ない場合ですね。これが正規分布です。

 

正規分布のときに使用するのがパラメトリック検定となります。一方、正規分布をとらない場合、つまりサンプル数が少ないとき(30以下くらい)や、ばらつきが大きいときに使用するのがノンパラメトリック検定です。

 

あと、MMTの0~5の値のように、検査でスコアリングした値(順序変数を比較するときにはノンパラメトリック検定を使用します。

 

正規分布かどうかの判断はEZRで行えますが、それはまた実践の時に紹介します。

検定を選択する際の思考回路

では、実際に検定を選択する際にはどのようにすればよいでしょうか。例を挙げて思考回路を説明します。

例1

A群(30人)とB群(30人)で身長の平均値を比較する場合

この場合、まず第一にA群とB群が独立した2群なのか、対応のある2群なのかを見極める必要があります。A群とB群は全員別々の人物なので、A群とB群は独立した2群ということが分かりますよね。

 

次にデータの尺度をチェックしましょう。今回は身長の平均値を比較しています。身長は〇〇cmなど、数値で定量的に表されるデータなので連続変数ですね。

 

独立した2群連続変数を比較するものを選べばよいわけですね。

つまり、使用する統計解析は

 

そして、A群とB群のデータが正規分布かそうでないかでパラメトリック検定かノンパラメトリック検定かを選択します。もし、正規分布をとっていればパラメトリック検定を選択することになります。

つまり、使用する検定はt検定

 

このように、連続変数を比較する検定を選択するときの思考回路としては

a. 統計解析の種類

b. パラメトリックかノンパラメトリックか

c. 検定名

という順序で考えていくと良いです。

 

検定名はその都度みて確認すればいいので、覚える必要はありません!それよりもa~bの過程が大事になりますね。

 

▼「独立した」「対応のある」「連続変数」などの用語の意味▼

統計学で理解すべき用語①
シロート統計学講座「其の4」

例2

もう一つ例を出してみましょうか。

20人に対して2月・6月・10月に膝関節伸展のMMTを測定し、その経時的変化を比較する場合

 

これはどうでしょうか?

 

まず独立した群か、対応のある群かをみる必要がありますね。今回は同一の20名に対して2月・6月・10月と3回測定を行っているので対応のある3群になります。

 

次にデータの尺度はどうでしょうか?アウトカムは理学療法士には馴染みのあるMMTと呼ばれる筋力の指標です。MMTは筋力を0~5でスコアリングした値ですので順序変数です。

 

対応のある3群で連続変数を比較する統計解析ですね。そして順序変数を比較する場合はパラメトリック検定を選択します。

つまり、使用する検定はFriedman検定

まとめ

何度も言いますが検定名は覚える必要はないです。さすがに何回も繰り返し見ていると勝手に覚えてきますが、私も全部は覚えてはいません。検定名を覚えていないからといって、統計解析の実施に困ることはありませんよ。

 

とにかく、どんな種類の統計解析なのかということと、パラメトリック・ノンパラメトリックの区別を理解しておくと良いと思います。

 

今回はここまでです。次回で残りの検定について説明してSTEP2は修了です。残りの検定はあまり迷うことはないと思いますので、簡単に紹介していきます。

▼其の8に続く▼

比率の比較と多変量解析の検定名
シロート統計学講座「其の8」

>>>シロート統計学講座のTOPへ戻る

コメント