シロート統計学講座 其の10
シロート統計学講座では以下の4STEPで基本的な統計解析が理解できるよう進めています。現在はSTEP3「統計解析の実施方法」まできました。今回から無料統計ソフトEZRを使って実際に統計解析を実施してみます。
STEP1 統計解析の種類
STEP2 統計解析の選択方法
STEP3 統計解析の実施方法
STEP4 統計解析の結果解釈
▼EZRのダウンロードがまだの方は▼
統計解析の実施は、それぞれデモデータを用意して、実際にEZRを操作しながらデモ形式で行っていこうと思います。行う順番は、過去に紹介した統計解析を上から順にやっていこうと思います。
まずは最も基本的な検定であろうt検定ですね。私も最初に行った研究ではt検定を連発したのを覚えております‥。t検定は「独立した2群間の連続変数を比較する」パラメトリックな検定です。つまり2群間で平均値を比較する検定になります。
▼パラメトリックなどの用語確認は▼
デモデータ
デモを実施するに当たってExcelのデモデータを用意しています。デモデータをダウンロードして頂くと、実際にEZRを操作しながら学べます。
今回のデモデータはA群(30人)とB群(30人)で握力(kg)を調べた仮想データです。つまりA群とB群で握力の平均値を比較します。下図のような構図になりますね。
ちなみにEZRで「独立した2群間の連続変数の比較する」ときには、表の左側に見たい値(今回は握力=”grip”)、右側に群分け(今回はA群・B群 =”category”)でExcelを作っておく必要があります。
上の図の右側のような作り方は「対応のある2群間の連続変数の比較する」時に使用する形式ですので、注意が必要です。
では、実際にEZRを操作してみましょう。
EZRの起動
まずEZRを起動しましょう。ちなみに私はwindows 64bit版です。
初めに「R console」というウインドウが開き、しばらく待つと「R コマンダー」というウインドウが開きます。「R コマンダー」のウインドウがEZRの操作画面となります。
mac版をご使用の方はRコマンダーを開くのに少し手順があるようですのでこちら(公式サイト)を参考にしてくださいね。
Excelデータの取り込み
統計解析を行う為には、まずEZRにExcelデータを取り込む必要があります。Excelデータの取り込み方法はいくつかあるのですが、今回はシンプルで使い勝手の良い方法でやってみますね。
まず、デモ用のExcelデータを開いてください。
そして、表を囲んだ状態で右クリック→コピー(ctrl+Cでも可)。
そのままEZRのウインドウに移動し「ファイル」→「データのインポート」→「ファイルまたはクリップボード、URLからテキストデータを読み込む」をクリック。
データセット名は適当に決めてよいですが、今回は握力のデータですのでとりあえず「grip」としておきましょう。そして「クリップボード」と「タブ」を選択し「OK」をクリックします。
これでExcelデータをEZRに取り込むことができます。最初はやや複雑に感じるかもしれませんが毎回同じ手順なので、何度かやるとすぐに覚えると思います。
きちんとデータがEZRに取り込まれたかどうかを確認するため、データセット横に「grip」と記載されているか確認してください。また「表示」をクリックすると取り込まれたデータの内容が表示されますので、表示されたデータを眺めてみて正しく取り込まれているか確認します。
これでデータの取り込みは完了です。
データの要約
次に、統計解析を行う上では必須ではないですが、せっかくなのでEZRを少しイジイジしてみましょう。先ほど取り込んだのは生データですので、ざっと眺めただけではどんなデータなのか分かりにくいですよね。
そこでデータを要約してみます。
「統計解析」→「連続変数の解析」→「連続変数の要約」を選択します。
そしてA群とB群を区別するため「層別して要約」をクリックします。
層別変数(群分けしたい変数)はcategoryを選択し、OKをクリック。
層別変数を選択してOKをクリックすると「Rコマンダー」の下の画面に以下の表示が出ます。
これでA群とB群の平均値、標準偏差(SD、いわゆるバラツキ)、四分位範囲(これはまた詳しく説明します)、n数などがすぐに分かります。
これがデータの要約です。パッと見た感じ、B群の方が平均が高いですね。これを有意な差と言えるのかを調べるのがt検定、ということになります。
正規性の確認
t検定はパラメトリック検定ですので、2群がそれぞれ正規分布していることが前提となります。では正規分布しているかどうかを確認してみましょう。
▼正規分布についてよく分からない方は▼
正規性を調べるためには主に2つの方法があります。
②正規性の検定を行う
視覚的に分布を確認する
まず、正規分布を視覚的に確認する方法についてです。視覚的に分布を確認する方法としてはヒストグラムで確認する方法と、QQプロットで確認する方法の2通りがあります。
今回はヒストグラムの方で確認してみます。
「グラフと表」→「ヒストグラム」を選択します。
そして「群別する変数」をcategoryにしておきます。
そしてOKと押すと以下のようなヒストグラムが表示されます。
正規分布とは下図のような対称の鐘型でした。
少しいびつですがA群、B群ともなんとなく鐘型になってそうです。
視覚的に正規性を確認する場合、なんとなく鐘型になっていればOKです(ここは結構主観的ですが・・)
正規性の検定を行う
視覚的に正規分布が確認できれば基本的にはそれで正規分布と判断してOKですが、正規性を確認するための検定も行うことができます。
ただこの検定は感度が低い(正規分布に従わなくてもサンプルサイズが小さいと検出できない)ため必須ではないです。
「統計解析」→「連続変数の解析」→「正規性の検定」を選択します。ちなみに検定名を覚える必要は全くありませんので、スルーで良いです。
正規性を確認する場合は、A群とB群それぞれを調べる必要があります。何も指定しないと全サンプルを対象としてしまいますので、下のように
と入力し、A群だけを対象とするよう指定します。
これでOKをクリックすると検定が実行されます。
以下のヒストグラムと、検定結果(2つ)が表示されます。
色々と書かれていますが、注目するのは p-value(P値)です。この検定の場合P<0.05の場合に「正規分布ではない」と判断できます。
今回の結果はP≧0.05ですので、A群が正規分布であることは棄却されなかったということになります。
P<0.05であれば「正規分布ではない」ことが確実に言えますが、P≧0.05であっても必ずしも「正規分布している」とは限りません(検定の感度が低いため)。
ですので、ヒストグラムでの視覚的な分布と合わせて、総合的に判断する感じになります。A群は視覚的にみておおよそ鐘型に分布していて、正規性の検定でもP≧0.05なので正規分布と言ってよさそうです。
B群も同様に調べてみましょう。
B群も鐘型が少しいびつですが、P≧0.05にはなっていますので正規分布と言って良さそうです。
等分散性を確認する
※(追加)2018年4月29日
t検定を行う条件としては2群が
・等分散であること
が挙げられます。
分散とは「データが平均値からどの程度散らばっているかを表現する」ものです。t検定で比較するときは、データの散らばりが同じくらいでなければならない、ということですね。
そこで、等分散性の検定を行います。等分散性の検定はF検定と呼ばれます(名前は覚えなくていいと思いますが)。
「統計解析」→「連続変数の解析」→「2群の等分散性の検定(F検定)」
目的変数は「grip」、グループは「category」を選択。
するとF検定が実行され、結果が表示されます。
F検定はP<0.05の場合に等分散性が棄却されるので、今回は棄却されませんでした。つまり等分散性は否定されなかった、と解釈します。
ただ
等分散性の検定結果に基づいて検定方法を選択するという手法には異論もある
参考:フリー統計ソフトEZRで誰でも簡単統計解析(p95)
とのことですので、見解は統一されていないようです。
t検定を行う
これで無事にA群とB群の両方が正規分布に従い、等分散であることが分かりましたので、t検定を使用できます。t検定の実施はあっけないくらいに簡単です。
「統計解析」→「連続変数の解析」→「2群間の平均値の比較(t検定)」を選択します。
目的変数(何の値をみたいのか)は “grip“、比較する群を “category” にします。下の所は特に変更しなくて大丈夫です。
※2群が等分散でない場合は「等分散と考えますか?」で「いいえ(Welch検定)」を選択。
これでOKをクリックするとt検定が実行され、グラフと結果が表示されます。
A群は平均28.12kg、B群は平均35.07kg、そしてP値は0.00975となりました。t検定の場合、P<0.05の時に有意差ありと判断できます。つまり今回は「B群はA群と比較して有意に握力が強い」と結論づけることができました。
まとめ
少し長くなってしまいましたが、EZRでt検定を行う方法を説明しました。はじめてEZRを操作された方もおられたかと思いますが、いかがだったでしょうか?
今回は正規性の確認についてを丁寧に説明しましたが、
t検定などの検定は両群がいずれも正規分布を示し、かつ両群の分散が等しいという前提のもとに行われる検定法でありますが、サンプルサイズがある程度(目安として30以上)あればそのまま適用することができる
参考:フリー統計ソフトEZRで誰でも簡単統計解析(p71)
とされています。
つまり両群30以上のサンプルサイズがあれば、正規分布や分散を気にすることなく(目を通しておく必要はあると思いますが)t検定を利用することができます。
EZRの操作に関しては、初めは時間がかかるかもしれませんが、触っているうちに自然と覚えられると思います。何度も繰り返して使っていくことが大事です。EZRに慣れるために神田先生(EZR開発者)の書籍を読むのもおすすめです。当ブログの作成に当たってもよく参考にさせてもらっています。サンプルデータを使って分かりやすくEZRの操作が学べます。
さて、次回は「独立した2群間の連続変数を比較する」統計解析でノンパラメトリック検定であるMann-Whitney U 検定(マンホイットニーU検定)について説明します。
▼其の11に続く▼
《シロート統計学講座 in YouTube》
EZRでT検定を行う方法を動画にしてみました。ブログを読んだあと、実際にEZRを操作している所をこちらで見てみてください。
コメント