どうも、管理人のハル(@haru_reha)です。
今回は無料統計ソフトEZRで基本統計量を確認する方法をまとめておきます。
データ解析を行う際は、いきなり検定を行うのではなく、まずは基本統計量をじっくり眺めることが大切となります。
私の動作環境はOS:windows10、EZR:version1.38です。
▼EZRのインストール▼
基本統計量とは?
まず、基本統計量とは何か?というお話です。
基本統計量とは「分布の基本的な特徴を数値で表した指標」のことです。
基本統計量には「代表値」と「散布度」の2つがあり、代表値は平均値や中央値など分布の中心を表す指標です。散布度は分散・標準偏差のように分布のばらつきを表す指標になります。
研究で集めたデータを解析する際は、まずデータの特徴をつかむために基本統計量の確認を行う必要があります。また、基本統計量を確認するにあたってはヒストグラムのチェックも必須となります。
「データ解析」というとすぐにT検定などの検定の実施に目が向いてしまうかもしれませんが、最初に基本統計量やヒストグラムを確認しておかなければ、検定の妥当性も判断しにくくなります。
これらはEZRを使って簡単に確認できるので、デモデータを用いて実践してみましょう。確認の方法は何通りかあるので、とりあえず色々とやってみてください。
デモデータ
使用するデモデータは↓からダウンロードしてください。
続いてデモデータをEZRにインポートしてください。インポートの方法は↓記事にまとめていますので、ご参照ください。
EZRでヒストグラムを確認する方法
デモデータをEZRにインポートしたら、まずはヒストグラムを確認してみます。
ヒストグラムはデータが揃ったら最初に確認すべきものです。
ヒストグラムを見ることでデータの分布を視覚的に確認することができます。
まず「グラフと表」➡「ヒストグラム」を選択します。
そして確認したい変数を選択します。今回は「Age」という変数を確認します(変数の欄に表示されるのは連続変数の変数のみです)。まずは他の部分は特に指定せず「OK」をクリックしてみましょう。
するとヒストグラムが表示されます。x軸は年齢の階級、y軸は度数(n数)が表されています。↓の場合だと40~50才の人が2人、50~60才の人が4人・・・という具合です。パッと見で60~70才の人が最も多いということがわかりますね。
ヒストグラムによってデータ全体の分布を知ることができます。正規分布になっているか、偏りがないか、どの階級に最も症例数が多いか、などを目視確認できます。
分布を確認することで、データの代表値に何を用いるべきかも考えることができます。例えば正規分布に近ければ山の頂点付近が平均値となるため、代表値は平均値で表すことができます。一方、分布が偏っている場合は平均値は代表値として不適なので中央値がbetterとなります。
また、ヒストグラムによって明らかな外れ値(または入力ミス)も検知することができます。例えば↓のようなヒストグラムとなった場合、一番右側の1人は200才近くになっています。さすがに200才の人は存在しないでしょうから、単純な入力ミスと考えられます。
明らかに入力ミスと思われる場合は、データを見直して、正しい値に修正する必要があります。
ヒストグラムを群別で確認する方法
先ほどは全データを一緒にしてヒストグラムを確認しました。しかし研究においては、群分けをして各群の分布を別々に確認したい場合もあるかと思いますので、その方法を書いておきます。
群を指定する場合
まず、群を指定して特定の群のヒストグラムを表示させる方法です。
デモデータではCategoryという変数(A群 or B群)が作ってあるので、A群のみのヒストグラムを表示させたい場合を考えてみます。
先ほどと同様に「グラフと表」➡「ヒストグラム」を選択します。
変数は「Age」を選択します。そして下の方にある欄の中に「変数名==”指定したい群”」を入力します。今回はCategoryという変数名の中のA群を指定したいので「Category==”A”」となります。
そしてOKをクリックすると、A群のみを対象としたヒストグラムが表示されます。
群を比較する場合
また、同じヒストグラム内で群別して表示することもできます。
「群別する変数」に「Category」を指定して、OKをクリックします。
するとA群とB群両者のヒストグラムが表示されます。
EZRで平均値・中央値を確認する方法
ヒストグラムでデータの分布を確認したら、次は平均値や中央値を確認してみましょう。
最も簡単な方法は連続変数を要約することです。
連続変数を要約する
「統計解析」➡「連続変数の解析」➡「連続変数の要約」を選択します。
変数は「Age」を選択し、下の部分は初めから平均・標準偏差・分位点にチェックがついていますので、そのままでOKです。
OKをクリックすると出力欄に↓の結果が表示されます。
これで平均、標準偏差、最小値(0%)、四分位点(25%, 50%, 75%)、最大値(100%)が一目でわかります。
標準偏差は分布のばらつきを表す指標となります。詳しく知りたい方は↓記事にまとめていますのでご参照ください。
四分位点は50%の値が中央値となります。これはデータを一列に並べたときに真ん中にくる値にです。25%の値は25パーセンタイル値と呼ばれ、データを並べたときに全体の25%の位置にくる値となります(この値より下に全体の25%の症例数が存在しますよ、という意味)。同様に75%の値は75パーセンタイル値で、データを並べたときに75%の位置にくる値となり、この値より下に全体の75%の症例数が存在するという意味になります。
連続変数を群別で要約する
要約に関しても、群別で平均値などを知りたい場合もあるかと思います。
その際は↓の「層別して要約」をクリックします。
そして層別変数に群分けしたい変数を選択すればよいので「Category」を選択してOKを押します。
そしてOKをクリックすると出力欄に群分けした状態での要約が表示されます。
これでA群・B群それぞれの基本統計量をチェックすることができます。
EZRで頻度・比率を確認する方法
続いて名義変数(カテゴリー変数)の頻度・比率を確認する方法です。
デモデータでいうと男女の人数や割合を確認したい時に使用します。
頻度分布で確認する
まず頻度分布で確認する方法です。
「統計解析」➡「名義変数の解析」➡「頻度分布」を選択します。
頻度を確認したい変数を選択します。今回は性別を知りたいので「Sex」を選びます。
「OK」をクリックすると↓の結果が表示されます。上段は頻度(n数)、下段は比率(%)が表示されています。
これでデータ全体の男女の頻度と比率を知ることができます。
分割表で確認する(群別で頻度・比率を確認する)
群別で頻度や比率を確認したいときは分割表で確認します。
「統計解析」➡「名義変数の解析」➡「分割表の作成と群間の比率の比較」を選択します。
行に「Sex」、列に「Category」を選択します。その下のパーセントの計算は比率を知りたい所にチェックを入れます。それ以降はとりあえずそのままでOKです。
OKを押すと出力欄に色々と結果が表示されますが、知りたいのは「> .Table」と「> colPercents(.Table)」と書いてあるところです。
> .TableにはA群・B群における男女の人数が示されています。
> colPercents(.Table)にはA群・B群における男女の比率(%)が示されています。
これで各群における男女の人数・比率を知ることが可能です。
EZRでサマリー表を確認する
さて、今までは平均値・中央値・頻度・比率を個別で表示する方法を書きましたが、EZRにはそれらをまとめて表示するサマリー表を作成する機能もあります。サマリー表はデータの全体像を把握するのにとても便利です。
「グラフと表」➡「サンプルの背景データのサマリー表の出力」を選択します。
群別する変数を「Category」にすることでA群・B群に分けて結果を表示できます。カテゴリー変数には「頻度・比率」を表示させたいものを選ぶので、今回は「Sex」を選びます。連続変数(正規分布)は「平均値(標準偏差)」を表示させたいものを選びます。今回は「Age」ですね。ちなみに連測変数(非正規分布)は「中央値()」が表示されます。下の選択項目で()内に「最小値と最大値」または「四分位数範囲」のどちらを表示させるか選択できます。
OKをクリックすると↓のようなサマリー表が表示されます。
サマリー表を見ることで各群のn数・平均値・標準偏差・頻度・比率などを一目で確認できます(必要に応じて中央値、最小値、最大値、四分位範囲も可)。先ほどの選択項目のなかに「出力先」の指定があるので、クリップボードを指定すればそのまま文書内に張り付けもできます。
まとめ
以上、EZRで基本統計量を確認する方法について書きました。
繰り返しになりますが、データ解析時にはヒストグラムでの分布確認、基本統計量のチェックが必須となります。これらをチェックせずにP値などだけで結果を判断すると、誤った判断をしてしまうこともありますので注意が必要です。
では、また。。
コメント