管理人のハル(@haru_reha)です。
今回はEZRでデータの要約を行う方法をご紹介します。
連続変数の要約
データの「要約」とは、どんなデータであるのか概要を知るということです。例えば↓のようなデータがあったとします。
生データを眺めているだけだと、どんなデータなのかイメージがつきにくいですよね。そこでデータの要約を行うことで、データの代表値(平均値や中央値)や比率を知ることができるわけです。
まず連続変数の要約をやってみます。EZRで要約を行うためには、データをEZRに取り込む必要があります(>>>EZRにデータをインポートする方法)
そして「統計解析」→「連続変数の解析」→「連続変数の要約」を選択します。
要約したい変数を選びます。今回のデータで連続変数となるのは「Age」だけですので、そのままでOK。
すると出力のウィンドウに以下のような要約が表示されます。
これで「Age」の平均や標準偏差(SD)、四分位範囲などが簡単に分かります。四分位範囲とは右側の「0%、25%、50%、75%、100%」と書いてある部位のことです。50%は中央値を表しており、データを順番に並べた時に真ん中にくる値が示されています。
※サンプル数が偶数の場合は中央を挟む2者の平均値が中央値
25%は「25パーセンタイル値」と呼ばれ「全サンプルの25%がその値以下である」ことを表し、75%は「75パーセンタイル値」と呼ばれ「全サンプルの75%がその値以下である」ことを表します。
また「層別して要約」を選択することで、群分けした状態で要約できます。
今回は「Group」で群分けされていますので、それを選択します。
すると以下のようにGroup AとBで群分けされた状態での要約が表示されます。これで各群の特徴や、大まかな比較を行うことができますね。
名義変数の要約
次に名義変数の要約を行ってみます。
「統計解析」→「名義変数の解析」→「頻度分布」を選択します。
データでは「Group」と「Sex」が名義変数になりますので、今回は「Sex」を選択してみましょう。また「パーセントも表示する」にチェックを入れます。
OKをクリックすると出力ウインドウに↓のような要約が表示されます。
これはF(female=女性)が6名、M(male=男性)が4名であることを表しますね。その下にはそれぞれのパーセントも表示されます。
Fが60%、Mが40%ですね。今回はFとMの2種類だけですが、何種類に分かれていても各頻度と比率(%)が一発で分かります。
まとめ
今回はEZRでデータの要約を行う方法を説明しました。データ解析を行う際、初めに行うのがデータの要約だと思います。生データをじっと眺めていてもなかなか全体像が掴めませんので、まずはデータを要約して、どんな特徴があるのかを把握することが大事と思います。
コメント
始めまして。いつも、本ブロクを楽しみに拝見している者です。
わかりやすい記事をUPありがとうございます。
質問をさせてください。
EZRで出力される標準偏差は、Normalな標準偏差でしょうか?それとの普遍標準偏差でしょうか?
ご存知でしたらご教示いただけますと幸いです。
また、それが、どのようにすれば区別できるのかも合わせてご教示いただけますと幸いです。
お時間がございましたら、お返事いただけますと幸いです。
鳥井さま
ご質問ありがとうございます。
EZRで出力される標準偏差は、不偏分散にルートをつけたものですね!