EZRでデータの要約を行う方法【連続変数・名義変数の要約】

EZRの基本操作

管理人のハル(@haru_reha)です。
今回はEZRでデータの要約を行う方法をご紹介します。

スポンサーリンク

連続変数の要約

データの「要約」とは、どんなデータであるのか概要を知るということです。例えば↓のようなデータがあったとします。

 

生データを眺めているだけだと、どんなデータなのかイメージがつきにくいですよね。そこでデータの要約を行うことで、データの代表値(平均値や中央値)や比率を知ることができるわけです。

 

まず連続変数の要約をやってみます。EZRで要約を行うためには、データをEZRに取り込む必要があります(>>>EZRにデータをインポートする方法

 

そして「統計解析」→「連続変数の解析」→「連続変数の要約」を選択します。

 

要約したい変数を選びます。今回のデータで連続変数となるのは「Age」だけですので、そのままでOK。

 

すると出力のウィンドウに以下のような要約が表示されます。

 

これで「Age」の平均や標準偏差(SD)、四分位範囲などが簡単に分かります。四分位範囲とは右側の「0%、25%、50%、75%、100%」と書いてある部位のことです。50%は中央値を表しており、データを順番に並べた時に真ん中にくる値が示されています。

 

※サンプル数が偶数の場合は中央を挟む2者の平均値が中央値

 

25%は「25パーセンタイル値」と呼ばれ「全サンプルの25%がその値以下である」ことを表し、75%は「75パーセンタイル値」と呼ばれ「全サンプルの75%がその値以下である」ことを表します。

合わせて読みたい

 

また「層別して要約」を選択することで、群分けした状態で要約できます。

 

今回は「Group」で群分けされていますので、それを選択します。

 

すると以下のようにGroup AとBで群分けされた状態での要約が表示されます。これで各群の特徴や、大まかな比較を行うことができますね。

名義変数の要約

次に名義変数の要約を行ってみます。

「統計解析」→「名義変数の解析」→「頻度分布」を選択します。

 

データでは「Group」と「Sex」が名義変数になりますので、今回は「Sex」を選択してみましょう。また「パーセントも表示する」にチェックを入れます。

 

OKをクリックすると出力ウインドウに↓のような要約が表示されます。

 

これはF(female=女性)が6名、M(male=男性)が4名であることを表しますね。その下にはそれぞれのパーセントも表示されます。

 

Fが60%、Mが40%ですね。今回はFとMの2種類だけですが、何種類に分かれていても各頻度と比率(%)が一発で分かります。

まとめ

今回はEZRでデータの要約を行う方法を説明しました。データ解析を行う際、初めに行うのがデータの要約だと思います。生データをじっと眺めていてもなかなか全体像が掴めませんので、まずはデータを要約して、どんな特徴があるのかを把握することが大事と思います。

コメント