こんにちは。管理人のハル(@haru_reha)です。
今回は「ヒストグラム」について説明します。
以前はさほど重要性を感じていませんでしたが、実はめちゃくちゃ重要なところでした。
ヒストグラムとは?
ヒストグラムとは⇩のようなグラフです。一度は見たことがあるのではないでしょうか。
ちなみに横軸の数値は「階級」、縦軸は「度数」と呼ばれていて、この例だと身長が140~150㎝の間に1人、150~160㎝の間に5人・・・というように、階級ごとに何人いるかが分かるようになっています。
生データのみでは何も分からない
研究で集めたそのままのデータを「生データ」と呼びますが、生データは数字が羅列してあるだけなので、じーっと眺めていてもそこから得られる情報は少ないです。
データから何かしらの傾向を掴むためには「データの縮約」という作業を踏む必要があります。
データの縮約というのは「羅列された数字を、何かしらの基準で整理整頓して、意味のある情報を抽出する」という意味合いです。
その方法として以下の2つがあります。
そして①に該当するものとして「ヒストグラム」、②に該当するものとして「平均値」などがあります。数字の羅列であった生データは、ヒストグラムや平均値などをみることによってその特徴がみつけやすくなります。
30人の握力を測定した場合
例として、30人の握力を測定した場合を考えてみましょう。
以下のようなデータが集まったと仮想します。
30人の握力を測定すると、当然ながらみんなバラバラの値をとります。これは何らかの「不確実性」が働くからです。
しかし、この表だけを眺めてもデータの特徴を掴むことは難しいですよね。n=30くらいならまだ頑張れば多少の傾向を掴めるかもしれませんが、これが数百、数千のデータとなると手が付けられません。
そこで「ヒストグラム」を作成してみましょう!今回は、無料統計ソフトEZRを使用してヒストグラムを作成してみます。
EZRにExcelデータをインポートしてから「グラフと表」⇒「ヒストグラム」を選択します。
そして「変数」を選択(今回は「握力(kg)」)して「OK」をクリック。
すると、ヒストグラムが表示されます。
ヒストグラムから何が分かるのか
ヒストグラムを見ることで、次のようなデータの特徴が分かります。
このように、ヒストグラムをみることによって①最小値と最大値、②最も頻度の高い値、③データの分布などが分かるようになります。
これらの特徴は生データを見ただけでは分かりにくい所でしたが、ヒストグラムによって情報を視覚化することで見えてきました。
一方で、ヒストグラムによって削られてしまった情報もあります。ヒストグラムではデータが10~20kg、20~30g・・のように階級によって表されています。生データでは17kg、21kg・・のように細かく情報が書かれていましたが、その部分は見えなくなってしまいました。
つまり、情報を削って要点を見えやすくした、とも捉えられます。
ヒストグラムを作成するもう一つの利点として「外れ値を見つけることができる」というのもあります。例えばデータの入力ミスによって握力が「300kg」になってしまっている場合でも、ヒストグラムを見ると明らかに外れた値をすぐに見つけることができるので、入力ミスに気が付きます。
まとめ
以上、ヒストグラムについてまとめました。
データを集め終わるとすぐに検定を行いたくなりますが、まずはデータの特徴を把握しておくことが大事だと思います!
⇩の書籍は、今回の記事を書くのにも参考にさせて頂きました。統計学の初心者でも分かりやすく読める良書だと思いますので、ご紹介しておきます。
では、また。。
コメント