度数分布表と平均値

研究雑学

こんにちは。管理人のハル(@haru_reha)です。

前回はヒストグラムについてのお話でしたが、今回はヒストグラムの元となる「度数分布表」と、そこから平均値のお話を少々…

内容としては簡単ですが、意外と奥が深いなぁと感じたので記事にまとめてみました!

スポンサーリンク

度数分布表とは

まず、度数分布表というのは下のような表のことです。

このように「階級」「階級値」「度数」「相対度数」「累積度数」が記載されています。

前回出てきたヒストグラムは度数分布表を元に作るので、ヒストグラムを自分で描く時には、まずは度数分布表を作る必要があります。

度数分布表は、表をそのまま覚えるよりも、表を作る過程を見た方が理解しやすいかと思います。

患者30人の在院日数を調べるには…

では、さきほどの度数分布表を作ってみましょう。

とある病院で、患者30人の在院日数を調べることになったとします。

そして、下のような結果となりました。

ですが、この数値の羅列だけを見ても、データの特徴はなかなか分かりません。

そこで「データの縮約」という作業が必要でした。

データの縮約には①グラフ化してみる、②1つの数字で代表させる、という2つがあります。①はヒストグラムのことなのですが、ヒストグラムを作るためにはまずは度数分布表を作る必要があります。

度数分布表の作り方

度数分布表は以下のような6つの手順で作ります。

①データの中から最大値と最小値を見つける

②おおおそ範囲が最大値から最小値になるような区切りのいい範囲を作り、その範囲を5~8程度の小範囲に区切る(これを階級と呼ぶ)

③各階級を代表する数値を決める。一般には真ん中の値を選ぶことが多い(これを階級値と呼ぶ)

④各階級に入るデータ数をカウントする(これを度数と呼ぶ)

⑤各階級の度数の、全体の中に占める割合を計算する(これを相対度数と呼ぶ。相対度数の和は1になる。

⑥その階級までの度数を合計したものを計算する(これを累積度数と呼ぶ。累積度数の最後は、全データ数と一致する)

(参考)完全独習統計学入門(ダイヤモンド社)p18

データの最大値と最小値を見つける

まずデータから最大値と最小値を見つけます。

データをみると、最大値は35、最小値は3と分かります。

これは特に難しいこともなく、データを全体的に眺めるだけです。

5~8程度の小範囲に区切る(階級)

次に、先ほどの最大値・最小値が含まれる範囲を5~8区切りで小範囲に分けていきます。最大値が35、最小値が3でしたので、5ずつの小範囲に区切っていくことにします。

この小範囲のことを階級と呼びます。

各階級を代表する数値を決める(階級値)

各階級を代表する数値を階級値と呼びます。

階級値は基本的にはその階級の真ん中の値とします。

例えば1~5の階級であれば、1,2,3,4,5の真ん中の値は「3」ですね。

このようにして、各階級で階級値を決めていきます。

各階級に入るデータ数をカウントする(度数)

次に各階級に入るデータをカウントしていきます。

カウントの仕方はアナログですと、地道に「正」の字を書いていく感じになります。

各階級に入るデータ数のことを度数と呼びます。

各階級の度数が全体の中に占める割合を計算する(相対度数)

次は、相対度数といって、各階級の度数が全体の中でどれくらいの割合なのかを計算します。

例えば1~5の階級であれば、度数は1ですよね。全体の症例数は30人でしたので、この割合は 1÷30=0.033 となります。

こんな感じで各階級の相対度数を計算していきます。ちなみに、全ての階級の相対度数を足していくと1になります(全ての割合を足しているので当然ですよね)。

0.033+0.133+0.2+0.267+0.2+0.1+0.067=1

その階級までの度数を合計する(累積度数)

最後に、その階級までの度数を合計していきます。

これを累積度数と呼びます。

累積度数は最終的には全体の症例数と一致するはずです。

この6つのステップで度数分布表を作成することができます。

ちなみにヒストグラムを作成するには、横軸を階級縦軸を度数にした棒グラフを作成すれば良いということになりますね。

度数分布表から平均値を計算する方法

度数分布表から平均値を計算する方法についてもご紹介しておきます。

「平均値」というと「全てのデータを足して、それをデータ数で割る」のが普通に思いつく方法ですよね。

しかし、平均値の求め方はこの方法だけではありません。

度数分布表には「階級値」と「相対度数」という項目がありました。

実は各階級で「階級値」×「相対度数」を計算し、それを合計すると平均値になります(実際には近似値)。

今回の例で言うと

(3×0.033)+(8×0.133)+(13×0.2)+(18×0.267)+(23×0.2)+(28×0.1)+(33×0.067)=18.18

となります。

普通に平均値を計算した場合(全てのデータを足してそれを30で割った値)は18.13ですので、ほぼ一致します。

なぜ、この計算で平均値の近似値が出せるのかは今回は省略します(またいつか記事にしますね…)が、度数分布表から平均値が計算できることは知っておくと便利かと思います!

まとめ

今回は、度数分布表と平均値についてを書きました。

順を追って理解していけばそれほど難しくはないですが、いざ自分でやってみようと思うと意外と苦戦することもある感じです。

特に階級値×相対度数の和で平均値が計算できることは、初めはなかなかイメージがつきにくいかもしれません。

最近は、下の書籍に嵌っていまして、記事を作成する際によく参考にしています。めちゃくちゃ分かりやすいので助かっています。

created by Rinker
¥1,980 (2020/10/20 04:44:27時点 Amazon調べ-詳細)

EZRの使い方だけでなく、統計学の基本的な部分を勉強することがとても面白いです。今後も、自分の勉強も兼ねてブログを書いていこうと思いますので、よろしくお願いします。

では、また~

コメント

タイトルとURLをコピーしました