記述統計と推測統計

研究雑学

お久しぶりです。管理人のハル(@haru_reha)です。

本日は「記述統計と推測統計」について書いてみます。

なるべくイメージがつきやすいよう例をあげて考えてみましょう。

スポンサーリンク

データを集めたら何をするか

例として、私たちが研究を始めて、学会で発表する時のことを考えてみましょう。

頑張ってデータを集め終えたら、まずは何をするでしょうか?

多くの方は、

①データにどんな特徴があるかを観察する
②T検定などの検定を行う

という手順を踏むのではないでしょうか。

①はヒストグラムを見たり、平均値や中央値を出してみたり、バラつきをみるために分散や標準偏差を計算する、などのことです。②は2群間で平均値を比較(T検定など)したり、比率を比較(カイ二乗検定など)する、などのことですね。

実は①と②は、やっていること(見ていること)が少し異なります。

記述統計とは

まず「①データにどんな特徴があるかを観察する」についてです。

これは先ほど挙げたように、例えばヒストグラムを見て分布を確認したり、平均値や中央値などの代表値を確認したり、標準偏差などでバラつきを確認したりすることでした。

これらの作業はいずれも「実際に得られたデータからその特徴を抜き出すための手段」であり、これを「記述統計」と呼びます。

つまり、得られたデータから「平均値は○○でした」「中央値は○○でした」「標準偏差は○○でした」「□□の割合は○○%でした」などをまとめる作業は、記述統計に該当するわけですね。

国が行っている人口動態の調査(国民の出生率、死亡率などを調べたもの)などがこれに当たりますね!

推測統計とは

一方で「②T検定などの検定を行う」については、どんなことをやっている(見ている)のでしょうか。

これは先ほどの①のような「得られたデータの特徴を見る作業」とはやや意味合いが異なります。つまり、得られたデータだけを見ているのではない、ということです。

…どういうことかと言うと、T検定などでは「得られたデータから母集団(母平均)を推測している」ということです。

母集団というのは「研究の対象となるすべての人」と捉えるとよいと思います。例えば「肺がんで手術を受けた患者」を対象にした研究であれば、母集団は「日本(または全世界)において肺がんで手術を受けた患者全員」となります。

しかし、現実的にそのすべての患者を調査することは不可能ですので、母集団の中から対象を絞って調査を行うわけです。例えば「当院の呼吸器外科で肺がんの手術を受けた患者」などですよね。これによって集められたデータを標本とよびます。

T検定などを行うことで、限られた標本から「母集団(母平均)を推定」することができます。つまり、実際には標本のデータ(標本平均)しか収集していませんが、見ようとしているのは「母集団(母平均)」であるということです。

このように「部分から全体を推測」しようとすることを「推測統計」と呼びます。

選挙の出口調査がこれに当たりますね。選挙の時、開票がすべて終わる前に速報で「当選確実」が報じられますよね。あれは選挙会場の出口で一部の人(標本)を調査し、それで全体(母集団)を推測しているわけですね。

まとめ

まとめると

記述統計=実際に得られたデータからその特徴を抜き出す手段
推測統計=標本(部分)から母集団(全体)を推測する手段

となります。

今回、例として挙げた2つは

①データにどんな特徴があるかを観察する
②T検定などの検定を行う

でしたが、これは

①記述統計
②推測統計

であり、やっている(見ている)ことは異なる、というお話でした。

⇩の書籍は、今回の記事を書くのにも参考にさせて頂きました。統計学の初心者でも分かりやすく読める良書だと思いますので、ご紹介しておきます。

created by Rinker
¥1,980 (2020/08/13 17:55:39時点 Amazon調べ-詳細)

また、今回の記事に出てきた「母集団と標本」については別記事でも詳しくまとめているので、興味のある方はどうぞ。

では、また。

コメント

タイトルとURLをコピーしました