お久しぶりです。管理人のハル(@haru_reha)です。
本日は「記述統計と推測統計」について書いてみます。
なるべくイメージがつきやすいよう例をあげて考えてみましょう。
データを集めたら何をするか
例として、私たちが研究を始めて、学会で発表する時のことを考えてみましょう。
頑張ってデータを集め終えたら、まずは何をするでしょうか?
多くの方は、
②T検定などの検定を行う
という手順を踏むのではないでしょうか。
①はヒストグラムを見たり、平均値や中央値を出してみたり、バラつきをみるために分散や標準偏差を計算する、などのことです。②は2群間で平均値を比較(T検定など)したり、比率を比較(カイ二乗検定など)する、などのことですね。
実は①と②は、やっていること(見ていること)が少し異なります。
記述統計とは
まず「①データにどんな特徴があるかを観察する」についてです。
これは先ほど挙げたように、例えばヒストグラムを見て分布を確認したり、平均値や中央値などの代表値を確認したり、標準偏差などでバラつきを確認したりすることでした。
これらの作業はいずれも「実際に得られたデータからその特徴を抜き出すための手段」であり、これを「記述統計」と呼びます。
つまり、得られたデータから「平均値は○○でした」「中央値は○○でした」「標準偏差は○○でした」「□□の割合は○○%でした」などをまとめる作業は、記述統計に該当するわけですね。
国が行っている人口動態の調査(国民の出生率、死亡率などを調べたもの)などがこれに当たりますね!
推測統計とは
一方で「②T検定などの検定を行う」については、どんなことをやっている(見ている)のでしょうか。
これは先ほどの①のような「得られたデータの特徴を見る作業」とはやや意味合いが異なります。つまり、得られたデータだけを見ているのではない、ということです。
…どういうことかと言うと、T検定などでは「得られたデータから母集団(母平均)を推測している」ということです。
母集団というのは「研究の対象となるすべての人」と捉えるとよいと思います。例えば「肺がんで手術を受けた患者」を対象にした研究であれば、母集団は「日本(または全世界)において肺がんで手術を受けた患者全員」となります。
しかし、現実的にそのすべての患者を調査することは不可能ですので、母集団の中から対象を絞って調査を行うわけです。例えば「当院の呼吸器外科で肺がんの手術を受けた患者」などですよね。これによって集められたデータを標本とよびます。
T検定などを行うことで、限られた標本から「母集団(母平均)を推定」することができます。つまり、実際には標本のデータ(標本平均)しか収集していませんが、見ようとしているのは「母集団(母平均)」であるということです。
このように「部分から全体を推測」しようとすることを「推測統計」と呼びます。
選挙の出口調査がこれに当たりますね。選挙の時、開票がすべて終わる前に速報で「当選確実」が報じられますよね。あれは選挙会場の出口で一部の人(標本)を調査し、それで全体(母集団)を推測しているわけですね。
まとめ
まとめると
推測統計=標本(部分)から母集団(全体)を推測する手段
となります。
今回、例として挙げた2つは
②T検定などの検定を行う
でしたが、これは
②推測統計
であり、やっている(見ている)ことは異なる、というお話でした。
⇩の書籍は、今回の記事を書くのにも参考にさせて頂きました。統計学の初心者でも分かりやすく読める良書だと思いますので、ご紹介しておきます。
また、今回の記事に出てきた「母集団と標本」については別記事でも詳しくまとめているので、興味のある方はどうぞ。
では、また。
コメント