t検定の理論を分かりやすく解説!【第3回】
今回は区間推定を理解するために必要な用語について整理します。似たような用語が出てくるので少し混乱するかもしれませんが、これらの用語を明確に区別した方が今後の理解がしやすくなります。
母集団と標本(サンプル)
まずは「母集団」と「標本(サンプル)」についてです。
何かを調査したい時、「本当に調べたい対象全体」のことを母集団といいます。そして「母集団から一部を抽出した小さな集団」のことを標本(またはサンプル)と呼びます。
ほとんどの場合、母集団を全員調査することは労力・費用などの面から現実的ではありません。その場合、標本を調査することで母集団を推測します。
例えば「変形性膝関節症の方の歩行速度を調べたい」とき、母集団は「日本中(または世界中)の変形性膝関節症の症例」となります。
しかし日本中の症例を調べるのは現実的に困難です。そこで「当院における変形性膝関節症の症例」のように標本を抽出します。
標本から母集団を推測するのが推測統計と呼ばれる手法でした。区間推定は推測統計の一部ということになりますね。
母平均・母分散・母標準偏差
次に、母集団に関する値について確認していきましょう。
母集団の平均、分散、標準偏差をそれぞれ「母平均」、「母分散」、「母標準偏差」といいます。
また母平均はµ(ミュー)、母分散はσ²(シグマの2乗)、母標準偏差をσ(シグマ)と表されることが多いです。このような、母集団に関する値はパラメーターと呼ばれることもあります。
母集団というのは基本的には実際に調査することはできないことが多いです。
ですが、もし調査することができるのであれば母平均、母分散、母標準偏差は実在する値であり、母集団が変化しなければ定数となります(神のみぞ知る値というような感じですね)。
このように、母集団というのは確かに存在はするのですが、実際に計算することは難しいので非常に抽象的な存在と言えます。
標本平均・標本分散・標本標準偏差
一方、母集団から抽出した標本からは具体的な数値を計算することができます。
標本の平均値、分散、標準偏差はそれぞれ「標本平均」、「標本分散」、「標本標準偏差」と呼ばれます。
標本平均は xバー、標本分散は s²(sample varianceの頭文字)、標本標準偏差は s と書かれることがあります。
これらは先ほどの母平均µ、母分散σ²、母標準偏差σ とは別の値として捉える必要があります。
標本平均は、単純に標本から求めた平均値(すべてのデータを足して、nで割った値)のことですが、標本分散・標本標準偏差については注意点があります。
分散というのは基本的に「偏差の平方和をnで割った値」なのですが、標本分散の場合は n ではなく (n-1) で割った不偏分散が使われることが多いです。
そして標本標準偏差とは、標本分散(つまり不偏分散)にルートをつけた値ということになります。
偏差の平方和をnで割る場合、nが小さいと分散を過小評価してしまう可能性があるためです(本来の値よりも小さい値となる)。
まとめ
今回は区間推定を理解するために必要となる用語を整理しました。
ポイントをまとめると以下のようになります。
① 母集団の平均・分散・標準偏差
⇒ 母平均(µ)、母分散(σ²)、母標準偏差(σ)
② 標本の平均・分散・標準偏差
⇒ 標本平均(xバー)、標本分散(s²)、標本標準偏差(s)
③ 標本分散には偏差の平方和を(n-1)で割る不偏分散が使用される
推測統計では、標本から具体的に計算できる値を使って母集団を推測していくわけですね。
次回は標本から母集団を推測するために必要な「中心極限定理」と「標準化」という2つについて説明します。ここを理解すれば、いよいよ区間推定を行えるようになります!
⇒第4回:中心極限定理と標準化
コメント