t検定の理論を分かりやすく解説!【第1回】
このシリーズでは、統計解析でよく使用する「t検定」に注目し、その理論を分かりやすく説明していきます。
解析でよく使用するt検定ですが、実際のところ「どんな解析方法なのか詳しく知らない!」という方もおられるのではないでしょうか。かく言う私も、最近までよく知りませんでした。しかし、統計検定2級の勉強を通じて、その理論を少しだけ理解することができました。
勉強してみて、とても面白い分野だと感じました。普段は「ツール」として使用するt検定ですが、「裏でどんな計算が行われているのか?」、「t値とは何か?」、「P値はどのように算出されているのか?」などを理解することで、t検定の解釈が変わってくるように思いました。
そして、t検定を理解するためには「区間推定」という統計学の基本的な考え方を学ぶ必要がありますが、この「区間推定」が私はとっっっても面白く感じた所です。
この面白さをぜひ皆さんと共有したいと思っているので、張り切って書いていきます。
それではスタートです!!
記述統計と推測統計のはなし
「区間推定」についての話に入る前に統計学の大きな枠組みに触れておきましょう。
統計学は大きく分けると「記述統計」と「推測統計」に分けられます。
記述統計というのは「データの特徴を抜き出す技法」です。例えば、国勢調査のように日本全国で調査を行い、そのデータの特徴を示すために平均値や中央値を求めたり、グラフを作って分布を示す、などのような作業です。
これを見ることにより、そのデータがどんな特徴をもっているのかを知ることができます(○○の平均値は▢▢である、△△より◇◇の方が割合が多い、など)。
一方、推測統計というのは「標本から母集団を推測する技法」です。これはどういうことかと言うと、例えば30人の学生にテストを行い、そのデータから日本全国の学生の平均値を推測する、というような場合です。
この場合、本当に調べたい集団は日本全国の学生であり、それを母集団と呼びます。しかし母集団を全員調査することは多くの労力が必要なので、一部の学生のみを抽出して調査をし、そこから母集団を推測するわけですね。この小さい集団を標本(またはサンプル)と言います。
点推定と区間推定
先ほどの例をもう一度考えてみます。
30人の学生(標本)のテスト結果から、日本全国の学生(母集団)のテスト結果を推測する、というものでした。
どのように推測するかを考えた時、初めに思いつくのは「標本の平均点を母集団の平均点として考えたらどうだろう」ということではないでしょうか。
例えば「30人の平均点が80点であった」⇒「では日本全国の平均点も80点だろう!」と推測する方法です。このように一点(ピンポイント)で推測することを「点推定」と呼びます。
でも、たった30人のテスト結果から日本全国の学生の結果をピンポイントで予測するのは心許ないと感じませんか?
30人の平均が80点だったからといって、全国の平均が80点である確率はかなり低そうです。その30人が極端に成績が良かった場合(または悪かった場合)、母集団の本当の平均と大きく離れてしまうことも考えられます。
そもそも、連続変数というのは細かく見れば無限に存在しますので(小数点以下を見れば無限に存在しますよね!例えば80.01、80.02・・・、のように)、その中からピンポイントで推測を的中させるのは実質不可能です。
そこで、次に考えるのは「ピンポイントではなく、幅を持たせて推測したらどうだろう」ということではないでしょうか。
例えば「30人の平均が80点だった」⇒「では日本全国の平均は70~90点の間だろう」という感じです!こう考えることで、先ほどのピンポイントでの推測より的中する確率が上がりそうです。
このように、幅を持たせて推測することを「区間推定」と呼びます。
95%信頼区間とは
次に気になるのは「推定したその区間は、どのくらいの確率で的中するのか」ということです。
極端な話、「0点~100点」と区間推定すれば、それは100%の確率で的中します。しかし、その推測は意味を成さないですよね(笑)
そこで、もし的中する確率が50%で良いならば、100%の時と比べてもう少し大胆に区間を狭くして推測することができます(50%は外れても問題ないわけなので…)。
つまり、的中確率を上げようと思えば推定区間は広くなり、的中確率を下げれば推定区間は狭くなるという関係になります。
統計学では、この的中確率を95%に設定するのが一般的です。そして、的中確率を95%に設定した推定区間のことを「95%信頼区間」と呼びます。
この95%信頼区間の解釈については少し注意が必要で、「信頼区間の予測を100回行ったときに、その95回は信頼区間の中に真の値(母集団の本当の平均値)が含まれる」という解釈になります。
まとめ
以上、今回は区間推定の総論的な所をまとめました。
ポイントをまとめると以下の4点となります。
① 標本から母集団を推測することを推測統計という
② ピンポイントでの推測を点推定というが、これは精度が低い
③ そこで、幅を持たせて推測する区間推定を行う
④ 区間推定は、100回中95回は的中する「95%信頼区間」を推定することが多い
次回は、「では95%信頼区間を具体的にどうやって推測するのか」についてをまとめていきます。これらの基本を理解していくことで、最終的にt検定の理論に繋がっていきます!
コメント