今回は、重回帰分析で出てくる「残差」についてまとめておきます。
この単語自体に馴染みがない、という方も多いかと思います。
基本的な所から見ていきましょう。
線形回帰モデルの仮定?
参考書を読んでいると、線形回帰モデルを行う時の仮定というのが紹介されていました。
さてさて、私たち統計学のシロートにとっては、まずは「線形回帰モデル」とは何ぞや?という所から躓きますよね。あと「仮定」てなんやねん、という感じです。
まずはこれらを極々簡単に理解してみましょう。
線形回帰モデルの「線形」というのは「直線的な関係で表せる」ということなんですよね。これでもまだ分かりにくいですが、つまり従属変数をy、独立変数をxと考えたときに y=a+bx というような式で関係を表せるかということなんです。
ちなみに、とりあえずは「線形回帰モデル=重回帰分析」と捉えてもらって大丈夫かと思います。
そして「仮定」というのは「データが定められた形になっていないと分析結果が間違って出てしまう」ということです。最初に紹介した線形回帰モデルの仮定というのは「重回帰分析をするときは、データがこれらに従っていないと変な分析結果が出てしまいますよ」ということなんですね。
では「残差」とは?
①の「データが独立である」というのは全てのデータが別々の人から得られたデータであるということを表します。反対に、同じ人から2回・3回とデータをとる場合は「対応のあるデータ」と呼ばれていました。この辺の単語がよく分からない方はこちらに目を通してみてくださいね。
つまり①に関しては、重回帰分析を行う際には「全てのデータは別々の人から採取したものでなければなりませんよ」ということになりますね。
さて、問題は②ですね。「残差」とは一体なんでしょうか?
定義から説明すると、残差とは
とされています。
回帰直線?
「回帰直線」という、またよく分からない単語が出てきてしまいました。
これに関しては、重回帰分析でどのようなことが行われているのかを見てみましょう。
下の図は縦軸がy(従属変数)、横軸がx(独立変数)としたときに各座標をプロットしたものです。
重回帰分析は、これを直線的(線形)に予測しようとするものでした。この直線を「回帰直線」または「最小2乗直線」と呼びます。
回帰直線は「各座標から垂直に測った距離の総和が最小になる位置」に描かれた直線になります
残差とは回帰直線から各データまでの距離のこと
残差の定義を再確認してみましょう。
これはつまり先ほどの図で示した黄色の線(の距離)のことになりますね。
線形回帰モデルの仮定とされていたのは
というものですので、↑の黄色線の距離の分布が正規分布となるかどうかを見ましょう、ということになりますね。
まとめ
以上、重回帰分析で出てくる「残差」について説明しました。
ちなみに、私が参考にしている本(みんなの医療統計 多変量解析編)では線形回帰モデルの仮定として「残差が正規分布に従う」ことが紹介されていましたが、これは「回帰分析の前提」とまでは言えないようです。
【誤差項の正規性1/3】
リンク先の記事について、残差を丁寧に確認することが大事という趣旨自体は正しいと思いますが、全体的には不正確だと思います。「回帰分析の前提」として挙げられている「正規性(誤差自体が正規分布している)」は、ガウス・マルコフの前提には含まれません。小標本における統 https://t.co/uMyWbhOwuc— 高橋将宜 Masayoshi Takahashi (@M123Takahashi) December 30, 2019
つまり「残差も独立変数も正規分布に従う方が望ましいが、必ずしも正規分布である必要はない」という感じでしょうか。
重回帰分析の解釈は難しいですが、今後もコツコツと勉強していこうと思います。EZRで残差が正規分布に従うかどうかを調べる方法もありますので、またまとめます。
それでは、また!
コメント