重回帰分析における、誤差の分散とは?

心理統計法

この記事は、心理系大学院生や統計学を学ぶ方を対象とした学習ページです。

  • 誤差の分散ってなに?
  • 重回帰分析の結果で「誤差の分散」という言葉が出てきたけどよくわからない
  • 予測の精度ってどうやって測るの?

こんな悩みや疑問がある方はご参考ください( ˘ω˘)

動画で心理統計を学びませんか?

クリタマ勉強部屋では、修士論文に苦しんでいる心理系大学院生向けに、統計法の学習動画を提供しています(^^♪

今ならM-GTA記事も特典でついてきます

統計法の理解は長いことかかりますので、M1・M2の皆様は、ライフワークバランスを保つ選択肢の1つとしてぜひご活用ください。

結論~誤差の分散は、予測の不正確さのこと~

では、さっそく結論ですが、誤差の分散とは、予測の不正確さを示す表現です。

「表4.4(B)の誤差の分散265.73が、誤差の大きさ、言い換えれば、予測の不正確さを表すといえる」

(引用:多変量データ解析法、P40. 3段落、6-7行目)

言い換えると、「実測と予測とのズレの大きさ」を意味します。

誤差の分散を理解するための前提知識

そもそも、「分散」とは、「データの散らばり具合」を表す指標でした。

そして、「誤差」というのは、重回帰分析における文脈でいうと、予測式によって説明できない範ちゅう、つまり、「ズレ」を示す概念でした。

「誤差の分散=誤差の大きさ(4.10)と考えてよいことになる」

(引用:多変量データ解析法、P40. 12-13行目)

↓パズ図でいうと、「誤差」は赤枠で囲ってる部分ですね。

この「誤差」のデータのばらつきということになります。

つまり、それをイメージにすると↓こういうことです。

黒線が重回帰直線で、赤枠で囲った範囲が「誤差の分散(ズレの大きさ)」を意味しています。

誤差の分散の求め方

では、ここからは「誤差の分散」をどの様に求めるのか?

について考えてみます(=゚ω゚)ノ

なみに、ここでは誤差=残差という前提で話を進めますが、この意味がよく分からない方は以下の記事をご覧下さい(^^♪

ステップ1:誤差(残差)単体を求める

「誤差(残差)単体」を求める場合の計算式は「実測値 – 予測値」でした。

つまり、例えば、

  • 実測値8、予測値7の場合
  • 「8-7」で、誤差(残差)は「1」となる

なので、以下のデータでいうと、赤枠で囲った部分が、事業所A~Fのそれぞれの残差ということになります。

※このデータをいきなりだされて戸惑っている方はこちらを参照してください。

ステップ2:残差を合計して平均を求める

一方、「誤差の分散」というのは、イメージ図からもわかる通り「誤差のまとまり」のことなので、これらを全て合計して、その平均値を求めます。

ただし、ここで注意です!

なぜなら、これらを全て合計すると「0」になるからです。

ステップ3:2乗して平均を求める

そこで、残差をすべて2乗して、それらを合計してデータの数で割った値を「誤差の分散」とします。

「(各個体の誤差)2乗の合計」/ 個体数 (4.10)

(引用:多変量データ解析法、P40. 7行目)

その計算結果が↓これ

つまり、このデータの「誤差の分散(予測とのズレの大きさ)」=「0.344705」ということなんですね~

誤差の分散の値をどう解釈するか?

ちなみに、この値の大小については、文脈によります。

「この265.73がどの程度大きい(小さい)値なのかを把握するためには、次節に記すように、誤差の分散と適当な指標の比を求める必要がある。」

(引用:多変量データ解析法、P40. 7-8行目)

まとめ

いかがでしたでしょうか?

誤差の分散について少しは理解が深まったでしょうか?

最後に本記事の内容を振り返っておわかれです(^^)/

  • 誤差の分散とは、予測の不正確さ(予測とのズレの大きさ)のこと
  • 誤差の分散は、(各個体の誤差)2乗の合計 / 個体数 で求める
  • 誤差の分散の大小を判断するには、他の指標との比較が必要

ということなんですね~

それではまた(^^ゞ

誤差の分散の求め方のプロセスを動画でみたい方はこちら

ページの最下部からこの記事の感想をコメントしてください。その後、パスワードをお送りします(^^ゞ

※ここより先は、限定公開です。

参考

こちらの記事を作成にする上での参考文献です(^ω^)

①多変量解析がわかる

②多変量データ解析法

③例題とExcel演習で学ぶ多変量解析

コメント

タイトルとURLをコピーしました