重回帰分析～標準化係数と非標準化係数の違いとは？～

この記事は、心理系大学院生や統計を学ぶ方を対象とした重回帰分析の学習ページです。

標準解と非標準解って何が違うの？
重回帰分析を勉強したけど、標準化する意味がよくわからない
偏回帰係数の比較はどうすればいいの？

こんな悩みや疑問がある方はご参考ください( ˘ω˘)

動画で心理統計を学びませんか？
結論～準解と非標準解の違い～
非標準解とは
標準解とは
1. 準解の利点
2. 標準解の欠点
注意点
実際に、この式を使ってExcelでやってみる
まとめ
参考

動画で心理統計を学びませんか？

クリタマ勉強部屋では、修士論文に苦しんでいる心理系大学院生向けに、統計法の学習動画を提供しています(^^♪

今ならM-GTA記事も特典でついてきます

統計法の理解は長いことかかりますので、M1・M2の皆様は、ライフワークバランスを保つ選択肢の１つとしてぜひご活用ください。

結論～準解と非標準解の違い～

両者は、実測値か、基準をそろえた値かという点で違いがあります。

非標準解とは

例えば、次のようなパス図があるとします。

そして、このパス図は以下のデータに基づいています。

このデータから以下のような重回帰式が導かれます。

ｙ= 0.00786x + 0.539095z + 1.148148

この結果を先程のパス図に反映させると、↓こうなります。

これが非標準解です。

なぜなら、実測値に基づいているからです。

実測値に基づくとはどういうことか？

それは単位が異なるということです。

ここでいうと、先ほどの表の単位は以下のように設定されています。

広告費の単位は（千万円）
売上の単位は（千万円）
人員数の単位は（人）

非標準解の利点

このような非標準解の利点として、「実測値に基づいた予測ができる」といった点が挙げられます。

例えば、広告費の売上に対する偏回帰係数は「0.00786」です。

これはつまり、広告費が1千万円増えると、売上が0.00786千万円増えることを意味します。

0.00786千万円とは、つまり、7.86万円ということです。

なので、「じゃあ、売上を8000万円にしたい場合は、広告費をどれくらいかければいいのか」と現実的なイメージがわきます。

この説明は、重回帰分析の読み取りのところでもふれましたね。

非標準解の欠点

一方、独立変数同士の影響力を比較しようとする場合は、非標準解は適していません。

なぜなら、「単位」が異なるからです。

「偏回帰係数の絶対値の大きい説明変数ほど、従属変数への影響力が大きい」という考えが浮かぶかもしれませんが、この考えは半分正しいが、半分間違っています。間違っている理由は、偏回帰係数が、説明変数の値の散布度、つまり分散の影響を受けるからです」

（引用：多変量データ解析法、P42.「4.7. 非標準解と標準解」4-7行目）

ちなみに、単位が異なるからというのは、正確に言うと、「基準」が異なるということでもあります。

そこで、「標準解」の出番になるわけです。

標準解とは

つまり、標準化したデータを使って求められた回帰係数などのことです。

　「上記の分散の影響を除去するためには、すべての説明変数と従属変数を標準化して、分散が1になるように統一化し、これらに重回帰分析を適用すればよい。こうして得られる係数を標準偏回帰係数と呼ぶ」

（引用：多変量データ解析法・P42.「4.7. 非標準解と標準解」12-14行目）

そして、先程のデータを標準化すると・・・↓こうなります。

このデータから求められる重回帰式が、

y = 0.687423x + 0.448925z

となります。

これをパス図にしたのが↓これ

これが標準解、つまり、「基準が揃えられた状態」ということです。

準解の利点

よって、変数同士の影響力の比較ができます。

広告費 = 0.687
人員数 = 0.449

で、広告費 > 人員数

であることから、広告費の方が、売上への影響は大きいことになります。

先程の非標準解では、「広告費 < 人員数」であったことからもわかるように、注意が必要です。

「標準偏回帰係数は説明変数間で比較でき、これの絶対値の大きい変数は、従属変数への寄与（影響力）が大きいといえる」

（引用：多変量データ解析法、P43. 2-3行目）

標準解の欠点

一方、標準解の場合のデメリットとして、現実的なイメージがわきづらい点があります。

なぜなら、単位が変わってしまったからです。

注意点

ただし、ここでは、ローデータを標準化して、それを再度重回帰分析にかけましたが、実際にはその必要はありません。

「実際には、標準得点に変換されたデータを再分析するのではなく、変換式

標準偏回帰係数 = 偏回帰係数 × 該当する説明変数の（素データの）標準偏差 ÷ 従属変数の（素データの）標準偏差　(4.16)

によって、もとの素データに基づく解から標準偏回帰係数は得られ、多くのソフトウェアは、これと（標準化しない）偏回帰係数を同時に出力する」

（引用：多変量データ解析法、P42.「4.7. 非標準解と標準解」14-18行目）

実際に、この式を使ってExcelでやってみる

ただ、ここは練習というか学習の場なので、実際に手を動かして求めてみることがより深い理解につながります。

というわけで、先ほどのデータを使い、実際に公式通りにいくか確認してみましょう(^^ゞ

※ページの最下部からこの記事の感想をコメントしてください。その後、パスワードをお送りします(^^ゞ

まとめ

さて、いかがでしたでしょうか？

標準解と非標準解について少しは理解が深まったでしょうか？

最後に本記事の内容を振り返っておわかれです(^^)/

非標準解とは、実測値に基づく分析結果のこと
非標準解は、現実的な予測に適している
標準解とは、標準化された値に基づく分析結果のこと
標準解は、独立変数間の影響力の比較に適している
標準偏回帰係数は、公式を使えば素データから直接算出できる

ということなんですね〜

それではまた(^^ゞ

参考

こちらの記事を作成にする上での参考文献です(＾ω＾)

①多変量解析がわかる

多変量解析がわかる

posted with ヨメレバ

涌井良幸/涌井貞美技術評論社 2011年05月

②多変量データ解析法

posted with ヨメレバ

足立浩平ナカニシヤ出版 2006年07月

楽天ブックス

Amazon

Kindle

③例題とExcel演習で学ぶ多変量解析

例題とExcel演習で学ぶ多変量解析

posted with ヨメレバ

菅　民郎株式会社オーム社 2016年11月30日頃

楽天ブックス

Amazon

Kindle