い、お答えします。
回帰分析とは、1つの独立変数の値から、1つの従属変数の値を予測するために用いられる分析手法です。
複数の独立変数の値から従属変数の値を予測する「重回帰分析」とは、この「1つの」という点で違いがあります。
中学生の頃に、僕らは「1次関数」を勉強しましたよね?
「y=ax+b」という式です。覚えてますか?
このxを独立変数として、従属変数であるyの値を予測するのが回帰分析です。
回帰分析の具体例
例えば、自己肯定感の高さから、精神的健康を予測できるとしましょうか。
すると
- x・・・自己肯定感
- y・・・精神的健康
となるので、あとは先ほどの式の「y=ax+b」。「傾き=a」と「切片=b」がわかれば自己肯定感が「5」の時は、精神的健康が「65」のように予測ができますよね?
この「傾き=a」と「切片=b」の求め方については追って解説するとして、とりあえずここでは、「a=3」、「b=40」で、
- 「y=3x+40」
という式が求められた仮定します。
このような式のことを「回帰式」というわけですが、これが求められれば自己肯定感に応じた、精神的健康の得点を以下のように予測できるというわけです。
実際に、回帰式を作ってみる
では、回帰分析のイメージができたところで、実際に回帰式をどの様に作るのか考えてみたいと思います。先ほどは、架空の回帰式を提示して、「独立変数が1の時」、「従属変数は43」の様な流れですすめましたが、
実際は、
- データ収集
- 方程式に数値を代入
- 連立方程式を解く
- 回帰式が導かれる
というプロセスを踏みます。
具体的に考えてみましょう。
例えば、先ほどの「自己肯定感」と「精神的健康」についてのアンケートをAさんとBさんに答えてもらったとしましょう。それによって、以下のデータが得られたとします。
したらば、この具体的な「値」を「y=ax+b」に代入して連立方程式を作ります。
以下の様になります。
- 51=10a+b
- 58=15a+b
次に、この連立方程式を解きます。
まず、②-①で「7=5a」という形にします。すると、「a=7/5」ということになりますので、「a=1.4」です。あとは、 これを①の式に代入し、「b=37」となるわけです。aとbがわかったので、これらを初期の公式「y=ax+b」にすれば
「y=1.4x+37」という回帰式の一丁あがりです。
では、次のようにデータ数が1つ増えるとどうなるでしょう?
Cさんの自己肯定感「x=20」を、先ほど求めた回帰式の「y=1.4x+37」に代入しても「y=65」になります。しかし、実際のデータの値は「60」なので、「実測値と予測値でズレがある」ということがわかります。このズレのことを専門用語で「残差」と言います。
データが増えると、どんな回帰式を作ろうと「残差」は生じるので、「残差が出るのはもう仕方ない。であれば、残差ができるだけ小さくなるような回帰式を作ろう」という発想で、先人たちは「最小二乗法」というものを考えました。この最小二乗法については、別記事で扱うとして、とにかくそのような考え方に基づいて回帰式が作られるわけです。
ただし、実際に回帰式を求めるとなれば、データ量がこんなに少ないことなどまずあり得ません。そこで、エクセルと使って求めることになります。ということで、その具体的な方法が知りたい方は↓↓↓こちらを参考にしてください。
回帰係数
回帰式がわかったところで、最後に「回帰係数」について話をしておきます。「回帰係数」とは、 「y=ax+b」の「a」の部分です。つまり、 「y=1.4x+37」で言うと「1.4」です。では、この回帰係数は一体どのような意味があるのかと言うと、「従属変数に与える影響の大きさ」を表しています。
例えば、回帰係数が「1.4」ということは、独立変数(x)が「1」変化すると、従属変数が「1.4」変化するということです。仮に、 「y=5x+37」という回帰式があったとします。そすると、この回帰係数は「5」ですから、独立変数(x)が「1」変化すれば、従属変数は「5」だけ変化します。よって、これら2つの回帰係数「1.4」と「5」を比べると、後者の方が大きいですよね。つまり、「従属変数に与える影響が大きい」と言えるのです。
参考文献
①統計学がわかる(回帰分析・因子分析編)
②よくわかる心理統計
③やさしく学ぶデータ分析に必要な統計の教科書
コメント