この記事は、心理系大学院生を対象とした統計法の学習ページです。
- 重回帰分析に必要なデータ数ってどのくらい?
- データ数と変数の数の関係がよくわからない
- 「データが足りない」って言われたけど、どうすればいいの?
こんな悩みや疑問がある方はご参考ください( ˘ω˘)
動画で心理統計を学びませんか?
クリタマ勉強部屋では、修士論文に苦しんでいる心理系大学院生向けに、統計法の学習動画を提供しています(^^♪
今ならM-GTA記事も特典でついてきます
統計法の理解は長いことかかりますので、M1・M2の皆様は、ライフワークバランスを保つ選択肢の1つとしてぜひご活用ください。
結論
重回帰分析を行う際には、「データ数 > 変数の数」を満たす必要があるということです。
「この章の重回帰分析および、後の章で記すパス解析・確認的因子分析・探索的因子分析・構造方程式モデリングの分析対象となるデータは、「個体の数」が「変数の数より、(十分に)多い」という条件を満たさなければならない。単に「多い」だけでなく、「十分に多いのが望ましい」」
(引用:多変量データ解析法 P43 〈4.8. データが満たすべき条件〉 1-5行目)
ちなみに、過去のエントリーでは、重回帰分析をExcelでやってみましたが、実は事前にデータの精査をしていませんんでした。
しかし、研究実践では、データを分析にかける前に、データを整理する必要があります。
つまり、「データ数>変数の数」というのは、その条件の1つということなのです(^ω^)
それでは、クイズです(=゚ω゚)ノ
ということで、以上を踏まえて、クイズ形式で実例をみていくことにしましょう♪
第1問
それでは第1問目、👇こちらのデータを重回帰分析にかけることはできるでしょうか?

答えは、「×」です(^ω^)
なぜなら、なぜなら、「データ数 = 変数の数」だからです。
- データ数→3(A~Cさん)
- 変数の数→3(身長、体重、年齢)
第2問
👇こちらのデータは重回帰分析にかけることができるでしょうか?

もちろん、「×」ですね。
なぜなら、「データ数 < 変数の数」だからです。
- データ数→2(A~Bさん)
- 変数の数→3(身長、体重、年齢)
第3問
では、👇これはどうでしょうか?

答えは・・・「×」です(^ω^)
え?
思った方は多いのではないでしょうか?
「なぜ、×なの?」と
なぜなら、データの数 > 変数の数 ですが、十分でないからです。
では、具体的にどれだけ多ければいいのか?
「ただし、どれだけ多ければ十分であるかの客観的基準はない。重回帰分析では、個体の数が変数の数の10倍以上であれば十分であるとの目安もあるが、これは単に「区切りのよい目安」であり、これより個体数が少なくても十分であるケースが多い」
(引用:多変量データ解析法、P43 〈4.8. データが満たすべき条件〉 5-7行目)
つまり、↓ これならOKということです(^^ゞ

なぜなら、データ数 > 変数の数 が十分だから。
データ数が少ないとどうなるのか?
「個体の数が説明変数の数より少ないデータは、もちろん(4.18)の条件を満たさず、そもそも重回帰分析の演算が不可能になる。こうしたデータに対して「それらしい答え」を出力して、「重相関係数=1」つまり「予測が完全」と見間違う結果を出力するソフトウェアがあることに注意すべきである。この様な出力は、重回帰分析ではない」
(引用:多変量データ解析法、P43 〈4.8. データが満たすべき条件〉 8行目 – P44 2行目)
ただし、クラスター分析、主成分分析、数量化分析などは適用可能だそうです。
もう一つの条件:q < n−1
あるいは、以下のような説明もあります。
「説明変数の数を q、個体数を n としたとき、重回帰分析では、「q < n−1」を満足しなければなりません」
(引用:例題とExcel演習で学ぶ多変量解析、P74、〈③説明変数の個体は「個体数−1」より少なくなければならない〉、1-2行目)
つまり、先ほどの十分にデータ数が多い表だと、
- 説明変数 = 3
- 個体数 = 27
なので、q = 3、n−1 = 27−1 = 26 で、3 < 26 となり、条件を満たしていると考えられます。
ということで、これらの条件を満たしている必要があることは最低限覚えておきましょう~
まとめ
さて、いかがでしたでしょうか?
重回帰分析におけるデータ数の条件について少しは理解が深まったでしょうか?
最後に本記事の内容を振り返っておわかれです(^^)/
- 重回帰分析では、データ数 > 変数の数 を満たす必要がある
- 単に多いだけでなく、十分に多いのが望ましい
- 目安として「変数の数の10倍以上」という基準があるが、あくまで区切りのよい目安
- もう一つの条件として q < n−1(説明変数の数 < 個体数−1)がある
ということなんですね~
それではまた(^^ゞ



コメント