この記事は、心理系大学院生を対象とした統計法の学習ページです。
- 「重回帰分析の説明変数、何を入れればいいの?」
- 「名義尺度はそのまま使っていいのかな?」
- 「分析エラーが出て進まない……」
こんな悩みや疑問がある方はご参考ください( ˘ω˘)
動画で心理統計を学びませんか?
クリタマ勉強部屋では、修士論文に苦しんでいる心理系大学院生向けに、統計法の学習動画を提供しています(^^♪
今ならM-GTA記事も特典でついてきます
統計法の理解は長いことかかりますので、M1・M2の皆様は、ライフワークバランスを保つ選択肢の1つとしてぜひご活用ください。
名義尺度をそのまま扱うことはできない
重回帰分析を行うためには、説明変数の選び方にルールがあります。
まず大前提として、名義尺度を扱うことはできません。
例えば↓こんなデータ

このデータから「性別」「居住地」「年齢」の3つを独立変数(説明変数)として、「電話回数」を予測しようとする場合を考えます。
しかし、このままでは「性別」と「居住地(都道府県)」を重回帰分析の独立変数として扱うことはできません。
なぜなら、これらは「名義尺度」だからです。
カテゴリーが2つの場合(ダミー変数化)
ただし、名義尺度の分類が2つの場合に限り、数量データに変換して分析が可能になります。
その理由としては、以下の通りです。
「カテゴリー数が2つの場合、男性を1、女性を0として、数量データとして扱えます」
(引用:『例題とExcel演習で学ぶ多変量解析』P.73【①選択肢が3つ以上のカテゴリーデータはできない】5-6行目より)
一方、「居住地」はカテゴリーが47(都道府県)あるため、そのまま説明変数に変換して扱うことはできません。
「年齢を30才代以下、40才代、50才代以上の分類(カテゴリー)に変換すると、説明変数はすべてカテゴリーとなるので、数量化1類(第4章)で解析できます」
(引用:『例題とExcel演習で学ぶ多変量解析』P.73【①選択肢が3つ以上のカテゴリーデータはできない】7-9行目より)
つまり、変数として扱うことはできますが、もはや、重回帰分析ではないということですね( ゚Д゚)
データがすべて同じ値の説明変数は扱えない
また、すべての個体で値が一致している変数は、分析に投入できません。
例えば↓こんなデータ

この例では、「年齢」においてすべてのデータが同じ値であるため、重回帰分析にかけることができません。
「アンケート調査で段階評価(1:よい、2:どちらともいえない、3:悪い)を用いた場合などに、全員が『2:どちらともいえない』に回答する、といったことがたまにあります。この場合、この変数のデータはすべて『2』となり、重回帰分析に使えません。データがすべて同じだと標準偏差が0になるので、重回帰分析を行う前に標準偏差を計算してチェックしてください」
(引用:『Excel演習で学ぶ多変量解析』P.73【②データがすべて同じ値の説明変数は、重回帰分析に適用できない】7-9行目)
説明変数の個数は「個体数 – 1」より少なくなければならない
また、変数を増やせばいいというわけではありません。
説明変数の数は、分析対象となるサンプルサイズ(個体数)による制約を受けます。
こちらの詳細は↓を参照してください。
数値以外のデータがある個体は分析から除外される
データセットの中に数値として認識できないものが入っている場合、その個体(行)は分析対象から外れてしまいます。
例えば、↓こんなデータ。

「ブランク(空欄)、記号、文字などの数値以外のデータがある個体は分析から除外されます」 (引用:『例題とExcelで学ぶ多変量解析』P.74【④数値以外のデータがある個体は分析から除外される】1-2行目)
そのため、もしデータに不備があれば、それらの個体はすべて除外されて分析されることになります。
これは注意されるまでもないと言う感じですね~
まとめ
いかがでしたでしょうか?
重回帰分析の説明変数のルールについて少しは理解が深まったでしょうか?
最後に本記事の内容を振り返っておわかれです(^^)/
- 名義尺度はそのまま使えない(2カテゴリーなら0, 1の数量データへ)
- 全員同じ値の変数はNG(標準偏差が0だと計算不可)
- 変数の数は「個体数 – 1」未満にする
- 空白や文字を含む個体は除外される
ということなんですね~
ルールをしっかり守って、正しい分析を進めていきましょう。
それではまた(^^ゞ
参考
こちらの記事を作成にする上での参考文献です(^ω^)
①多変量解析がわかる
②多変量データ解析法
③例題とExcel演習で学ぶ多変量解析




コメント