分散分析の考え方をわかりやすく伝えるためにイメージ化してみた

統計法

クリタマです。

今日も今日とて必死に気触れていきたいと思います。

ということで、これまでの統計シリーズでは「t検定」について必死こいて記事を増やして参りましたがこのエントリーからいよいよ新章に入りたいと思います。

その名も「分散分析」です。

よって、このエントリーを読むことで

  • 分散分析ってなに?よくわからん
  • 分散分析?は?なにそれ?

という疑問をお持ちの方に役立つ記事となっています。

よろしくどうぞ。

分散分析とは

端的に言えば、分散分析とは「3群以上の平均値の差の比較」をする際に用いられる分析手法のことです!

「差の比較」と言えば、「t検定」を思い出すかもしれませんが、t検定の場合「2群での平均値の差の比較」をするという点が分散分析と異なります。

具体的に考えてみましょう。

例えば

精神障害と発達障害との間で、「他者意識」の程度が統計的に違いがあるか?という調査をするとします。

「他者意識」については、過去のエントリーを参照してください。

【早い人は5分でわかる】統計学でデータを分析をする目的
どうも、心理士気触れのやまだです。 今日も気触れていきたいと思います。 このエントリーでは 「なぜに人はデータを分析するのか」というテーマでお送りいたします。 ちなみに、今回は「知識習得」というより、「実技」に焦点を置いているため、 &en

この場合、「精神障害のグループ」と「発達障害のグループ」の2グループでの「他者意識」という得点の「平均点の比較」になるので、用いられる検定は「t検定」です。

例えばこんなデータから平均点を比較する場合ですね。

分散分析 わかりやすく1

では、この比較に、健常者グループが加わったらどうなるでしょうか?。

得られた値は以下だったとしましょう。

分散分析 わかりやすく

この場合だと、精神障害・発達障害・健常者の3つのグループでの平均値の比較になるので「分散分析」を用いるということになりますね。

分散分析の考え方

では、この例に沿って、分散分析はどのような比較を行うのか、それを説明していくとしましょう。

そのために、まず初めに各グループのヒストグラムを描くことにします。

分散分析わかりやすく3

すると、↑↑↑こんな風になりますね?

では、ここに、3グループの全体平均の値を加えてみます。

全体平均は

(44+38+25)/3=35.66

なので

分散分析 わかりやすく

↑↑↑このあたりが全体平均ということになりましょう。

これで準備が整いましたのでこの図を踏まえて、分散分析の考え方を確認していきます。

では、健常者グループ中のデータからサンプルを1つ抜き出して考えてみることにしましょう

健常者Aさんの他者意識の値は「41」です。

すると、このグラフ図においては、↓↓この辺りに位置します。

ですから、このAさんの「41」という値は、全体平均である「36」から下図の矢印の距離、つまり、「5」だけ「ズレがある」ということになります。

では、この「全体平均」からの「Aさんの他者意識のズレを」これを細かく分解するとどうなるでしょうか?

結論から言うと

  • ①「健常グループの平均」からの「Aさん」のズレ
  • ②「全体平均」からの「健常グループの平均」のズレ

を足したものが、「全体平均」からの「Aさん」のズレになります。

そして、前者を「群内のズレ」、後者を「群間のズレ」と呼びます。

よくわからんと言う方もいると思うので、もう少し詳しく見てみることにしましょう。

まずは、①「健常グループの平均」からの「Aさん」のズレ(群内のズレ)について説明します。

健常の平均は「38」で、Aさんは「41」なのですから、矢印で示した範囲がこのズレに該当します。

つまり、ズレは「3」ということです。

次に、②「全体平均」からの「健常グループの平均」のズレ(群間のズレ)です。

健常の平均は「38」で、全体は「36」なのですから、下図の矢印で示した範囲がこのズレに該当します。

つまり、ズレは「2」ということです。

したがって、

全体平均からのAさんのズレ=①「健常グループの平均」からの「Aさん」のズレ(群内)+②「全体平均」からの「健常グループの平均」のズレ(群間)

と説明することができます。

図で以下の通りですね。

帰無仮説を棄却するか否かについて

それでは最後に、重要なことを確認しておきます。

帰無仮説を棄却するか否かについての判断についてです。

ここまで説明してきた、「群間のズレ」は、「全体の平均」と「健常グループの平均」の「距離」をあらわしたものでした。

つまり、「グループ間のズレ」ということであり、「この値が大きいほど、平均の値が異なる」ということを意味します。

先ほどの図で言うと、「縦に引いた赤線」同士が大きく離れているイメージです。

一方、「群内のズレ」は、「健常グループ平均」と「健常グループに含まれるAさんの値」との「距離」をあらわしたものでした。

つまり、「グループ内でのズレ」ということであり、「この値が大きいほど、個人差が大きい」ということを意味します。

ということは

  • 群内のズレ<群間のズレ

ならば、帰無仮説を棄却することになります。なぜなら、グループ間の違いが大きいことを意味するからです。

一方、

  • 群内のズレ>群間のズレ

ならば、帰無仮説を棄却することはできません。なぜなら、グループ間の違いが大きいとは言えないからです。

分散分析はこのような流れに沿ってなされます。

ただし、今回は、「健常グループ」の「群間のズレ」と「群内のズレ」しかみていませんが、実際に分散分析をする場合は、「すべてのグループ」に対して、「これらのズレ」を計算していく必要があります。

上図で言えば、「黒の矢印の総和」が「群間のズレ」であり、「青の矢印の総和」が「群内のズレ」ということになります。

ですから、両者を比較して、その大小によって、「帰無仮説を棄却するか否か」を判断するということです。

次回は、「エクセルを使った分散分析のやり方」についてです

参考書

①p値とは何か

②統計学がわかる ③やさしく学ぶ統計の教科書 ④よくわかる心理統計  

コメント

タイトルとURLをコピーしました