分散とは何か?できるだけわかりやすく解説してみた

統計法

こんにちは、クリタマです。

今回のテーマは、「分散(標準偏差も含む)」についてです。

この記事を読むことで・・・

ですから、この記事を読むことで、「分散ってなに?よくわからん」と言っているあなたが、

他の誰かに同じ質問をされたら「分散っていうのはね、あーで、こーで、例えばね・・・」のように、その意味と、具体例を交えて説明できるようになることを目指しています。

分散とは何か

分散とは、「データのばらつき具合」を表す概念だと言えます。

で、実際に僕らが分散として見せられる、「データのばらつき」は、「数字」で示されるので、例えば、データAではばらつきが「5」、データBではばらつきが「10」だとすれば、データBのばらつきはデータAと比較して大きいということが言えます。

したがって、この値が大きいほど「ばらつきが大きい」ということになるし、逆に値が小さいほど「ばらつきが小さい」ということを意味します。

具体例をあげます

この説明だけではわからない方も多いと思うので、「ある中学校のクラスAとクラスBの生徒の身長」というテーマで例をみていきます。

まずは、この学校のクラスAからのぞいてみましょう。

クラスAでは生徒の平均身長が170cmだったと仮定します。そして、クラスAの生徒の身長のばらつきを示す値が「5cm」だったとします。その場合、クラスAの生徒の身長は165cm〜175cmまで幅があることを意味します。しかし、この「5cm」という数値が持つ意味はクラスAの生徒の身長見ているだけではわかりません。

そこで、クラスBの生徒の身長もみることにしましょう。すると、クラスBの生徒の平均身長も170cmでした。ただし、身長のばらつきは、「15cm」でした。つまり、クラスBの生徒の身長のばらつきは、「155cm〜185cm」とクラスAに比べ範囲が広いですね。これはつまり、「ばらつきが大きい」ということです。

そして、クラスAとクラスBの生徒の身長を表にすると以下の様になります。

分散とは1

さらにこの表を図にすると、クラスごとの身長のばらつきが一目瞭然ですよね。

こうやって図にすると一目瞭然ですよね。

青の波線がクラスA、オレンジの波線がクラスBです。

クラスBの方が、クラスAよりも上下の波幅が大きいですね。

それがつまり、「生徒の身長のばらつきが大きい」ということです。

一方、青の波線は上下の波幅が小さいですよね?

つまり、「生徒の身長のばらつきが小さい」ということになります。

分散と標準偏差の違いは?

それでは、「ばらつき」の意味がわかったところで、話を「分散」と「標準偏差」という用語に戻します。

しかし、ここで1つ疑問が生まれます。

この記事の冒頭で述べたとおり、分散も標準偏差もどちらも「データのばらつき」を表す用語でしたよね?

では、その2つは一体何が違うのか?ということです。

結論を言うと、「標準偏差」の方がより、実際の値に近い数字であるということです。

先ほどの例を使ってもう一度見て見ましょう。

分散2

この図のように、クラスBの生徒10人を一列に並べてみましょう。そして、クラスBの平均身長である「170cm」の高さに、目印としてロープをひいておきます。このようにすると、どの生徒が平均より低く、どの生徒が平気より高いか一目でわかるからです。

で、ここで話を「ばらつき」という言葉に戻しますが、ここまで書いてきた「ばらつき」というのは、データのばらつきです。つまり、データとうのは、「クラス」のことを言い、クラスとは、「生徒一人一人の集合」でもあります。ということは、「生徒一人一人の身長が、平均からどの程度離れているか」を「まとめた値」が「ばらつき」ということを意味します。言い換えれば、「ばらつきの平均」を求めるということです。

まあ、この説明を聞いてピンとくる方ばかりではないと思うので、ここではさらっと流して、後ほど読み返してみると理解が深まるはずです。

いずれにせよ、「平均」をだすということは、まず、「生徒一人一人の身長が、平均からどのくらい離れているのか」ということを求める必要があります。

ということは、これを計算式として表すと、

生徒の身長ークラスの平均身長=クラスの身長のばらつきの一部ということですね。

個々のデータのばらつきを求める

これをもう少しわかりやすくするために、こちらの図で確認していきましょう。

分散3

「クラスBの平均身長=170cm」でした。

「生徒Aの身長は、185cm」でした。

これを先ほどの公式に当てはめて考えると、

「185-170=15」となりますね。

で、この「15」という数字が何を表しているかというと、図で示した両矢印の部分ですね。つまり、「Aの身長とクラスの平均身長との差」です。言い換えるならば、「Aの身長とクラスの平均身長との距離」であり、「Aの身長がクラスの平均身長からどれくらい離れているか」ということです。したがって、「Aの身長は、クラスの平均身長から15cm離れたところにある」と表現することができます。

このように、「生徒一人一人の身長とクラスの平均身長との差」をだしていくのですが、その1つ1つがつまり、クラスのばらつきを示す値だと言えます。しかし、このままでは「クラス全体のばらつき」を示す値にはなりません。

そこで、、「生徒一人一人の身長とクラスの平均身長との差」=「クラスの身長のばらつきの一部」であるという考えにもとづけば、「その平均」=「クラスの身長のばらつき」というように代表値として扱うことができます。以上の理由から、まず、「生徒一人一人の身長とクラスの平均身長との差」を求める必要があるのです。

しかし、勘の良い方なら、ここで気づいたはずです。

この公式を、全ての生徒にあてはめたら、値がマイナスになる生徒もいるのではないか」ということに。

どういうことでしょうか?

値が「マイナス」になることもある

以下の図に戻りましょう。

分散4

例えば、Aの場合だったら、「生徒の身長-平均身長=15」と答えは「+」になります。なぜなら、Aの身長>平均身長だからです。

では、Bの身長が160cmだとするといかがでしょうか?

「160-170=-10」と、答えは「-」になってしまいました。

これは問題です。なぜなら、「クラス全体のばらつき」というのは、「生徒1人1人の身長と、平均身長の差」の「平均」です。「平均」ということは、全ての値を足して、それをデータの数で割るということですよ?

本当なら、「15+10=20」としたいのですがこのままでは、「15+(-10)=5」ということになってしまいます。

分散5

「ばらつき」が、「生徒一人一人の身長と平均との距離をつなぎ合わせて、それを均等にしたもの」だと考えるならば、これはまずいわけです。そこで、そのような事態を防ぐために、統計では、これらの値を全て2乗してしまいます。

「(-1)×(-1)=1」のように、「-」の値は「+」に変わります。

よって、(生徒一人一人の身長-平均身長)×(生徒一人一人の身長-平均身長)/生徒の数

を求めることで、クラス全体のデータのばらつきの値を求めることができます。

そして、この値こそが、「分散」だということになるのです。

まとめ

  • 「分散」とは、データのばらつきを示している
  • 「ばらつき」というのは、データ1つ1つが平均からどの程度離れているかを示す
  • 「分散」は「値が大きいほど、ばらつきが大きい」
  • 「分散」は「値が小さいほど、ばらつきが小さい」
  • 「分散」は、「データ1つ1つの値から平均値」

参考文献

①p値とは何か

②統計学がわかる ③やさしく学ぶ統計の教科書 ④よくわかる心理統計

コメント

タイトルとURLをコピーしました