クリタマです。
今回のテーマは、「標準偏差」でお送りします。
過去記事で、「分散」という用語の理解を進めてきました。そして、「分散」というのは、「データのばらつき」を示す値であるということを我々は学んできました。
そして、「標準偏差」も「分散」同様に、「データのばらつき」を示す値であるということを学びました。
では、「標準偏差」と「分散」は一体何が違うのか?
それこそが、本エントリーの主題です。
標準偏差とは
実は、1つ前の記事(分散について)で、この答えについてすでに触れています。
それは、「標準偏差」の方がより、実際の値に近い数字であるということでした。
どういうことでしょうか?
「分散」というのは、「1つ1つのデータの値から、データの平均を引いた値」を「2二乗」してそれらの値を平均したものです。
では、なぜ、「2乗」するのかというと、「1つ1つのデータを正の値にするため」でした。
つまり、「便宜的な手続き」ということです。
この説明がわからない方は、↓↓過去記事を参照のこと。詳しく書いてます。
そうすると、この「2乗した値の平均」では、「もともとのデータの値」とはかけ離れてしまいます。
わかりますか?
ここでも、クラスBの生徒の身長に関するデータを用いましょう。
この細かい計算については、↓↓こちらの記事で算出した値を前提に話を進めます。
さて、こちらで算出した「クラスBの生徒の身長のばらつき(分散)」は、「104.4」でした。そして、平均身長は「170cm」でした。
でも、これってよく考えたら変ですよね?
考えてみてください。
170cmからばらつきが104.4cmも上下にばらつきがあるとしたら、
クラスの最小身長は、「170-104」で「66cm」です。
一方、最大「170+104」で「274cm」ですよ?
こういうことですよ?
ありえます?
こんな差があったら、絶対不倫するじゃないですか。
ということは、つまり、「分散」で示される値というのは、あくまでも「ばらつきの目安」ということがわかります。
一方、標準偏差というのは、繰り返しになりますが、より、現実値にふさわしいデータのばらつきを示します。
つまり、「分散」というのは、生徒一人一人の身長が平均からどのくらい離れているかという値を「便宜的に二乗した値」なのですから、分散の平方根(√)なる値を求めればいいということになります。
さすれば、値が「マイナス」になることもありません。
で、「104.4」の「√(平方根)」は「10.22」です。
この「10.22」という値を使って、先ほど同様にクラスBの身長のばらつきを考えてみると
- 最大身長は170+10=180
- 最小身長は170-10=160
ということになり、これを実際のデータと照らし合わせると
- 最大が184cm
- 最小が155cm
なので、当然誤差はありますが、より現実の値に近づきましたよね?
このイメージがつけば標準偏差と偏差の違いOKです。
次回は、このエクセルを使った標準偏差の求め方を記事にアップしていきます。
参考文献
①p値とは何か
②統計学がわかる ③やさしく学ぶ統計の教科書 ④よくわかる心理統計
コメント