クリタマです(^ω^)
本日のテーマは、「不偏分散」についてです。
この記事を読むことで
- 不偏分散ってなに?
- 不偏分散ってどうやって求めるの?公式が知りたい!
- 不偏分散と標本分散って何が違うの?
という疑問を解消できます。
思い当たる方はこれより先にお進みください。
不偏分散とは
不偏分散とは、標本から求められる母集団の推定値として扱われる分散です。つまり、「不偏分散=母分散」ということになります。
「不偏」という言葉の意味は、「かたよりのないこと」です。つまり、「かたよりのない値のばらつき」ということになります。
では、「かたよりのない値のばらつき」というとどのような分布をイメージするでしょうか?
そう、「正規分布」ですね。
そして、t分布のところで話しましたが、母集団の分布というのは、自然界一般の法則に従い「正規分布」を前提としていましたね。
だから、「かたよりのない値のばらつき(不偏分散)」=「母分散」だとか考えられます。
母集団と標本の関係を考えると不偏分散の理解が進む
しかしながら、文字面の説明だけだとイメージわかないと思うんで、少しだけ図解します。
この図のように、母集団を全国の学校から無作為にサンプルとして学級を抽出し、そのそれぞれに対して、①平均、②分散を求める作業をするとイメージしてください。
で、これらの「標本平均の平均」を求めます。
- 「標本①の平均+標本②の平均+標本③の平均÷3」を計算しろってことですね。
すると、これが「母平均に一致する」というわけです。
続いて、「標本分散の平均」を求めます。
- 「「標本①の分散+標本②の分散+標本③の分散÷3」を計算しろってことですね。
ただし、これは「母分散に一致しません」。
「母分散>標本分散」ということでしたから、言い換えれば「標本は、母集団に比べ、ばらつきが小さい」ということです。
「ばらつきが小さい」ということは、分布を描いたときに、「正規分布に比べ山の頂点が高い曲線を描く」ということです。
つまり、「母集団の分布図」と「標本の分布図」は「違う分布」になるということです。
ですので、その標本分散を用いて母集団を予測してしまうと、「誤った推論」につながるわけです。
これはいけません。
そのために、先人は、「母分散は標本分散よりやや大きくなる」という特性を考慮し、『「データ数-1」で分散の総和割る』という公式を作ったのですね。
- 1/5=0.2(標本分散)
- 1/4=0.25(母分散)
これに基づけば
- 0.2<0.25
- 標本分散<不偏分散
となりますよね。
つまり、分母が大きい方が値が小さいということがわかります。
ですから、先人は、実際にデータとして得られる「標本分散」に比べ「やや大きい値」にするべく分母の値を変えることで調整を図ったというわけです。
すると、なぜ「データ数-1」なのかという疑問が生まれますが、「やってみたらそうなった」ということですね。
平均値と分散を求めることが可能な母集団を対象に、実際にデータを集め、この手続きをいくつもやり、標本と母集団を比べてみるという作業をやれば、「この法則が当てはまる」ということを「身をもって体験できる」というわけです。
僕は面倒なのでやりません、あ。
不偏分散と標本分散の違い
ですので、「標本分散と不偏分散ってなに?」と聞かれレバ
- 標本分散・・・標本の分散つまり、「データのばらつき」
- 不偏分散・・・標本から予測した母集団の分散
という返答になるのですが、「標本分散と不偏分散の違いってなに?」と聞かれても答えるのが難しいのです。
「違い」という観点がもはやナンセンスですから。おそらく「分散」とう言葉のせいでしょうが、「別物です」という返答が一番ふさわしい気がします。
というわけで
こちらからは以上です。
参考書
①p値とは何か
②統計学がわかる ③やさしく学ぶ統計の教科書 ④よくわかる心理統計
コメント