不偏分散とは?標本分散との違いは?わかりやすく

統計法

クリタマです(^ω^)

本日のテーマは、「不偏分散」についてです。

この記事を読むことで

  • 不偏分散ってなに?
  • 不偏分散ってどうやって求めるの?公式が知りたい!
  • 不偏分散と標本分散って何が違うの?

という疑問を解消できます。

思い当たる方はこれより先にお進みください。

不偏分散とは

不偏分散とは、標本から求められる母集団の推定値として扱われる分散です。つまり、「不偏分散=母分散」ということになります。

「不偏」という言葉の意味は、「かたよりのないこと」です。つまり、「かたよりのない値のばらつき」ということになります。

では、「かたよりのない値のばらつき」というとどのような分布をイメージするでしょうか?

そう、「正規分布」ですね。

そして、t分布のところで話しましたが、母集団の分布というのは、自然界一般の法則に従い「正規分布」を前提としていましたね。

だから、「かたよりのない値のばらつき(不偏分散)」=「母分散」だとか考えられます。

母集団と標本の関係を考えると不偏分散の理解が進む

しかしながら、文字面の説明だけだとイメージわかないと思うんで、少しだけ図解します。

この図のように、母集団を全国の学校から無作為にサンプルとして学級を抽出し、そのそれぞれに対して、①平均、②分散を求める作業をするとイメージしてください。

母集団と標本の関係

で、これらの「標本平均の平均」を求めます。

  • 「標本①の平均+標本②の平均+標本③の平均÷3」を計算しろってことですね。

すると、これが「母平均に一致する」というわけです。

続いて、「標本分散の平均」を求めます。

  • 「「標本①の分散+標本②の分散+標本③の分散÷3」を計算しろってことですね。

ただし、これは「母分散に一致しません」。

「母分散>標本分散」ということでしたから、言い換えれば「標本は、母集団に比べ、ばらつきが小さい」ということです。

「ばらつきが小さい」ということは、分布を描いたときに、「正規分布に比べ山の頂点が高い曲線を描く」ということです。

つまり、「母集団の分布図」と「標本の分布図」は「違う分布」になるということです。

ですので、その標本分散を用いて母集団を予測してしまうと、「誤った推論」につながるわけです。

母集団と標本の比較

これはいけません。

そのために、先人は、「母分散は標本分散よりやや大きくなる」という特性を考慮し、『「データ数-1」で分散の総和割る』という公式を作ったのですね。

  • 1/5=0.2(標本分散)
  • 1/4=0.25(母分散)

これに基づけば

  • 0.2<0.25
  • 標本分散<不偏分散

となりますよね。

つまり、分母が大きい方が値が小さいということがわかります。

ですから、先人は、実際にデータとして得られる「標本分散」に比べ「やや大きい値」にするべく分母の値を変えることで調整を図ったというわけです。

すると、なぜ「データ数-1」なのかという疑問が生まれますが、「やってみたらそうなった」ということですね。

平均値と分散を求めることが可能な母集団を対象に、実際にデータを集め、この手続きをいくつもやり、標本と母集団を比べてみるという作業をやれば、「この法則が当てはまる」ということを「身をもって体験できる」というわけです。

僕は面倒なのでやりません、あ。

不偏分散と標本分散の違い

ですので、「標本分散と不偏分散ってなに?」と聞かれレバ

  • 標本分散・・・標本の分散つまり、「データのばらつき」
  • 不偏分散・・・標本から予測した母集団の分散

という返答になるのですが、「標本分散と不偏分散の違いってなに?」と聞かれても答えるのが難しいのです。

「違い」という観点がもはやナンセンスですから。おそらく「分散」とう言葉のせいでしょうが、「別物です」という返答が一番ふさわしい気がします。

というわけで

こちらからは以上です。

参考書

①p値とは何か

②統計学がわかる ③やさしく学ぶ統計の教科書 ④よくわかる心理統計

コメント

タイトルとURLをコピーしました