t分布とは?わかりやすくまとめたつもり

心理統計法

やまだです。

以下より始まった「猿でもわかって欲しい統計シリーズ」ですが

【早い人は5分でわかる】統計学でデータを分析をする目的
どうも、心理士気触れのやまだです。 今日も気触れていきたいと思います。 このエントリーでは 「なぜに人はデータを分析するのか」というテーマでお送りいたします。 ちなみに、今回は「知識習得」というより、「実技」に焦点を置いているため、 &en

今回は、「t分布」というテーマでお送りしていきます。

t分布とは

t分布とは母集団から、標本を抽出し、その平均を求めるという作業を繰り返し、それら①標本平均の平均を求める、②標本平均の分散を求めるという2つの計算をし、その値から描かれた分布図のことです。

ですから、イメージとしては、「ミニ母集団」という表現がふさわしいのかもしれません。

そして、このt分布は

  • 「標本平均の平均」=「母平均」(標本平均は母平均に一致する)
  • 「標本平均の分散」=「母集団/標本のデータ数」

といった2つの特性を持っています。

全国のコロナ患者数を扱ってt分布を考えてみる

とはいえ、以上の説明ではわからないことも多いと思うので、ここからは体験型の説明でお送り致します。

ここで言っていることを具体化するために、4月10日時点での各都道府県のコロナ陽性患者数を母集団として考えていくことにしましょう。

これをエクセルにまとめると↓↓のようになります。

t分布1

標本を抽出する

データの整理を終えたら、t分布を描くための手続きとして、標本を抜き出しましょう。

サインプルサイズは「10」にします。つまり、それぞれの都道府県が選ばれる確率は1/47ということになります

次に、エクセルの「RAND関数」と「RANK関数」を使って、サンプルサイズ「10」の標本を「5」回抽出します。

以下が、そのうちの標本①〜③です。

t分布 標本抽出

以下が標本④〜⑤ですね。

t分布 標本抽出

これが第一の作業である、「標本を抽出する」ということです。

それぞれの標本の平均を求める

さて、続いてすべきはなんでしたでしょうか?

「標本平均の平均」と求めることでした。

そのために、まずは1つ1つの標本の平均を求めます

先ほどの「標本(サンプル)①」において、「AVERAGE関数」を使い平均を算出しましょう。

t分布 平均

すると、サンプル①の標本平均は「55.5」と求めることができました。

赤枠で囲った部分のことです。

そして、この手続きを他のサンプルに対しても行います。

以下のようになりますね。

標本平均を求める

これでそれぞれのサンプルの平均が

サンプル①・・・55.5

サンプル②・・・144.4

サンプル③・・・64.3

サンプル④・・・300.9

サンプル⑤・・・67.3

だとわかりました。

これが、「標本1つ1つの平均を求める」ということです。

標本平均の平均を求める

これで「t分布の平均」として扱われる「標本平均の平均」を求める下ごしらえが整いました。

あとは、標本平均を以下のように整列させて、先ほど同様、「AVERAGE関数」を使って、「126.48」という値を求めます。赤枠で囲った部分ですね。

t分布 みやすく

これが、「標本平均の平均」というわけです。

つまり、この「126.48」という値が「t分布」の「平均」なのです!!!

標本平均の分散とは?

それでは、もう1つ、t分布を描くために必要な情報はなんだったでしょうか?

「標本平均の分散」でしたね。

この言葉の意味を理解するのに僕はどうにも時間がかかりました。いやはや。

これは、先ほど得られた「それぞれの標本平均」を1つ1つのデータと考えればいいわけです。つまり、「標本平均の」とかいうからなんかわかりづらかったので、「このデータの分散」といえばしっくりくると思うのです。

つまり、以下「データの分散」を求めれば、それが「t分布」の「分散」ってことです。

t分布

分散の求め方は↓↓こちら

【5分でわかる】エクセルを使った分散の求め方
こんばんは。心理士のやまだです。 世間はコロナウイルスの騒動がおさまりませんね。 とはいえ、ジタバタして何も変わりません。 無力感もあるでしょうが、自分の立場でできることをやっていきましょう。   それでは、本日のテーマは「エクセ

ここでは、「VAR.P関数」を使って、簡易に分散を算出します。標本平均の分散

8630.0496」という値がでました。

これが、「標本平均の分散」であり、すなわち「t分布の分散」となるのです!!!

t分布と母集団の関係性を確認する

最後に、ここまで求めた値を整理します。、このデータの分布こそ「t分布」であ

  • 平均(標本平均の平均)・・・126.48
  • 分散(標本平均の分散)・・・8630.0496

というのが、t分布の代表値だということになりますね。

では、この「t分布の平均と分散」が「母集団の平均と分散」とどのような関係があったでしょうか?

  • 「標本平均の平均」=「母平均」(標本平均は母平均に一致する)
  • 「標本平均の分散」=「母集団/標本のデータ数」

でしたね。

そこで、本当にこうなるのか、確かめて見ましょう。

つまり、母集団の平均と分散を求めて、確かめるのです。

ちなみに、母集団の平均と分散は以下の通りです。

  • 平均・・・111.787
  • 分散・・・58403.573

で、これらを表にまとめました。

母集団とt分布の関係性

いかがでしょう?

平均はまあ、概ね一致していると言っていいのでしょうね。

問題は、分散です。

「t分布の分散」=「母分散/標本のデータ数」でした。

そして、母分散は、58403で、標本のデータ数は「10」でしたから、「5840」ですね。

これをt分布と比べると、その差は「2790」です。

これは「「一致している」とは言い難い気がします。

おそらくは、サンプルの抽出数を増やしていくと、母集団の値との一致度が高くなると思うのですが、その作業はとにかくここまでにして、「t分布」がなんなのか?母集団とどのような関係があるのか?ということを理解してもらえばいいと思います。

参考書

①p値とはなにか

②統計学がわかる

③やさしく学ぶ統計の教科書

④よくわかる心理統計

コメント

タイトルとURLをコピーしました