散布図とはなにか?わかりやすく右上がりと右下がりのデータを例にしてみた

統計法

クリタマです。

統計シリーズ、本日のテーマは「散布図」についてです。

このブログの実際のデータを例に取り上げて解説しているので、面白みがあるかなと思います。

散布図とは

散布図とは、「データの散らばり具合やデータ同士の関係を調べるためのグラフ」のことを言います。

散布図はなんのためにあるのか?

すでに述べたとおり、散布図は「2つの変数の関係性」を捉えるために使われるものです。しかし、「関係性を知ることで一体なんの役に立つの?バカなの?」と思う方もいるかもしれません。なので、どんな時に、「2つの変数の関係性」を知りたいかというと、例えば、ある変数からもう片方の変数を予測したい(回帰分析時があります。こ

しかしながら、そもそもその2つの変数に連動性があるのかということがわからなければ、予測しても無駄というものです。従って、まずは2つの変数に本当に関係があるのか?ということを明らかにする必要があるわけですね。それはいいかえれば「相関」を調べるということです。その際に、相関の強さを表す値を「相関係数」と言いますが、相関係数は「数値」です。数値ではイメージが湧きづらいですよね。だから、「散布図」にするのです。

散布図の種類

ということで、ここからは具体的な散布図のパターンについてみていきましょう。

そして、散布図を見るときには、2つの変数に関係(相関)があるかどうかをを見極める3つのパターンがあります。

  1. 正の相関
  2. 負の相関
  3. 無相関

実際に僕のブログの「記事数」と「PV数」を使って散布図を作ってみました。

これらのパターンを1つずつ確認します。

正の相関

正の相関は以下のような散布図になります。

正の相関

横軸(x)がブログ記事数、縦軸(y)がPV数をあらわしていますが、このように、「xの値が大きくなると、yの値も大きくなるデータ」を「正の相関」があると表現します。

言い換えれば「右肩上がり」のグラフです。

「相関」とはお互いに「影響しあっている」、「関係がある」という意味です。

負の相関

負の相関の場合の散布図は次の通りです。

負の相関

一方、こちらは「xの値が大きくなると、yの値が小さくなるデータ」です。これを「負の相関」があると表現します。

正の相関に対して、こちらは「右肩下がり」のグラフになっていますよね。

無相関

最後に、無相関です。

無相関

無相関は、「正の相関」でも「負の相関」でもないデータです。

つまり、「横軸の値と、縦軸の間に明確な関係がないデータ」のことです。

「右肩上がり」でも「右肩下がり」でもありませんね。

散布図からデータを読み取る際の注意

これで、散布図のイメージがわかってきたと思うのですが、最後に散布図を読み取るための注意点に触れておきます。

以下の図は、先ほどおみせした「正の相関」が読み取れる散布図です。

正の相関

この散布図を見ていただいて何か気づくことはありませんか?

そうです。このように、赤枠で囲ってみると、「2つのデータグループ」があるわけです。

散布図

これは「リライトをしている」か「していないか」の違いによって、PV数の増え方が異なっていることを示しています。「0〜150記事」あたりまでは、ひたすらに「新規記事を投稿するだけ」でした。一方、その辺りからPV数が伸び悩んでいたので、更新の主軸を「リライト」にして、余裕があれば新規記事を投稿するという方針に舵をきりました。その結果、PV数の傾斜が急になっていますね。つまり、「リライト」をするか否かによって、PVの予測値が変わってくるということです。そしてそれは、回帰分析の際に活かされるわけです。

まとめ

以上。「散布図とは何か?

理解して頂けたでしょうか。最後に、この記事内で取り扱った項目をおさらいして、本日はおわかれです。

  1. 散布図は、データの相関(関係性)を可視化したいときに用いられる
  2. 散布図には、正の相関・負の相関・無相関がある
  3. データグループが1つとは限らない

参考書籍

①統計学がわかる(回帰分析・因子分析編)

②よくわかる心理統計

③やさしく学ぶデータ分析に必要な統計の教科書

コメント

タイトルとURLをコピーしました