クリタマです。
統計シリーズ、本日のテーマは「散布図」についてです。
このブログの実際のデータを例に取り上げて解説しているので、面白みがあるかなと思います。
散布図とは
散布図とは、「データの散らばり具合やデータ同士の関係を調べるためのグラフ」のことを言います。
散布図はなんのためにあるのか?
すでに述べたとおり、散布図は「2つの変数の関係性」を捉えるために使われるものです。しかし、「関係性を知ることで一体なんの役に立つの?バカなの?」と思う方もいるかもしれません。なので、どんな時に、「2つの変数の関係性」を知りたいかというと、例えば、ある変数からもう片方の変数を予測したい(回帰分析)時があります。こ
しかしながら、そもそもその2つの変数に連動性があるのかということがわからなければ、予測しても無駄というものです。従って、まずは2つの変数に本当に関係があるのか?ということを明らかにする必要があるわけですね。それはいいかえれば「相関」を調べるということです。その際に、相関の強さを表す値を「相関係数」と言いますが、相関係数は「数値」です。数値ではイメージが湧きづらいですよね。だから、「散布図」にするのです。
散布図の種類
ということで、ここからは具体的な散布図のパターンについてみていきましょう。
そして、散布図を見るときには、2つの変数に関係(相関)があるかどうかをを見極める3つのパターンがあります。
- 正の相関
- 負の相関
- 無相関
実際に僕のブログの「記事数」と「PV数」を使って散布図を作ってみました。
これらのパターンを1つずつ確認します。
正の相関
正の相関は以下のような散布図になります。
横軸(x)がブログ記事数、縦軸(y)がPV数をあらわしていますが、このように、「xの値が大きくなると、yの値も大きくなるデータ」を「正の相関」があると表現します。
言い換えれば「右肩上がり」のグラフです。
「相関」とはお互いに「影響しあっている」、「関係がある」という意味です。
負の相関
負の相関の場合の散布図は次の通りです。
一方、こちらは「xの値が大きくなると、yの値が小さくなるデータ」です。これを「負の相関」があると表現します。
正の相関に対して、こちらは「右肩下がり」のグラフになっていますよね。
無相関
最後に、無相関です。
無相関は、「正の相関」でも「負の相関」でもないデータです。
つまり、「横軸の値と、縦軸の間に明確な関係がないデータ」のことです。
「右肩上がり」でも「右肩下がり」でもありませんね。
散布図からデータを読み取る際の注意
これで、散布図のイメージがわかってきたと思うのですが、最後に散布図を読み取るための注意点に触れておきます。
以下の図は、先ほどおみせした「正の相関」が読み取れる散布図です。
この散布図を見ていただいて何か気づくことはありませんか?
そうです。このように、赤枠で囲ってみると、「2つのデータグループ」があるわけです。
これは「リライトをしている」か「していないか」の違いによって、PV数の増え方が異なっていることを示しています。「0〜150記事」あたりまでは、ひたすらに「新規記事を投稿するだけ」でした。一方、その辺りからPV数が伸び悩んでいたので、更新の主軸を「リライト」にして、余裕があれば新規記事を投稿するという方針に舵をきりました。その結果、PV数の傾斜が急になっていますね。つまり、「リライト」をするか否かによって、PVの予測値が変わってくるということです。そしてそれは、回帰分析の際に活かされるわけです。
まとめ
以上。「散布図とは何か?」
理解して頂けたでしょうか。最後に、この記事内で取り扱った項目をおさらいして、本日はおわかれです。
- 散布図は、データの相関(関係性)を可視化したいときに用いられる
- 散布図には、正の相関・負の相関・無相関がある
- データグループが1つとは限らない
参考書籍
①統計学がわかる(回帰分析・因子分析編)
②よくわかる心理統計
③やさしく学ぶデータ分析に必要な統計の教科書
コメント