データ分析で使われる散布図とは?作成の目的や作り方を詳しく解説!

データ分析で使われる散布図とは?作成の目的や作り方を詳しく解説!

データ分析で使われる散布図とは?

散布図とは、2種類の要素を持つデータに対して、要素間の関係性をぱっと見て理解しやすいように可視化した2次元グラフです。2種類の要素は、それぞれデータの数字だけを見てもお互いの関係性を把握することは困難です。散布図は、データをグラフ上に分布の形で可視化しているため、要素間の関係性が直感的に分かりやすいことからデータ分析ツールとしてよく使われています。

散布図では、2つの要素をそれぞれ変数Xと変数Yとしたとき、グラフの横軸を変数X、縦軸を変数Yとし、各データをXとYそれぞれ該当する値の位置にプロットします。例えば、ある学校の生徒の身長と体重をそれぞれ測ったとします。A君は身長150cmで体重40kg、B君は身長160cmで体重50kgだった時、身長を変数X、体重を変数Yとして、A君とB君それぞれのX値とY値に該当する位置をプロットしたものが、身長と体重の関係を表す散布図になります。

 

散布図でわかることは?

散布図からわかることは、データの2つの要素である変数Xと変数Yの関係性です。データを複数プロットしたときに、プロットの分布に明らかな傾向が見られたら相関関係があり、分布に傾向が見られずばらついていたら相関関係がないことがわかります。散布図で見られる分布の特性として、変数Xの値が大きくなると変数Yの値も大きくなる分布の場合、正の相関があると言います。一方、変数Xの値が大きくなると変数Yの値が小さくなる分布は、負の相関があると表現します。そのどちらでもない場合は、変数Xと変数Yには相関がなく、プロットの分布がグラフ全体にばらばらと散らばった形になります。

その他に散布図でわかることは、特異点を把握できることです。データの分布から明らかにはみ出ているプロットがあった場合、そのデータは特異点と言って、正しくない測定結果だったり、データの前提条件が揃っていなかったりする可能性があります。データ全体の整合性を確認したり、データの関係性に寄与するその他の要因に気付くきっかけとしても、散布図は役に立ちます。

散布図を分析する上での注意点は、散布図は2つの要素の関係性を表しますが、直接的な因果関係を表してはいないことです。Xの変化が原因でYが必ず変化する結果となるとは言い切れないことを理解して、散布図を分析しましょう。先ほど例に出した身長と体重のデータの場合、身長が高ければ体重も重いという全体の相関関係はあったとしても、身長が高くなると体重が重くなる、という因果関係があるとは言い切れません。身長が低くても体重の重い人や、その逆など、遺伝や体質的なものも要因として考えられるからです。

散布図を分析する際は、結果としての関係性に加えて、その背景にある理論や知識も合わせて読み解くことが必要です。

また、散布図ではプロットするデータの母集団を細かく分けると、より詳しく相関関係を見いだせることがあります。一見相関のない散布図でも、データをある基準で分類して改めてプロットしてみてください。散布図上では、母集団ごとにプロットの色を変えるとわかりやすくなります。例えば、学校全体の身長と体重のデータを、男子と女子に分けたり、学年ごとで分けたりしてそれぞれプロットすると、男子の相関関係、女子の相関関係といったより詳しい情報が得られます。

散布図を作る目的とは?

散布図を作る目的は、2つの要素にどんな相関関係があるかを分析し、自分の検討内容に結果を反映させることです。ある欲しいアウトプットに対して関連しそうな要素がいくつかある場合、散布図を使うとアウトプットと各要素の相関がわかり、その要素がアウトプットに影響する要因であるかどうか判断できます。また、よりよいアウトプットを得るために、要因となる要素の最適値は何か、そのためには何をどう改善したらよいか等の検討につなげることもできます。

このようなメリットから、散布図は主に製造業で使われるQC(品質管理)7つ道具の1つに入っています。最近では品質管理だけでなく、設計、生産、購買や経理でも便利なツールとして使われています。

 

散布図の作り方

散布図との概要と作る目的を紹介しました。ここからは実際に散布図を作る手順について解説します。

相関関係のある2つ以上のデータを用意する

散布図を作るために、まず相関関係を確認したい2種類の数値データを用意します。2種類のデータを、散布図の横軸と縦軸に割り振りましょう。この時、2種類のデータに原因と結果の関係があることが分かっている場合は、原因を横軸、結果を縦軸にしてください。

例えば、年間日照時間と年平均気温のデータであれば、年間日照時間を横軸、年平均気温を縦軸にします。プロットするデータ数は少なすぎると相関関係を確認するのが難しくなるため、分析の精度を上げるためにはデータ数を増やすことを検討してみてください。

最低値と最大値から適正な数量を決める

データを用意したら、次はすべてのデータを1つずつプロットするためのグラフを作成します。縦軸と横軸にそれぞれのデータの単位で目盛りを振ります。縦軸は上に大きい値、横軸は右に大きい値となるようにしてください。プロットしたいすべてのデータが収まるように、縦軸と横軸それぞれのデータの最小値と最大値を確認して、適正な目盛りの範囲を決めます。

先ほどの身長と体重の例だと、もし身長の最小値が145cm、最大値が170cmであれば、身長の軸は140cmから175cmまでを5cmごとの目盛りで設定します。同様に、体重の最小値が38kg、最大値が56kgであれば、体重の軸は35kgから60kgまでを5kgごとの目盛りにします。目盛りの最小値と最大値は、データの最小値と最大値より少し余裕をもって設定すると、グラフが見やすくなります。

プロットを打っていく

散布図の縦軸と横軸、それぞれの目盛りの設定ができたら、データを1つずつプロットしていきます。データの横軸の値と縦軸の値を1つずつ確認し、交差する部分に点を打ちます。プロットが重なる場合は、横に少しずらしてプロットしたり、二重丸や三重丸を使用したりして、重なっていることがわかるように工夫しましょう。

目的や計測期間などを記入する

すべてのデータのプロットを打ち終えたら、その散布図を作成した「目的」やデータの「計測期間」、「記録者」などを記入します。「目的」は図のタイトルに記載すると目に入りやすく理解しやすくなります。

また、その散布図の理解を深めたり精査したりする場合に備えて、「計測期間」や「記録者」などを付属情報として記入しておくと、より丁寧で誰が見てもわかりやすく使いやすいグラフになります。出来るだけたくさんの情報を合わせて記入しておきましょう。

 

まとめ

散布図の概要と散布図でわかること、散布図を作る目的を紹介し、実際に散布図を作る手順を解説しました。

数値データの羅列では見つけられないデータ間の関係性が、散布図を使えば可視化されて直感的に把握しやすくなります。相関があるデータでは、散布図はその関係性の最適化を検討するツールとして使えます。一方相関なしと思われていたデータでも、散布図にしてみると相関関係が発見されることもあり、新たな検討の切り口を得らます。

このように、散布図はデータ分析で使いやすく大変便利なツールです。ぜひ利用してみてください。

 

この記事の執筆・監修者
Aidiot編集部
「BtoB領域の脳と心臓になる」をビジョンに、データを活用したアルゴリズムやソフトウェアの提供を行う株式会社アイディオットの編集部。AI・データを扱うエンジニアや日本を代表する大手企業担当者をカウンターパートにするビジネスサイドのスタッフが記事を執筆・監修。近年、活用が進んでいるAIやDX、カーボンニュートラルなどのトピックを分かりやすく解説します。

仕事カテゴリの最新記事