分析フレームワーク(3-2) セカンダリーデータから集める
誰が集めたデータかで2種類あります。
- プライマリーデータ: 自ら企画して集めたデータ
- セカンダリーデータ: 既にある他人が集めたデータ
プライマリーデータにはプライマリーデータの良さがあります
セカンダリーデータにはセカンダリーデータの良さがあります
プライマリーデータ
プライマリーデータは、自ら企画して集めたデータです
そのため欲しいデータが集められやすいです
しかし、データを集めるのに時間と費用がかかります
- アンケートであれば欲しいデータを取得するための質問票の設計から始めます
- 購買履歴データであれば欲しいデータを取得するためのシステム構築や改修などが絡んできます
- アクセス解析データであれば欲しいデータを取得のための設定が必要です
セカンダリーデータ
セカンダリーデータは、既にある他人が集めたデータです
すぐに手に入ります
費用もそれほどかかりません
セカンダリーデータだけで十分であればそれが一番です
- 時間の節約になります
- コストの節約になります
しかし、欲しいデータは集められません
他人が別の目的で集めたデータです
どこかずれています
セカンダリーデータは世の中に溢れています
インターネットで検索し出てくるデータの多くはセカンダリーデータです
辞書もセカンダリーデータです
セカンダリーデータだけで十分に分析は可能です
セカンダリーデータの代表は公的な統計データです
国から色々なデータが公表されています
参考になるデータも多いです
定量データであればe-stat(政府統計の総合窓口、http://www.e-stat.go.jp/)というインターネットサイトが非常に参考になります
他には、新聞などの記事もセカンダリーデータです
こちらは定性データになります
セカンダリーデータだけでは、本当に欲しいデータは発見できません
何かしら問題があります
- データが古い
- データが大雑把
- データの範囲がせまい(首都圏だけのデータなど)
欲しいデータと少しずれています
セカンダリーデータを使った分析をするとき、本当に欲しいデータとのずれを意識する必要があります
そのずれがデータ分析の結果に影響します
十分に気を付けましょう
より正確なデータならプライマリーデータ
したがって、より正確なデータが必要な場合にはプライマリーデータです
自ら企画してデータを取得します
上手く行けば欲しいデータを得られます
しかし、必ず欲しいデータが手に入るわけではありません
欲しいデータが手に入る可能性があるだけです
データを集めるための企画
データを集めるための企画がしっかりしている必要があります
- アンケートであれば適切な質問票の設計
- システムが絡んでいれば希望するデータが取得できるような設計や改修
- アクセス解析であればタグの設計や改修
そのために、どのようなデータが必要か?を明確にしておく必要があります
明確であれば、データを集めるための企画もしっかりしてきます
少なくとも明確でないよりは大分ましです
では、どうすれば明確になるのか?
明確にするには集めるデータのイメージがあると助かります
明確にするためにセカンダリーデータを使います
少なくともどのようなデータが集められるか分かります
プライマリーデータを集めるにしろセカンダリーデータを先ず集めることになります
つまり、どのようなデータを集めるにしろ、セカンダリーデータから集めます
タグ:データ分析, データ分析フレームワーク, 分析フレームワーク