分析フレームワーク(2-4)データを整理する
データの系統図(ツリー)が出来上がったら、次は整理をします。
すでにあるデータの整理。
これから集めるデータの整理です。
データとリーフ
系統図(ツリー)の一番左端はリーフと呼ばれます。
1つのリーフに1つのデータが対応します。
場合によってはリーフ以外にもデータが対応します。
例えば、リーフを基に集計・計算される場合などです。リーフでない売上データはリーフである売上点数と売上単価で求められる。
少なくともリーフにはデータが対応します。
データの整理でやる3つのこと
ここでは、次の3つのことを実施します。
- すでにあるデータを整理する
- これから集めるデータを考える
- これから集めるデータの粒度を考える
先ずは、すでにあるデータを整理します
すでにあるデータを系統図(ツリー)に当てはめてみましょう。
すでにあるデータを当てはめると、足りないデータが分かります。
こらから集めるデータを考える
意外と集めるデータが多いと感じるかもしれません。
スケジュールを立てるときに取捨選択します。
出来れば足りないデータを全て集めたい。
実際は全てのデータを集めることはできません。
ここでは、もし仮に集めるならば「どのようなデータを集めるのか?」を考えます。
あわせてデータの粒度(細かさ)も考えます
分析上、データの粒度は細かいほど嬉しいです。
粒度の細かいデータから粒度の粗いデータを求めることは出来ます。
逆は無理です。
粒度の粗いデータから粒度の細かいデータを求めることは出来ません
例えば、月ごとの売上データを合計すれば年ごとの売上データを求めることが出来ます。
その逆は無理でしょう。
年ごとの売上データから月ごとの売上データを求めることは出来ません。
データの系統図(ツリー)が変わる
データを整理する過程でデータの系統図(ツリー)が変わることがあります。
変わっても問題ありません。
メッセージボードと同様にデータの系統図(ツリー)も進化します。
より完成度の高い系統図(ツリー)を目指しましょう。
タグ:データ分析, データ分析フレームワーク, 分析フレームワーク