データ整備の定義

「データ整備」の定義

「データ整備」とは、データが集約されてから、分析に用いられるまでのプロセスにおいて行われる、以下の4つの仕事の総称を指す。

なぜこの4つでまとめて1つの枠組みにしたかについては個々の仕事の説明の後に述べる。

分析に必要なデータを取り出す仕事である。必要なデータが不足している場合には、以下のような関連作業も含まれる。

抽出担当者が分析者とは別の場合、抽出の仕事は要求に基づいており、迅速かつ正確なデータを提供することが求められる。

要求が必ずしも正確・適切とは限らないので、より適切な内容を抽出担当者から提案したり、分析にそぐわない内容を削ることを提案したりすることもある。さらに、優先順位やデータの状況に応じて「いつまでに何をやるか」をすり合わせるコミュニケーションも必要になる。

抽出の際に集計という"分析"の最初の段階が入ることがあって混同されがちだが、分析の手前の話である。ダッシュボードの作成は、基本的には「抽出」のアウトプットの1つの形だと考えていい。

その名の通り生のデータを整形する仕事のことである。代表的な内容は以下の通り。

ここでいう「不適切な値の修正」とは、エラーにはならないので動くがそのままだと不都合が起きるので整理しておくと良いこと全般を指している。詳しくは整理の仕事についてまとめる。

年齢を例にあげると、マイナスが含まれている際にNULL化や-1への変換などを行う。

整理をやり過ぎると手間とコストに対して見返りは少ないので塩梅が難しい。DWHやデータマートは整理した結果の1つの形式なので、名前にこだわる必要はない。

求めるデータの品質のレベルを決め、そのレベルが保たれているかを監視する仕事である。チェックに引っかかったら直すのは「整理」の役割となる。

使いやすさには絶対的な指標は存在せず、利用者の要件に応じた基準設定が求められる。

個別に監視するのは無理なのでツールでまとめて行いたいところだが、まだ一部のことしかできてないようだ。あらゆる項目を望むレベルで自動的にチェックできる仕組みができるようになるまでは人力で目検チェックはなくならないだろう。

メタデータを残すこと。メタデータとは「データについてのデータ」。あるカラムがあったとして

などなど、項目を書き出すときりがない。そのため記録の仕事もやろうと思えばいくらでも時間を使えてしまうが、どこまで記録したら十分なのかを客観的に評価する術がないのが悩ましい。

また、有志による一時的な活動に留まってしまうことを避けるため、個人ではなく組織として記録しメタデータを残すための仕組みを考えるところまでを含めた仕事としてとらえておきたい。