データ分析プロセスの概要と収集フェーズにおける課題
意思決定と分析のプロセス:8つのフェーズ
「データ分析」という言葉はしばしば、集計や機械学習のような処理作業だけを指して使われがちだが、実際にはもっと広い範囲を含んでいる。
本来のデータ分析とは、意思決定のために情報を得て活用するまでの一連の流れであり、単発の作業ではなくプロセスである。
このプロセスは、大きく以下の8つのフェーズに分けて整理できる。すべてのフェーズがつながっており、どれかが欠けると機能しない。
また、関係者の役割や状況によって各フェーズにかかる負荷も異なるため、全体像を把握しておくことが欠かせない。
なお、「分析」という言葉が使われる場合、その意味は文脈によって異なる。広義にはこの8フェーズすべてを指すが、狭義には「処理」と「洞察」のみに限定される。
とりわけ注意すべきは、「処理」に偏って「洞察」が抜け落ちるケースである。たとえばダッシュボードの作成や数値の集計など、「何が起きたか」を並べただけでは、意思決定の材料にはならない。
原因や傾向、今後の展開を見立てる「洞察」こそが、意思決定を支えるインテリジェンスとしての価値を持つ。
8つのフェーズの概略は以下の通り。
- 目的の決定:何を知りたいかを明確にする。ここが曖昧だとすべてが無駄になる。
- 要求:意思決定者のニーズを分析者が理解し、答える枠組みを設計する。
- 収集:必要なデータを手に入れる。現実には不足・欠損・汚れ・コストなど多くの制約がある。
- 処理:集めたデータを整形・加工する。まだ「情報」にはなっていない段階。
- 洞察:加工データをもとに理由や傾向を読み取り、意思決定に使える「情報」にする。
- 伝達:得られた情報を適切な形で届ける。内容以上に「タイミング」が鍵となる。
- 意思決定と実行:判断を下し、行動に移す。動かないという選択も含まれる。
- フィードバック:プロセス全体を振り返り、次回に活かす。ここまでやって初めて完結する。
収集フェーズにおける主課題:「データが手に入らない」
収集フェーズの最大の課題は「欲しいデータが手に入らない」。これに尽きる。
この課題は、以下の2つに分類できる。
データがそもそも存在しない
- 業務として記録されていない
- 過去は保存していなかった(ログの保存期間が短い等)
- 欲しい単位・粒度でそもそも作られていない(例:日次が必要だが月次しかない)
- 不可視なプロセスに依存している(例:人的判断、電話対応、口頭依頼)
この場合、データは「作られていない/残っていない」ため、今すぐ分析に使うことはできない。
対応策は、大きく分けて2つある。
-
将来に向けて記録ルールを整備する/仕組みを変える
今後のためにログを残す、記録粒度を見直す、システム改修を行うなどの対応。 -
必要になってから取得を開始する
ただしこの場合、過去にはさかのぼれないため、意思決定や評価を後ろ倒しせざるを得ない。
データは存在するが手元にない
- 他部署・ベンダーが管理していてアクセスできない
- 申請・承認が必要でスムーズに取得できない
- APIやデータ連携の仕組みが整っていない
- 特定の担当者に依存しており属人化している
- データ形式や保存場所がバラバラで見つけられない
- 外部データで費用がかかるため取得を断念せざるを得ない
この場合、「あるのに取れない」という構造になっており、技術的・組織的な対応が求められる。
観点のまとめ
このように、「データが手に入らない」原因は単純ではなく、
存在の有無と、アクセス可能性という2段階に分けて捉える必要がある。
多くの現場で、「存在する前提で話を進めて詰まる」ことが非常に多い。
だからこそ、分析に入る前に、「データは本当にあるのか」「アクセスできるのか」という
基本的かつ重大な確認を徹底する必要がある。
プロセスと料理:収集フェーズは「食材の準備」である
データ分析のプロセスは、料理を作るプロセスに例えると直感的に理解しやすい。
- 目的の決定:何を作るかを決める(例:カレーを作る)
- 要求:どんな味・量・材料が求められているかを確認する(辛口?何人分?)
- 収集:必要な食材を集める(買い出し、冷蔵庫チェック)
- 処理:下ごしらえや調理(切る、煮る、炒める)
- 洞察:味見して調整する(なぜ辛い?薄い?改善点は?)
- 伝達:料理を盛り付けて提供する
- 意思決定と実行:食べて判断する(おいしい、次はこうしよう)
- フィードバック:食べた人から感想をもらう、次回への改善
この中でも、収集フェーズ=食材の準備は、軽視されがちだが失敗の原因になりやすい。
- 肉が足りなかった → ボリューム不足
- 野菜が傷んでいた → 仕上がりが悪くなる
- 調味料がなかった → 味が決まらない
- スーパーが閉まっていた → 作ることすらできない
データ分析でも同じだ。必要なデータが無い、汚れている、遅れて届く、形式がバラバラ、コストがかかりすぎる…こうした問題は、まさに「材料が揃っていない状態」であり、いくら腕の良い料理人(分析者)がいてもまともな料理(分析結果)は作れない。