抽出の優先度を決める

抽出の優先順位を決めるためのステップ

最初に「この順番で進めれば結果にたどり着ける」と必要なデータの所在も含めて数ステップ程度で描けるぐらいの簡単な抽出であれば、プログラムを書き始めてトライアンドエラーで進める方が早いこともある。

そうでなければ、次のステップで、抽出する内容と優先順位を決める。

アウトプットに至るまでの大まかな流れを逆算して考える

スタートはデータではなく、アウトプットだ。「どんなデータを、どの順で扱えばそのゴールにたどり着けるか」を、アウトプットを起点に逆算して道筋を描く。

必要なデータが2〜3テーブル程度で、数ステップなら頭の中でも組み立てられるが、それ以上に複雑なら、紙でもメモでもどこかに書きながら整理した方がいい。

この段階で重視すべきなのは、細部ではなく全体の流れをつかむこと。

既存のデータやダッシュボードを調べる

基本的な指標であれば、誰かがすでに作って利用している可能性は高い。既存の集計やレポートが使いまわせれば、たとえ別のダッシュボードを作る場合でもデータを調べたりする手間が減る。

既存のデータがあっても、求めている定義と若干異なる場合がある。この場合は、既存の定義に合わせるのか、別に新しい指標を作るのかを検討する。新しい指標を作る場合は、リソース面だけでなく、指標を増やすことにガバナンス上の問題がないかも確認する。

必要なデータを特定する

流れをつかんだら、次に必要なデータを特定していく。

類似のデータを扱ったことがあり、所在に目途がつく場合は自分で調べる。同時にメタデータがあれば確認する。

それでも見つからない場合は関係者に問い合わせる。その際、欲しいデータを明確に言語化し、難しければ背景や知りたいことも一緒に伝えると協力が得やすい。

経験がない場合は、当てずっぽうでデータを直接見て確認するのは避ける。手間がかかるし、データを見ただけではわからない事も多いためだ。

例えば、ある商品の特定の日付けの売上がないのは、欠損なのか本当に売れていないのかはデータからだけでは判別できない。詳しい人に聞いたり過去のやり取りを探す必要が出てくる。

データが存在しない場合の対応を考える

データが存在しなければ、新たに生成するかを検討する。

これはすぐにできることもあれば、システム改修や機材導入が必要になることもあるため簡単ではない。

  • クリックが取れるようにタグを設定する
  • リサーチを実施する
  • 購入時にアンケートを行う
  • カメラを設置する
  • 書籍を購入する
  • 専門家にインタビューを行う

さらに、そのデータを分析環境で扱えるように集約し、「整理」する必要がある。時間もコストもかかるため、欲しいと思ってから対応しても間に合わないことは多い。また、過去に遡って取得できない場合もある。

こうした場合は、不正確でも別のデータの利用を検討する。場合によっては分析を諦めることになるかもしれない。

‐ 「自社製品と競合製品への消費者の印象」を次の企画のために使いたかった。しかし、今からアンケートを実施しても次の企画会議までに結果は揃わない。そこで外部の類似調査結果を探し、見つかればそれを参考に意思決定する。なければ、それ以外のデータで考える

  • 広告のクリック数が必要だったが、クリック計測の設定をしていなかった。計測の準備がないと過去に遡ってデータを取ることはできない。代わりに遷移先ページのログ参照元を使う方法もあるが、遷移先が外部サイトであればこの方法も使えない可能性が高い。

  • 専門家に直接詳しい話を聞きたいが、スケジュールがどうしても会わない。代わりに論文や著作からのみデータを得ることにする。

データは存在しているがアクセスできない場合の対応を考える

社内のデータならばアクセス権を申請するか、使える場所にコピーや移動をしてもらう。この場合は自力では対応できないので必ず依頼が必要になる。

社外のデータならば申し込み手続きを行う。通常、社内の場合とは違い、時間がより長くかかる。そのため、急ぎなどの柔軟な対応は難しいことに注意する。

データ品質を確かめる

整理は「品質が十分でないものを目的に応じてどこまで整えるか」を判断する段階。ここで求めるのは完璧ではなく、業務目的に対する必要十分の整理レベル。

欠損、重複、異常値、粒度の不揃いなど、必要なデータの品質をチェックする。必要に応じてメタデータを参照し、判断がつかない場合は関係者に確認する。

例えば、「10年分の売上データ」が必要だとして、すぐ取れるのは直近5年分のみ。それ以前は別の場所にアーカイブされており、体系も異なる、といったことを確認する。

マスタ利用時にも注意が必要だ。類似マスタが複数ある、新しいデータが反映されていない、SQLに値が直接書かれている。こうした状態は珍しくない。

整理にどれぐらいかかるのかを見積もる

ここからは、品質確認の結果を踏まえて「整理」の話になる。

  • パラメータ付きのURLしか残っていない場合は、URLからドメイン名を抜き出し、さらにサイト名を付与する。この時マスタを使う必要があれば、トップ5だけ対応すれば足りるのか、100件分必要なのか、より精緻な分類が必要なのかでマスタの更新や作成の手間が変わる
  • 10年分のデータを作るために、まず分析環境でデータを扱えるようにしてもらう。そのあと、現在の売上データにUNIONできるように型を合わせる。売上も以前は税込、現在は税抜で入っているのでその分の調整も必要になる

このような「整理」を行うために、具体的に何をしなければならないか、そのためにはどれぐらいのコストや時間がかかるかを見積もる。

目安としては、1種類の抽出に対して1時間程度かけて調べてもまったく予想がつかないようであれば、技術力が足りていないということだ。そのため現時点では自分で見積もりを立てるのが難しい。別の人に担ってもらうか、対応できるレベルまで品質を下げたほうがいい。

ただし、全社レベルで使われる売上データなど本当に重要なものであれば、時間をかけるのもやむを得ない。しかしそうでなければ、膨大な工数をかける前に、上司や同僚に相談して学習価値や優先順位を判断する。

挑戦する価値があるなら期限を区切って進める。それも難しければ、抽出を依頼する。他に担える人がいなければ、そのデータをあきらめることも含めて判断する。

何がいつまでに実現できそうかを見積もって優先順位を決める

整理の難易度や必要性が見えたら、次は優先順位を考える。抽出の優先順位を付けるために確認すべきことは以下のとおり。

ただし、いずれの判断基準も会社の規模、データへの期待度、関係者のリソース状況、分析と実行の優先順位など状況依存性が高い。そのため明確な基準を出すことはできず、随時調整することが望ましい。

  • 重要度

    • その分析がどれだけ重要な意思決定に影響するか
    • 経営戦略の意思決定向けか、終了したキャンペーンの知識を蓄積するためか
  • 手間や費用に見合うか

    • 重要度の低い少量のデータのために、大きな手間や費用がかかってしまわないか
  • 代替案があるか

    • 多少不正確でも、既存の抽出済データで代用できる可能性があるか
  • 「整理」の難易度

    • ステップ数や整理の内容の複雑さはどれぐらいか
    • 定義の確認や調整が必要か
    • マスタの定義・更新が発生するか
  • 待ち時間の発生

    • 抽出後の分析・意思決定・行動までを含めて、全体の流れにおける待機が発生するか
    • 例:データ移動・コピー、外部申込、抽出そのものにかかる時間
  • 他の抽出とまとめて対応できるか

    • 年齢と都道府県が同じテーブルにあれば同時抽出可能
    • ただし、都道府県から地方単位への変換などが必要なら、別作業になる可能性あり
  • 他の仕事との兼ね合い

    • 抽出作業のリソースが他業務に影響を与えないか
    • 技術力向上のための挑戦を認めるか

リスクや工数に対して成果が見込めない抽出は、この時点で外すかより簡易的なデータや方法で代替できないかを考える