抽出の方針を決める

抽出を実行する前に方針を決める

何も考えずにツールをいじったり、いきなりSQLを書き始めても、必要なデータにたどり着けない。

抽出を実行する前に、まず方針を決める必要がある。その際、基本は次の2つだ。

  • 知りたいことに対しての制約は一切考えない
  • 必要なデータは何かを決める

知りたいことに対しての制約は一切考えない

データがあるからといって、やみくもに触っても有用な結果は出ない。まず「知りたいこと」に答えるために必要なデータを特定する。

この時、コスト、形式、いま手元にあるか、データが存在するのかなどは最初は一切考えない。最終的に手元にあるデータで何とかする、に落ち着くことは多いが、最初からそれを選ぶ理由はない。

既存のデータや従来の測定方法にとらわれる必要もない。「今まで誰も測定したことがない指標」「全く新しい収集方法」「これまで組み合わせたことがないデータソース」なども含めて、理想的には何が必要かを考える。

「データ」というと、テーブル型データや数値データだけを考える人も多いがそれでは範囲が狭すぎる。センサーで測定可能な物理現象、人間の生体反応、リアルタイムの環境変化、未来の予測データなど、あらゆる情報を候補として検討する。

重要なのは「どのようなデータか」ではなく「知りたいことのために必要なデータは何か」を念頭におくことだ。

必要なデータは何かを決める

必要なデータを具体的に考える際は、次の4つの軸で整理する。

  • 対象(誰・何を)
  • 内容(何を測る/取得する)
  • 条件(時間:期間・集計単位、精度・詳細度、範囲:特定カテゴリやステータスなどの制約)
  • アウトプットの形(最終的にどういう形で出すか)

以下の例を見るとわかるように、「知りたいこと」によって内容は異なるが、基本は同じである。

ただし、「昨日の売上金額は?」といった単純な数値確認レベルであれば、ここまで整理する必要はない。

ユーザーの行動パターンを知りたい

  • 対象:地域別、商品カテゴリ別、ユーザー単位
  • 内容:売上、コンバージョン率、離脱率
  • 条件:日別/月別などの期間区切り(○年○月〜○年○月)、特定カテゴリのみ、特定ステータスのみ
  • アウトプットの形:棒グラフ、クロス集計表、サマリーデータ

効果的なキャンペーン手法を知りたい

  • 対象:業種・業界(食品、アパレル、ITサービス)、企業規模(大企業/中小企業/スタートアップ)
  • 内容:成果・効果(売上増加率、SNS反応数、来店者数など)
  • 条件:テーマ(SNSキャンペーン、リアルイベント、タイアップ広告)、実施期間、特定規模以上の企業のみ
  • アウトプットの形:事例一覧表、効果指標の比較グラフ

顧客の意識・ニーズを知りたい

  • 対象:対象者条件(年代、居住地、職業)
  • 内容:回答結果(数値データ、自由記述テキスト)
  • 条件:設問やテーマの範囲、回答形式(選択式/自由記述)、調査実施期間、特定条件に合致する回答のみ
  • アウトプットの形:回答分布グラフ、テキストマイニング結果

商品・サービスの視覚的特徴を知りたい

  • 対象:対象の種類(製品写真、監視カメラ映像)
  • 内容:画像・動画本体、メタデータ(GPS情報など)
  • 条件:解像度、撮影日時、特定シーンのみ、特定フラグが付いているもの
  • アウトプットの形:分類精度レポート、物体検出結果の一覧

顧客の声・評判を知りたい

  • 対象:発信者・媒体別(SNS投稿、レビュー、問い合わせ内容、社内文書)、対象商品・サービス
  • 内容:投稿内容、感情・評価、頻出キーワード、文章の構造や長さ
  • 条件:投稿・作成期間、全文/要約、言語、特定ハッシュタグ・キーワード、特定評価レンジ(★4以上など)
  • アウトプットの形:ワードクラウド、感情分析結果、テーマ別分類表

競合他社の動向を知りたい

  • 対象:競合企業別、業界別、サービス・製品別
  • 内容:価格設定、機能・サービス内容、マーケティング手法、業績指標
  • 条件:調査期間、企業規模、特定地域・市場のみ、公開情報のみ
  • アウトプットの形:競合比較表、ポジショニングマップ、トレンド分析

市場の規模・成長性を知りたい

  • 対象:市場別、地域別、セグメント別
  • 内容:市場規模、成長率、シェア、参入企業数
  • 条件:予測期間、特定業界のみ、B2B/B2C区分
  • アウトプットの形:市場規模推移グラフ、成長予測チャート

システム・サービスの稼働状況を知りたい

  • 対象:システム別、機能別、時間帯別
  • 内容:稼働率、レスポンス時間、エラー発生状況、利用者数
  • 条件:監視期間、ログレベル、特定機能のみ
  • アウトプットの形:ダッシュボード、アラート一覧、パフォーマンス推移

社内の業務効率・生産性を知りたい

  • 対象:部署別、プロジェクト別、個人別
  • 内容:作業時間、完了率、品質指標、コスト
  • 条件:集計期間、特定業務のみ、役職・経験年数
  • アウトプットの形:効率性ランキング、改善提案レポート