データ整備ガイド

まえがき

「データ整備ガイド」作成の目的と背景
想定読者

第一部　データ整備とは何か、なぜ重要か

本書の目的と読み方

データ整備ガイドで得られること
関係者別のメリットと読み方ガイド
データ整備の全体像と構造（簡易マップ）

「データ分析」を理解する

データ整備の定義と位置づけ

実務におけるデータの流れ ‐ データ整備の位置づけ：集約と分析の間
「データ整備」が独立した仕事である理由
他領域との違い：DMBOK、データエンジニアリング、分析との関係

なぜデータ整備が必要なのか

整備を怠った場合のリスクと影響
失敗例・損失事例

データ整備に取り掛かる前に知っておくべき限界

データを使うのが先、整備するのはその後
いくらデータ整備をしても分析の能力は高まらない
分析リテラシーは別に育てる必要がある

第二部　データ整備の仕事

データ整備の4つの仕事の定義と概要

抽出

抽出の仕事の概要
抽出の方針を決める
抽出の優先度を決める
抽出を実行する
なぜ抽出の依頼のやり方を身に着ける必要があるのか
抽出担当者が依頼を受ける際の注意点
依頼を管理する

整理

整理の仕事の概要
データを“使いやすくする”とはどういうことか
整理で行うこと１・値レベルの整理（データの中身の標準化）
整理で行うこと２・構造レベルの整理（構造・設計の最適化）
整理で行うこと３・データを使うための環境の整理
整理の事例
- 年齢・年代の整理
- 日付・時間の整理
- 地域の統合・分類
- 商品やカテゴリの再定義
- 集計済サマリデータの作成
- 共通売上テーブルの作成
- 使われていないデータの棚卸
整理において共通して重要なのは「そろえる」こと
整理のためのSQL
整理対象の優先順位付け
分析やBIでの利用を見据えたDWH・データマートの設計
スキーマや仕様変更は早く掴む
生データを残す
BIツールでデータの整理はしない
特定のツールへの依存リスクはできるだけ回避する
整理する前の段階での解決を試みる
整理そのものが目的化していないか注意する
整理側から品質管理へのフィードバック
エンジニアとのコミュミケーション

品質管理

品質管理の仕事の概要
品質レベルはすべて利用を基準に考える
各チェック項目に「閾値（許容値）」を定義する
異常発見時の対応ルール（修正・通知・差し戻し）を決めておく
自動チェックが基本、人力は例外対応
過剰品質になっていないかに注意する
業務フローや入力ルールの変更に関与する
共通的に必要な設計・運用
- 各チェック項目に「閾値（許容値）」を定義する
- 異常発見時の対応ルール（修正・通知・差し戻し）
- 自動チェック＋ログ記録が基本、人力は例外対応
- チェック内容のバージョン管理（過去チェックとの比較）
- チェック自体の整備漏れ・陳腐化にも注意
入力時点の品質チェック項目の例
整理後の品質チェック項目の例
出力時点の品質チェック項目の例

記録

記録の仕事の概要
メタデータとは何か
メタデータの例
メタデータを書く意味を明確にする
書くべきメタデータ項目を押さえる
メタデータを記録する優先順位をつける
書く場所・書き方を決める（ツール／フォーマット）
書く人と、責任の所在を明確にする
書くタイミングと更新ルールを決める
どこまで書くかの線引きをする（最低限の必須項目）
管理基盤を選ぶ
属人化を防ぐ
テンプレートや運用ルールを整備する
自動取得と手入力をどう使い分けるか
形骸化を防ぐ仕組みを持つ
組織としての活動にすることの重要性
活用してもらえるメタデータとは
- 使う人の視点で整理されている（分析者・業務ユーザーが見てわかる）
- 動作が軽い
- 探しやすい（検索性／分類／依存関係の整理）
- 情報が古くない（更新日記載／スナップショット比較）
- フォーマットが統一されている（表現ブレ・表記ゆれがない）
- 活用事例が添えられている（この定義は〇〇レポートで使われている）

第三部　データ整備の実践

データ整備と密接にかかわる仕事の知識を得る

生成
獲得
評価
集約
分析
法務
セキュリティ

データ整備におけるルール作りと合意形成

命名規則や保存場所のルール
更新権限とレビュー体制
データ変更の合意プロセス
運用を定着させるために必要なこと

データ整備プロジェクトの立ち上げ方

小さく始める（1チーム・1指標）
成果の見える化
他部門への展開と抵抗への対応 ‐ 経営層の理解を得る
整備の効果をどう可視化するか

データ整備のアンチパターン

気にしない
誰も使わない
属人化
ブラックボックス化
みんなでSQL
若手に押し付け
現場任せ
外注に丸投げ
内製化にこだわる

第四部　組織の中でのデータ整備

データ整備を分担する

データ整備の役割分担
データ整備をする人の呼称
データ整備をする人の位置づけ
エンジニアとの分担における課題
分析する人との分担における課題
ビジネス部門との連携における課題
データの民主化について考える
データの民主化をせざるを得ないときの折り合いのつけ方

データ整備を関係者に説明する

経営者
ビジネス部門
分析者
エンジニア
データ整備担当

データ整備人材を内製化する

採用
育成
キャリア
評価
内製化が難しい理由と対策

データ整備を外注する

外注する対象の判断基準（整備全体か一部か）
外注時の注意点（属人化／仕様伝達／品質保証）
委託先との契約・SLA設計
内製とのハイブリッド体制

データ整備の価値を現場に浸透させる

整備の価値を現場に定着させる
整備の成果を現場が実感できる形にする
整備内容の共有・教育・フォロー体制を設ける
経営層が後押しする

データ整備の投資と説明責任

整備コストはどこまで許容されるのか
投資対効果の説明方法
無駄な整備の見極め方

第五部　データ整備のいままでとこれから

データ整備の現状
データ整備のこれから
生成AIとデータ整備

補章　実務で役立つ参考情報

整理・品質チェックSQLテンプレ集
メタデータ記録用スプレッドシート雛形
抽出仕様書テンプレート
整備対象の棚卸フォーマット
整備スプリントのWBS

あとがき

参考文献