整理で行うこと1・値レベルの整理(データの中身の標準化)
値レベルの整理とは
値レベルの整理とは、データの「中身」そのものに対して直接手を加える作業のことを指す。
分析や可視化に進む前段階として、もっとも基本でありながら影響が非常に大きい。
ここが不十分だと、分析のたびにデータの定義を調べ、調整し、整理しなければならない。結果として分析を行う時間が大きく削られるだけでなく、間違ったデータを使ってしまうリスクが高まる。
なお、本節では全体を俯瞰し、日付、住所、金額などの個別項目については別途整理する。
欠損と異常値の処理
データが存在しない・おかしい・極端という状態への対処。NULL、擬似欠損、統計的外れ値、固定値、業務上の不正値などを含む。
NULLの処理
NULLを「未回答」か「0」と扱うか判断が必要となる。意図によって除外・変換・維持のいずれかを選択する必要がある。
- 例:NULLを「0回」と解釈するか、「未回答」として除外するかの判断
欠損の処理
空欄・記号・異常文字列などの擬似欠損は、NULLとは異なる扱いが必要。適切に検出し、明示的な欠損として処理する。
- 例:CSVで取り込んだデータに「-」が欠損として混入している
異常値の検知と処理
統計的に極端な値や明らかな入力ミスを検出し、除外または保留する。業務的妥当性や分布に基づいて対応する。
- 例:「年齢」が「999」「-1」などの異常値
意図しない固定値・単一値の検出
すべてのレコードが同じ値で埋まっているカラムは、入力ミスや初期値固定の可能性がある。事前に分布を確認して対応する。
- 例:「申込日」が全件「2023-01-01」
浮動小数点の精度誤差の処理
コンピュータ内部での浮動小数点演算では、正確に表現できず誤差が生じる。丸めや整数化などの対処が必要。
- 例:amount = 100.0000001 と 100.0 が別扱いになる
ビジネスロジックとの整合性チェック
年齢上限や売上の下限など、業務ルールと明らかに矛盾する値を検出して排除する。業務担当者とのすり合わせも重要。
- 例:「年齢」が150歳、「売上」が-1000円
型・表現・単位の統一
分析可能な形式に統一するための変換処理。型、単位、表記揺れ、エンコーディングの不一致を整備する。
型の統一
文字列型と数値型、日付型などの混在は分析を阻害するため、明示的に正しい型へ変換する。
- 例:「2024/01/01」が文字列として格納されている
単位・スケールの統一
円と千円、メートルとキロメートルなどのスケール混在は集計時の誤差につながる。基準単位に揃える。
- 例:売上(円)と売上(千円)が混在
表記の統一
同一カテゴリを示すにもかかわらず、表記揺れが存在する場合は統一する必要がある。全角半角や略称なども対象。
- 例:「東京」「東京都」「TOKYO」の表記統一
- 例:「〇」「1」「はい」「YES」などが、同じ「有効」を表す値として混在している
エンコーディング・文字化けの検出
文字コードの不一致によって発生する文字化けは、人間でないと気づきにくい。事前に確認し、修正・除去する。
- 例:「顧客名」に「��」が表示される
意味付けと変換処理
データに意味を与えるための補足処理や変換。分析上のカテゴリ定義や意味の明示を行う。
コード変換・説明付与
数値や記号などのコードに意味を付与することで、可読性と分析のしやすさが向上する。マスタ参照を活用する。
- 例:「性別 = 1」→「男性」
カテゴリの再分類
分類の粒度が粗すぎる・細かすぎる場合に、分析目的に応じて適切な単位へ再定義する。
- 例:「職業」100分類 → 「職種」10分類に集約
区分やフラグの作成
分析や可視化の効率化のために、業務ルールに基づいた新たな区分・フラグを追加する。
- 例:「初回購入者フラグ」「高額商品区分」
重複・ユニーク性の担保
同一データの重複排除や一意性の保証を行う。主キー重複だけでなく、業務的重複も対象となる。
重複の排除・ユニーク化
同姓同名や同住所など、業務的に重複と見なされるレコードを検出し、排除・マージ処理を行う。
- 例:同姓同名・同住所の重複顧客
構成最適化と情報整理
必要なデータを絞り、扱いやすい粒度に変換する。分析前の整理や集約処理として重要。
値の集計
詳細なデータを分析単位に応じて集約することで、処理負荷の軽減や視認性の向上を図る。
- 例:商品明細を顧客単位で合計
カラムの絞り込み
分析に不要な列や冗長な情報をあらかじめ除外しておくことで、作業効率や品質が向上する。
- 例:「操作端末名」などを削除
一貫性・整合性の確保
データ内部の整合・一貫性や更新タイミングの正当性を検証する。時系列や相互関係の確認も含む。
論理整合性の検証と補正
項目間の論理的な整合(例:時系列、前提関係など)が成立しているかを検証し、不整合を修正する。
- 例:「注文日」が「出荷日」より遅い
一貫した更新日の付与
複数テーブルやファイルに分かれたデータで、共通の更新基準日を付与・整備する。
- 例:各データの更新日を「2024-05-01」に揃える
時系列的整合性と値の鮮度確認
履歴データやスナップショットデータにおいて、時間整合や情報鮮度を確認し、最新かどうかを把握する。
- 例:「更新日」が「登録日」より古い
- 例:「最新」とされるデータが実際には1年前のもの
個人情報と機密性の対応
プライバシーや機密性に関わる情報を適切に処理する。マスキング、匿名化、削除などが対象となる。
個人情報や機密情報の処理
個人情報(氏名・電話番号・住所等)や業務上の機密データは、過剰な保持を避け、目的に応じて加工・削除する。
- 例:「電話番号」の下4桁だけ残す