整理で行うこと1・値レベルの整理(データの中身の標準化)

値レベルの整理とは

値レベルの整理とは、データの「中身」そのものに対して直接手を加える作業のことを指す。
分析や可視化に進む前段階として、もっとも基本でありながら影響が非常に大きい。

ここが不十分だと、分析のたびにデータの定義を調べ、調整し、整理しなければならない。結果として分析を行う時間が大きく削られるだけでなく、間違ったデータを使ってしまうリスクが高まる。

なお、本節では全体を俯瞰し、日付、住所、金額などの個別項目については別途整理する。

欠損と異常値の処理

データが存在しない・おかしい・極端という状態への対処。NULL、擬似欠損、統計的外れ値、固定値、業務上の不正値などを含む。

NULLの処理

NULLを「未回答」か「0」と扱うか判断が必要となる。意図によって除外・変換・維持のいずれかを選択する必要がある。

  • 例:NULLを「0回」と解釈するか、「未回答」として除外するかの判断

欠損の処理

空欄・記号・異常文字列などの擬似欠損は、NULLとは異なる扱いが必要。適切に検出し、明示的な欠損として処理する。

  • 例:CSVで取り込んだデータに「-」が欠損として混入している

異常値の検知と処理

統計的に極端な値や明らかな入力ミスを検出し、除外または保留する。業務的妥当性や分布に基づいて対応する。

  • 例:「年齢」が「999」「-1」などの異常値

意図しない固定値・単一値の検出

すべてのレコードが同じ値で埋まっているカラムは、入力ミスや初期値固定の可能性がある。事前に分布を確認して対応する。

  • 例:「申込日」が全件「2023-01-01」

浮動小数点の精度誤差の処理

コンピュータ内部での浮動小数点演算では、正確に表現できず誤差が生じる。丸めや整数化などの対処が必要。

  • 例:amount = 100.0000001 と 100.0 が別扱いになる

ビジネスロジックとの整合性チェック

年齢上限や売上の下限など、業務ルールと明らかに矛盾する値を検出して排除する。業務担当者とのすり合わせも重要。

  • 例:「年齢」が150歳、「売上」が-1000円

型・表現・単位の統一

分析可能な形式に統一するための変換処理。型、単位、表記揺れ、エンコーディングの不一致を整備する。

型の統一

文字列型と数値型、日付型などの混在は分析を阻害するため、明示的に正しい型へ変換する。

  • 例:「2024/01/01」が文字列として格納されている

単位・スケールの統一

円と千円、メートルとキロメートルなどのスケール混在は集計時の誤差につながる。基準単位に揃える。

  • 例:売上(円)と売上(千円)が混在

表記の統一

同一カテゴリを示すにもかかわらず、表記揺れが存在する場合は統一する必要がある。全角半角や略称なども対象。

  • 例:「東京」「東京都」「TOKYO」の表記統一
  • 例:「〇」「1」「はい」「YES」などが、同じ「有効」を表す値として混在している

エンコーディング・文字化けの検出

文字コードの不一致によって発生する文字化けは、人間でないと気づきにくい。事前に確認し、修正・除去する。

  • 例:「顧客名」に「��」が表示される

意味付けと変換処理

データに意味を与えるための補足処理や変換。分析上のカテゴリ定義や意味の明示を行う。

コード変換・説明付与

数値や記号などのコードに意味を付与することで、可読性と分析のしやすさが向上する。マスタ参照を活用する。

  • 例:「性別 = 1」→「男性」

カテゴリの再分類

分類の粒度が粗すぎる・細かすぎる場合に、分析目的に応じて適切な単位へ再定義する。

  • 例:「職業」100分類 → 「職種」10分類に集約

区分やフラグの作成

分析や可視化の効率化のために、業務ルールに基づいた新たな区分・フラグを追加する。

  • 例:「初回購入者フラグ」「高額商品区分」

重複・ユニーク性の担保

同一データの重複排除や一意性の保証を行う。主キー重複だけでなく、業務的重複も対象となる。

重複の排除・ユニーク化

同姓同名や同住所など、業務的に重複と見なされるレコードを検出し、排除・マージ処理を行う。

  • 例:同姓同名・同住所の重複顧客

構成最適化と情報整理

必要なデータを絞り、扱いやすい粒度に変換する。分析前の整理や集約処理として重要。

値の集計

詳細なデータを分析単位に応じて集約することで、処理負荷の軽減や視認性の向上を図る。

  • 例:商品明細を顧客単位で合計

カラムの絞り込み

分析に不要な列や冗長な情報をあらかじめ除外しておくことで、作業効率や品質が向上する。

  • 例:「操作端末名」などを削除

一貫性・整合性の確保

データ内部の整合・一貫性や更新タイミングの正当性を検証する。時系列や相互関係の確認も含む。

論理整合性の検証と補正

項目間の論理的な整合(例:時系列、前提関係など)が成立しているかを検証し、不整合を修正する。

  • 例:「注文日」が「出荷日」より遅い

一貫した更新日の付与

複数テーブルやファイルに分かれたデータで、共通の更新基準日を付与・整備する。

  • 例:各データの更新日を「2024-05-01」に揃える

時系列的整合性と値の鮮度確認

履歴データやスナップショットデータにおいて、時間整合や情報鮮度を確認し、最新かどうかを把握する。

  • 例:「更新日」が「登録日」より古い
  • 例:「最新」とされるデータが実際には1年前のもの

個人情報と機密性の対応

プライバシーや機密性に関わる情報を適切に処理する。マスキング、匿名化、削除などが対象となる。

個人情報や機密情報の処理

個人情報(氏名・電話番号・住所等)や業務上の機密データは、過剰な保持を避け、目的に応じて加工・削除する。

  • 例:「電話番号」の下4桁だけ残す