データ品質管理は「やりすぎない」ことが肝要

DMBOK(Data Management Body of Knowledge)において、「データ品質管理」は最もわかりやすく、現場の理解を得やすいナレッジエリアの一つです。
実際、「データの品質を上げる」というフレーズは経営層にも受け入れられやすく、データマネジメント施策の象徴として掲げられることが少なくありません。しかし、その分かりやすさゆえに、思わぬ落とし穴に陥るケースもあります。
真面目にやりすぎると「割に合わない」
データ品質管理は、真摯に取り組もうとすればするほど、膨大な労力と時間が求められる活動です。
ところが、頑張った分だけ成果が得られるとは限らず、「大変だった割に、目に見える効果が乏しかった」という結果に終わることも少なくありません(これ以上汚れないように予防的措置を講じたことが成果と言えるのですが)。
では、どうすればよいでしょうか?答えは、「濃淡をつけること」。つまり重要なデータに絞ってメリハリをつけて取り組むという考え方です。
昨年末にリリースされた『データ品質管理プロジェクト実践ガイド(Danette McGilvray著、日経BP)』でも、「ビジネスが関心を寄せるものだけに時間を費やすことが肝要である」と解説されています。
フォーカスすべきは「ビジネスに直結する重要なデータ」であるが・・・
一般的には、以下のようなデータにフォーカスすることが推奨されます。
- 経営層がモニタリングするKPIの算出に用いるデータ
- 行政への報告や、対外的に公表されるデータ
これらは「間違いがあってはならないデータ」であり、品質確保の優先度が高いことは明らかです。
しかし、私が所属するDAMA日本支部のデータ品質分科会では「皆が思いつくような重要なデータは既にデータが高品質に維持されているのではないか」といった議論がなされました。
というのも、こうしたデータは日頃から厳しく監視されているケースが多く、 すでに一定レベルの品質が担保されていることも少なくありません。そのため、更に労力をかけても改善のインパクトが小さいということが起こり得るからです。
「汚れの度合い」も考慮に入れる
重要なのは、データの重要度や利用頻度に加えて、「実際にどの程度汚れているのか?」という観点も考慮することです。この観点も合わせて品質管理のスコープを設定することが、より現実的かつ効果的な方法です。この「汚れ度合い」を調査する活動が、いわゆる『データプロファイリング』です。
データプロファイリングでは、「このデータに問題があるのではないか?」という仮説を立てたうえで、実際にデータの内容を分析します。しかし、分析を進める中で、仮説を立てたデータに実際には何の問題も見つからないケースも少なくありません。こうした場合、ビジネスに関する知識やデータの運用実態について十分に理解していないと、どこに問題があり何が原因なのかを適切に判断することができません。
想定外の汚染:社員数データの落とし穴
例えば、「グループ社員一人当たりの利益額」が想定より低く出ているとします。多くの人は利益額を構成する「売上」や「費用」の精度を疑うかもしれません。
しかし、実際には社員数の定義に問題があった、ということもあります。たとえば、社員マスタに登録されている人数には、正社員だけでなく、アルバイトや協力会社のスタッフまで含まれていた場合、本来分母に入れるべきでない人までカウントされていた、ということが起こり得ます。こうした見落としが誤った分析や判断を引き起こす原因となるのです。
本質的なデータ品質改善に求められること
データ品質を正しく維持するためには、単なる値のチェックにとどまらず、ビジネスルールの深い理解と、現行のデータ管理プロセスに対する洞察が不可欠です。
たとえば、マスタデータの存在確認や、桁あふれ、想定外の区分値の入力チェックといった基本的な活動は比較的取り組みやすいものです。しかし、データ品質を通じてビジネスに本格的に貢献するためには、データの背後にあるビジネス構造や運用実態を正しく捉えることが重要です。これは決して容易な作業ではありませんが、こうした取り組みこそが本質的なデータ品質の向上に直結するのです。
さらに学びたい方へ:『データ品質管理プロジェクト実践ガイド』
冒頭でご紹介した『データ品質管理プロジェクト実践ガイド』では、10ステップによるアプローチが解説されており、DMBOKよりもさらに実務的・具体的な視点で、以下のようなテーマが扱われています。
- ビジネスニーズの把握
- データ品質プロファイリングの手法
- ビジネスインパクトの評価
- 根本原因の特定
これからデータ品質管理に取り組む方、またはすでに取り組んでいるが壁にぶつかっている方にとって、大いに参考になる内容です。ぜひ一読をおすすめします。