海外のデータマネジメント専門家から学ぶ “Metadata Quality”(メタデータ品質)
2023年5月、ロンドンで開催された、データガバナンスのカンファレンスに参加した。全4日間、10の講演と25のセッションが実施された。どれも印象深く、日本にも広く伝えたいノウハウが多くあった。特に、David Plotkin氏による「メタデータ品質」の話が印象に残った。講演後、「メタデータ品質」についてwebで調べてみたところ、海外のサイトではいくつかの記事を見つけたが、日本では詳しく解説しているサイトはほぼ無かった。そこで、今回はこの「メタデータ品質」にスポットを当てて、皆さまにご紹介したい。
メタデータ品質(Metadata Quality)とは?
講演の中では明確な定義を述べていなかったが、その必要性については以下のように述べていた。
「データを適切に理解して使用し、正確な意思決定を行うには、高品質なメタデータが欠かせない。」
「メタデータの品質が必要とされるプロセスは、ガバナンスプロセス(リスク、規制、データ品質)である。」
つまり、メタデータ品質は、データの利活用やデータ品質の改善、及びセキュリティ保護やコンプライアンス対応の成功を握る鍵である、と言えそうだ。
また、講演の中では、データの仕様情報や意味定義の他に、以下もメタデータに含んで説明されていた。
・データ品質に関するメタデータ:データ品質ルール、データプロファイリング結果、データ品質測定結果、など
・データセキュリティに関するメタデータ:レポート区分(=リスクや規制の対象か否かを識別する区分)、など
・その他:データを使用するプロセス、メタモデル、など
では、これらメタデータの品質が低いと、どのような影響があるのか。それは、次の事例で説明されていた。
===========
ローンと担保の関係について、以下のデータ品質ルールがある。
「全てのローンは、担保が必要である」
このルールに基づいて、データ品質を調査したところ、合致率はわずか61%であった。
なぜこんなにも品質が低いのだろうか。実は、正しいルールは、以下だった。
「全ての不動産と自動車のローンは、担保が必要である」
「全ての無担保ローンは、担保が不要である」
このルールに基づき、再度測定したところ、99.8%の合致率となった。
============
このように、実データの品質そのものには問題がなくても、メタデータの品質が低いことが原因で、正しくないデータ品質結果となる、とのことだった。
高品質なメタデータによるメリット
では、高品質なメタデータを保持していると、どのようなメリットが享受できるのだろうか?
同氏は、以下の4つを挙げていた。なお、理解しやすいように、筆者が補記したものも含まれる。
- データの提供コストの最小化
正しいメタデータ(業務上の意味など)を用いれば、データ利用者が直接メタデータを確認することができるため、データ提供元にデータの意味や仕様を問合せる必要がなくなり、工数を削減できる。 - データ資産の透明性の確保
データ品質に関するメタデータが正しく明記されていることで、実データの品質測定ルールや測定結果が分かる。これによりデータ利用者は、データを使用する際、それが十分な品質であるかどうかを疑う必要がなくなる。 - 現在、そして将来に渡るデータ資産価値の最適化
データの保管場所や利用方法が正しく明記されることで、多くの人が様々な用途でデータを利用することが可能となり、既存データの価値をさらに向上させることに繋がる。 - より完全な、セキュリティやコンプライアンスの厳守
データセキュリティに関するメタデータが正しく明記されていることで、データの誤使用や社外へ漏洩する危険性を減らせる。また、誰が、いつ、どのデータにアクセスしたかなどのログが正しく記録されていることで、データアクセスの監査証跡に利用することが可能となる。
上記の内容は、「メタデータ管理によるメリット」そのものである。しかし、ここで重要なことは、ただメタデータを管理するだけではなく、そのメタデータ自体の品質が高くないと、メリットは享受できない、ということなのだろう。
メタデータ品質評価軸
では、メタデータ品質自体は、どのように測定できるのだろうか。
「メタデータ品質のルールは、データ品質同様、複数の評価軸でグルーピングできる」そうで、全部で9個のメタデータ品質評価軸について説明していた。ここでは、いくつかの代表的な評価軸の意味と、求められる品質要件の例をご紹介する。なお、各々の意味と例には、筆者が意訳したものも含まれるのでご了承いただきたい。
- Completeness(完全性)
‐意味:必要なメタデータ項目がすべて存在していること
‐例 :すべてのビジネス用語は意味定義を記載すること
:導出項目の場合は、必ず導出式を記載すること - Validity(有効性)
‐意味:メタデータの内容が、他で定めた標準やルールの要件を満たしていること
‐例 :業界標準で定められている意味定義から逸脱しないこと
:メタデータの属性値は、規定された有効値または有効範囲内にあること。
→筆者補足:例えば、データの桁数の有効値は正の整数なので、”-1”とするのはNG。 - Uniqueness(一意性)
‐意味:特定の値は、一度しか発生させないこと
‐例 :同音異義語が存在しないこと
:区分値一覧において、区分値間で意味の重複が無いこと
(具体例:婚姻ステータス 独身・既婚・未婚・離婚)
:とあるテーブルにおいて、矛盾が生じぬよう、意味が同じ項目を重複して保持しないこと
(具体例:Deceased(死亡)フラグとDeceased Date(死亡日)の混在)
→筆者補足:死亡日に日付が入力されていれば、死亡したことは表現できるため、死亡フラグを保持する必要はない。 - Timeliness(適時性)
‐意味:許可された者がメタデータにアクセスできる状態であり、かつ内容が最新であること
‐例 :メタデータの入力・更新プロセスが作成され、関係者間で合意されていること
:メタデータの承認、及び監視・統制プロセスが実行され、その結果が周知される状態であること - Usefulness(便利性)
‐意味:データ管理者及び利用者が、メタデータを通して実データを理解し、必要な目的に利用できること
‐例 :データスチュワードが、効果的にデータガバナンスを実行できること
ご覧の通り、データ品質評価軸と同じ名称でも、メタデータに適用すると少し意味が変わってくるものもある。残りの評価軸とその意味は、以下の通りである。
- Accuracy(正確性):メタデータが実態に即して適切に記述されていること
- Accessibility(アクセス性):メタデータ利用者が、メタデータの検索方法を知っており、簡単に検索できること
- Consistency(一貫性):メタデータ間で一貫性があり、他のメタデータと矛盾していないこと
- Integrity(整合性):メタモデルで規定された構造に沿ってメタデータが定義されていること
メタデータの品質を改善しよう
以上、講演の一部を抜粋して、メタデータ品質(Metadata Quality)について紹介した。しかし、品質を語る上では、「どうやって品質を改善するか」というメタデータ品質管理(Metadata Quality Management)も重要であろう。講演の中で詳しい説明は無かったものの、データ品質管理と同様に、改善スキーム(ルール、体制、仕組み)を確立し、PDCAサイクルを回していけば、メタデータの品質も改善できる、と筆者は考えている。
データ利活用などを契機に、メタデータ管理に取り組んでいる企業が増えている。しかし、メタデータは登録、蓄積、公開するだけでは、十分な効果は発揮できない。本ブログを機に、メタデータの品質にも目を向けて、問題があれば、改善に取り組むことをお勧めしたい。