メタデータ管理:DMBOK 2nd editionを読んで その7

「データ駆動型組織になるためには、メタデータ駆動型組織であらねばならない」という一文が、DMBOK2ndにはあります。実際、ビッグデータの利活用が積極的に行われている中で、「メタデータ管理」の重要性が高まって来ているように感じます。
そのような背景もあり、今回はDMBOK2ndの「メタデータ管理」章に何が書かれているのか、DMBOK1stと比べて変わった部分を中心にお話ししたいと思います(個人的な解釈も含まれていますのでご了承ください)。

メタデータの種類

  • ビジネスメタデータ:テーブルやカラムの定義と説明、ビジネスルールなど(ここは、エンティティとアトリビュートと書いて欲しいところですが、原文は上記のとおりです。)
  • テクニカルメタデータ:物理テーブルやカラムの名称、アクセス権など
  • 運用メタデータ:データ処理やアクセスの詳細など

別の視点で定義されたメタデータの種類

  • 記述メタデータ:タイトル、著者、件名
  • 構造メタデータ:ページ番号、章番号
  • 管理メタデータ:バージョン番号、アーカイブ日付

メタデータのソース

メタデータのソースとなるものがかなり幅広く定義されています。
ビジネス用語集、データディクショナリ、モデリングツールとリポジトリは当然ですが、BIツール(オブジェクトや導出項目、レポート等)、構成管理ツール、データマッピング管理ツール(データの変換仕様を指す)、データクオリティツール(品質スコア)、サービスレジストリ(SOAのサービス仕様など)などもソースと捉えています。

メタデータアーキテクチャ

データ定義情報だけにとどまらないため、様々なソースが管理できるアーキテクチャが必要になります。各ソースのメタデータをコピーして一元管理して提供する(集中型)、リアルタイムにスキャンだけして情報を見る(分散型)、もしくはその両方(ハイブリッド型)。そして、メタデータの変更を元のソースにフィードバックする(双方向型)、など。
あらゆるメタデータソースの一元管理を想定しているところを見ると、DMBOKではメタデータをシステム仕様と捉えている色が強いようです。

ここからは、メタデータ管理ツールに求められる機能の話になります。

メタデータの統合

企業内外のメタデータを統合して保持するために、データ統合ツールのアダプタ、スキャナ、ブリッジアプリーケションなどを使用して(自動的に?)収集する、と書かれています。
最近のETLツールや海外のリポジトリツールの一部には、このような機能を有しているものがあります。そのためここで書かれている内容はイメージしやすいです。

データリネージによる影響分析

システム間を移動するデータを把握するために、データリネージ管理が必要になります。
データ統合ツールにて物理的なリネージの可視化が可能ですが、管理対象が増えると複雑になるため、目的に応じて範囲を絞ることになります。
リネージ管理は、システム開発には当然必要となりますが、データ利活用の際にも、どこから連携されコピーされているのか把握したいところでしょう。

ビッグデータの取込

非構造データを管理するためには、検索の内容を表すタグを付けることが必要になります。
ツールによっては、ビッグデータの取り込み時にプロファイリングをするためのタグ付けや、機密情報や個人情報の識別もできると書かれています。
一部、AIやパターン情報を利用して識別できるようなツールもあるようです。ただ、どのようなツールも人手が必要です。すべてが自動でできるようなツールがあれば便利ですが、そんなツールが現在あるのか、私自身は把握していません。

そのほか

あとは、ISO11179やメタモデルの作成についても触れられていましたが、もう少し充実を期待したいところです。また、論理と物理(エンティティとテーブル、アトリビュートとカラムなど)のマッピングの仕方、論理を管理する際のドメインの考え方等については、書かれておらず、テクニカルな管理が中心であると感じました。

 

さて、ここまでのメタデータ管理に取り組む必要があるのでしょうか?
答えは、目的に応じて管理範囲や管理粒度を検討すべき、です。
メタデータをシステム仕様と捉えシステムで再利用する際に参照するのであれば、SOA等のサービスも含めたメタデータ管理が必要になります。
データ利活用のために、データの意味定義を可視化しておきたいのであれば、テーブルやカラムとその意味定義の可視化から始めて、その後、データリネージやデータ品質の可視化といった、必要な活動に手を広げていけばいいでしょう。

DMBOKの内容は「知識」ですので、それらを利用するためには、目的と照らし合わせて考えていく必要があります。