欲しいメタデータを探せていますか?      ~目的から管理対象のメタデータと構造を考える~

1. 欲しいメタデータが探せない理由

 データ利活用の現場を支える取り組みとして、メタデータ管理の重要性は広く認識されてきています。多くの企業では、データ利活用基盤を整備し、データカタログツールの導入も進めています。また、メタデータを定義する役割として、データスチュワードを任命する動きも広がってきました。

 しかし、せっかく整備したカタログが有効活用されないまま「どう使ってもらうか?」という悩みを抱えているケースも少なくありません。例えば、類似した意味をもつデータ項目が複数存在していて、自分が使うべきデータ項目がどれなのか判断できなかったり、データ項目とテーブル、レポートが紐づいておらず検索の手がかりがつかめなかったりと、利用者が「欲しい情報にたどり着けない」事態に直面しています。

 こうした問題の背景には、主に2つの要因があります。1つは、目的や用途に応じて求められるメタデータは何かを十分に議論していないことです。もう1つは、メタデータ同士の関係性を意識しないまま、ツールを導入していることです。つまりメタデータの構造を検討せずに、とりあえずツールに登録してしまうことで、利用者にとってメタデータの繋がりが把握しづらい状態になっていることにあります。

 このような問題の解決に向けて、本記事では、欲しいメタデータを探すために必要な要件の検討の在り方について、目的と構造の2つの切り口から筆者の考えを述べます。

2. 様々なメタデータ

 メタデータには、データや情報の意味定義を表すものだけでなく、情報を整理したり検索してアクセスしやすくしたりするために付与する分類やIDなど、様々なものがあります。一般的によく知られているのは、DMBOKで紹介している3種類のメタデータです(表1)。

種類説明
ビジネスメタデータ主にデータの内容と状態に重点を置いたものテーブルの定義と説明、業務ルールや導出方法
テクニカルメタデータデータの技術的な詳細、データを格納するシステムなどに関する情報物理テーブルの名称、物理カラムのプロパティ
オペレーショナルメタデータデータの処理とアクセスの詳細を表す情報ジョブの実行ログ、データ抽出履歴
表1. DMBOKにおけるメタデータの種類

 DMBOKにとどまらず、他の分野に視野を広げると、例えば図書館情報学では、記述メタデータや管理メタデータといった、情報資源の検索や管理に重きを置いたメタデータの枠組みが存在します(表2)。

種類説明
記述メタデータ情報資源にアクセスしたり、選択したりすることを可能にする情報タイトル、著者、ジャンル
管理メタデータ対象資料の受入や所在等に関する情報や、点検・廃棄時期に関する情報登録日、管理番号、配架場所
権利メタデータ知的財産権やアクセス制限等に関する指示情報著作権者、利用条件
保存メタデータ資料の物理的状態と保存措置に関する情報ファイル作成日時、チェックサム
技術メタデータファイルの形式、デジタル化の品質等に関する情報ファイル形式、ファイルサイズ
構造メタデータデジタルドキュメント群を構成するデータ要素間の相互関係に関する情報ページの順序、セクションの開始位置を示す目次情報
表2. 図書館情報学におけるメタデータの種類

 このように、様々なメタデータの捉え方を知ることで、「どのように利用したいのか」という目的に応じて、何をどこまで管理すべきかを検討する際に、有益な示唆を得ることができます。

3. 目的から管理したいメタデータを考える

 メタデータを利用する目的は、多岐にわたります。例えば、データ分析時に業務ユーザが利用する場合もあれば、データガバナンスのために特定の管理者が利用する場合もあります。よって、誰がどんな目的でメタデータを使いたいのかを考えることが、メタデータ管理の出発点になります。

 メタデータの利用目的と管理対象の例を以下に示します。

・データ利活用の促進に必要なメタデータ

 全社的なデータ利活用を推進するためには、不特定多数の利用者に対して、データの内容が理解できる情報の提供が求められます。そのためには、用語の意味、テーブルの説明、カラムの説明などが必要になります。

・データガバナンスに必要なメタデータ

 データを標準化し、利便性が高いデータ利活用環境を提供するためには、開発プロジェクトで行われる設計がネーミングルールや配置ルールに準拠しているのかをチェックし、設計品質を高めていかなければなりません。そのためには、テーブル定義やデータモデルなどが必要になります。(なお、ビジネスメタデータだけでなく、テーブルやカラムの物理名称といったテクニカルメタデータを管理する場合もあります。)

・コンプライアンス対応に必要なメタデータ

 プライバシー保護や機密情報を適切に管理するためには、対象のデータの所在やそのデータがどのシステムから入力され受渡されているのかを把握しなくてはなりません。そのためには、テーブルやデータ項目に保護対象が含まれているのかを識別するフラグや機密レベル、当該データのリネージなどが必要になります。

・リスク管理に必要なメタデータ

 コンプライアンス対応とともに、データ利活用時の誤用防止など事前のリスク対応を目的とする場合、注意喚起のための情報管理が必要です。例えば、値に一部nullが含まれるといったデータ品質上の既知の問題や、他部門への許可なき再配布はできないといった、データ利用上の注意事項などです。

・業務運用に必要なメタデータ

 業務運用を円滑に遂行するためには、対象データの更新スケジュールを正確に把握できることが求められます。また、データの取り扱いに関する問い合わせ先も明確になっている必要があります。(これを実現するには、データオーナやデータスチュワードがあらかじめ定義されていなければなりません。)

4. メタデータの構造を考える意義

 メタデータの利用目的と管理対象を決めたら、次に利用者は何をたよりに情報を探そうとするのかを考えていきます。例えば、エンティティからテーブル、コードからカラムやテーブル、とメタデータをどのような順序でたどって検索・参照されるのかなどを具体的にイメージします。そして、それらが実現できるようにするために、メタデータ同士はどういう関係性であるべきなのかを検討します。

 このメタデータ同士の関係性を表現するには、メタデータモデルが有効です。以下に示すように、メタデータモデルを用いることで、管理要件の明確化や、その要件とデータカタログツールとのFit&Gapにも活用できます。

管理要件の明確化と検証

 メタデータ同士の関係性を可視化することで要件を明らかにし、目的を達成するためのメタデータが不足していないか、それらの関係性に問題がないかを検証することができます。具体例として、以下のような要件が挙げられます。

・ビジネス用語とカラム名に対応関係を持つかどうか。

・テーブルの項目とレポートの項目の関係性(=使用先)を把握可能にするか。

・サブジェクトエリアやデータオーナ、データスチュワードとシステムとの関係性を持たせるか。

 また、メタデータモデル自体を利用者に公開して、メタデータの構造や関係性を把握できるようにしておけば、検索性を高めるサポートにもつながります。

カタログツールとのFit&Gap

 市販のデータカタログツールの導入を検討する場合、要件とのFit&Gapを行う上で有効な手段となります。例えば、以下の観点から分析が可能です。

・要求に沿ったメタデータアセット(メタデータを登録、管理できるオブジェクト)が存在するか。

・メタデータの属性を保持するフィールドがあるか、あるいは追加できるか。

・必要なキーでメタデータを検索・参照し、メタデータ間を遷移することができるか。

 メタデータモデルを用いたFit&Gapは、具体的には次のようなイメージになります。

 図1は概念的なエンティティや共通のコード、物理的なテーブル、カラムを管理したい場合のメタデータモデルです。一方、図2は一般的なデータカタログツールにおけるメタデータアセット(テーブル、スキマーなど)の構造を一部抜粋して表現しています。両者を比較することで、管理したいメタデータがツールのどのアセットを使用して、どのように管理できるか検討しやすくなります。

 例えば、エンティティはツール上のグロッサリーを使用することで、テーブルと関連付けて管理できそうです。一方で、コードの管理には課題が残ります。グロッサリーはテーブル単位でしか関連付けできないため、スキーマ(=カラム)単位では管理できません。タグを使えばスキーマへ関連付けることは可能ですが、タグではコード名称しか表現できず、説明や桁数、発番ルールなどの属性は管理できません。

図1. 管理要件を踏まえたメタデータモデル

図2. 一般的なデータカタログツールにおけるメタデータモデル

 このように、データカタログツール導入時には、業務要件で求められるメタデータの管理ができるかどうか、構造にあてはめながらFit&Gapを行うのが本来のあるべき検討の姿です。しかしながら、データカタログツールで何ができるのか、どのようなインフラ環境で動作するか、といった機能の確認や検証が中心のPoCに留まり、要件の検討が不十分なまま導入してしまうという残念なケースが多いのが現状です。

5. 欲しいメタデータを探すためには

 利用者が必要な情報に確実にたどり着き、正しく理解できる環境を整備するためには、必要なメタデータを過不足なく整理し、相互の関係性が明確に構造化された状態で定義されていることが不可欠です。最近では、生成AIを活用してテーブルやカラムの説明文を自動生成したり、値から意味を類推したりするなど、メタデータ付与の自動化も進んできています。これにより、メタデータ作成の負担は軽減されつつありますが、何を管理すべきか、なぜそれが必要なのかといった基本的な要件は、利用する人が決めなくてはなりません。利用目的に応じてメタデータを構造化し、それに見合う形でツールによる管理を検討することで、利用者が検索しやすい・使いやすいメタデータ環境の提供を目指していきましょう。