さあ読もう『百年の孤独』、始めよう新メタデータマネジメント(前編)
「長い歳月が流れて銃殺隊の前に立つはめになったとき、恐らくアウレリャノ・ブエンディア大佐は、父親のお供をして初めて氷というものを見た、あの遠い日の午後を思い出したにちがいない」で始まり、「羊皮紙に記されている事柄のいっさいは、過去と未来を問わず、反復の可能性のないことが予想されたからである」で終わる20世紀文学の最高傑作。1977年以来11回読んだ『百年の孤独』が、ここ数ヶ月驚異の売れ行きで日本社会を賑わせていて驚いている。
この小説の中には、現実世界を記述するデータモデルともいえる重要な仕掛けとともにデータ辞書そのものも出てくる。数十年前から、私はデータマネジメントを推進する人は皆この本を読むべきだと言ってきたが、今となってはそのことが懐かしい。
物語の舞台であるマコンド村の誕生・発展・消滅までの運命が、暗号を用いたサンスクリット(梵字)で羊皮紙に書かれた予言書は、まさにデータモデル(特別なルールで現実世界のモノとコトを表現)と言えよう。さらに、マコンドを襲った不眠症による記憶の喪失を乗り越えるために、全ての物に名札をつけたハンドル式の一万四千枚の回転式辞書(データ辞書)も現れる。その名札には最初はものの名前を付けていたが、直ぐにそれだけでは不十分となり、その利用方法も具体的に記し、その前に座り毎朝読み込み復習して、マコンドが忘却の彼方に消えないよう記憶を維持しようとした。
以前のブログでは、「DOAの半世紀から次の新たな時代へ」のテーマでデータモデルの復権の必要性について述べたが、今回はDOAのもう一つを成すデータ辞書に付いて述べる。以前からデータ管理やメタデータ管理と呼ばれてきたが、ここでは「メタデータマネジメント」と呼ぶ。
メタデータマネジメントの世界標準
DOAの提唱者である堀内一氏らが推進した、ISO 11179をベースにした物理データエレメントに、値ドメインや概念ドメインを紐付け、各ドメインでデータの意味を管理する手法が普及してきた。私はこのISO 11179が生まれる前から同じ考え方でメタデータマネジメントを実現し、システム構築や保守に役立ててきた。一万個を超える物理データエレメントに対して約一千個の値ドメインを定義し、保険システム構築時のデータ標準化を実現した。特に列挙型値ドメインの多くは、ビジネスルールに直接関わるリファレンスデータ(データ利用時の判断基準・根拠となるデータ)であり、値とその内容、使い方などを一元管理することが重要である。なお概念ドメインやデータエレメント概念は実際には管理しない場合が多い。その長年の適用経験から、値ドメインの管理こそがデータの標準化に大きく役立ち、現実的なメタデータマネジメントの手法であると確信してきた。
しかし、この手法は新規構築時には適用し易いが、既存システムに適用しようとすると大きな問題が起きる。値ドメインは実装従属の表現層の管理であり、多様な実装環境がありかつ標準化されていない既存システムでは、同一の概念ドメインに対して多くの値ドメインが必要となり、その一元管理が非常に難しくなる。また、データの標準化が主目的であるために、全ての物理データエレメントに値ドメインを定義し紐づけて管理することになり、的を絞った重点指向の管理には向かない。
いままでのメタデータマネジメントの問題
情報システムのメタデータマネジメントの歴史はデータモデルよりも古く、多くのチャレンジがなされてきた。しかし、それらの多くが失敗したのはなぜだろうか、振り返ってみよう。
管理目的
本来情報システムに対する基本的要件としてデータが重視されてきたが、データに関してはその器としての標準化(名称や物理型式など)が中心で、その機能を正しく全うするためのデータの品質定義に十分目を向けてこなかったことが失敗の一因ではないか。いままでのメタデータマネジメント自身がそのゴールとして、ビジネス利用に必要なデータの品質確保を充分に目指してこなかったため、メタデータマネジメントは真剣にやらなくてもよいもの、重要度が低いものと考えられてきたのではないか。
また、最近発売されたDAMAでも長年活躍したプロトキン氏著『データスチュワードシップ データマネジメント&データガバナンスの実践ガイド』の中で、データ品質改善の課題について、次のように「データ負債」の増加を挙げている。
ビジネスに影響を与えるデータ問題を無視すると、「データ負債」が蓄積する。実際の債務のように、データ問題に対処するには継続的なコストが利息のようにかかり、いつかデータ問題を解決しなければならない時がくるだろう。その時には、多くの場合、期限満了時の一括弁済のように、最初に問題が見つかった時よりもコストは高くつく。データ問題がビジネスに与える影響が大きいほど、データ負債も大きくなる。
『データスチュワードシップ データマネジメント&データガバナンスの実践ガイド』「Chapter7 データスチュワードの重要な役割」より引用
利用者と利用目的
・システム部門がデータの標準化を主目的とし、ビジネス部門がその成果を利用することはなかった。
・システムもデータもシステム部門のものという意識であり、データに関する知識はシステム部門の各個人に従属していた。
・データガバナンスという考え方も未成熟であった。
管理手法
・実装従属の物理データエレメントの管理が中心であり、値ドメインの数も多く煩雑になり易い。
・標準化が主目的でメリハリのない一律適用。
・既存システムには適用しにくい。
・最初はいいが維持が困難。
適用効果
・労多くして効果が不十分。
・保守時影響範囲の分析として活用するためにはプログラム資源などのリバース分析との融合が必要。
組織文化
プロトキン氏は現状のデータマネジメントの課題を挙げている。具体的に6つの問題を指摘しているが、その最後の「私たちデータコミュニティには長い歴史と習慣があり、データの意味とデータの内容の両方において、曖昧さを許容してきた」は、まさに今までのメタデータマネジメントの問題の本質を捉えており、情報システムを提供する側と使う側の双方にとって、非常に厳しい、痛い指摘ではないだろうか。
以上のような様々な問題とともに、ますます情報システムが複雑化・大規模化するなかで、データ品質改善のための具体的な対策が必須となっていると言える。今やこの課題に直接応えるようなメタデータマネジメントが求められている。さらに、我々にはデータ問題に対してデータ負債をこれ以上増加させないような本質的な対策が求められていると言えよう。
データスチュワードシップ実現手段としての新メタデータマネジメント
データスチュワードシップとは
『データマネジメント知識体系ガイド第二版』(DMBOK2)では、データガバナンスにおけるデータスチュワードシップの具体的なアクティビティを次のように述べている。
これらを見るとデータスチュワードシップの活動とはまさにメタデータマネジメントそのものであることが分かるだろう。さらに、プロトキン氏は「データスチュワードシップとはメタデータスチュワードシップでもある」と述べている。今までのメタデータマネジメントとの大きな違いとして、データ品質ルールのような現状の物理データの品質問題を改善することに直接焦点を当てていることがポイントだ。
• 核となるメタデータの作成と管理:業務用語、データの有効値などの重要なメタデータの定義と管理。
『データマネジメント知識体系ガイド第二版』「第3章データガバナンス」より引用
スチュワードは多くの場合、組織の業務用語集を担当しており、それはデータに関連する業務用語の原典となっていく。
• ルールと標準の文書化:ビジネスルール、データ標準、データ品質ルールを定義し文書化する。
高品質なデータを定義するにあたっての期待値はデータを作成し利用するといった業務プロセス に根ざしたルールの観点から明確に述べられる。
スチュワードはこれらのルールが組織内でコンセンサスを得て一貫して利用されるようにするために、ルールを仕上げる手助けをする。
• データ品質の問題管理:スチュワードは頻繁にデータ関連の問題の特定と解決や、解決プロセスの推進に関わる。
ビジネスデータスチュワードとは
DMBOK2では、データスチュワードの種類とともにデータスチュワードシップの主役であるビジネスデータスチュワードの役割についても紹介している。
ビジネスデータスチュワードはビジネスの専門家であり、対象領域専門家として認識されることが多 く、担当する分野のデータに結果責任を負う。ステークホルダと協力してデータを定義し統制する。
『データマネジメント知識体系ガイド第二版』「第3章データガバナンス」より引用
すなわちデータスチュワードシップを担うビジネスデータスチュワードはビジネス部門から選ばれ、対象領域のメタデータマネジメントの説明責任を担うことになる。
後編では、データスチュワードシップ実現のために、メタデータマネジメントの観点からその特徴を具体的に紹介する。