Data Integration and Interoperability:DMBOK 2nd editionを読んで その5

今回はDMBOK2.0で新しく追加された、データ利活用を支えるナレッジの一つとして書かれている、「Data Integration and Interoperability(データ統合と相互運用性)」についてコメントしたいと思います。Data HubDMBOK1.0では、データ統合アーキテクチャを考える上での参考として、ビル・インモン氏のCIF(Corporate Information Factory)やマスタデータ管理の概念アーキテクチャなどが紹介されていました。
DMBOK2.0では、概念的なアーキテクチャではなく、データ統合を考える上での必須要素として、ETLの解説、データのマッピング、レイテンシ(バッチ/リアルタイム等)、レプリケーション(データの複製方法)、アーカイブ(データの保存)、標準モデル(データ統合のための標準データモデルの必要性)、相互作用モデル(ポイント・ツー・ポイント/ハブ・アンド・スポークなどのシステム間の接続方法)、アーキテクチャコンセプト(アプリケーションカップリング、EAI、ESB、SOAなど)、データ交換基準について説明されています。
昨今のシステム開発においても、システム間は疎結合となるように設計されることが推奨され、バッチ処理によるデータ統合の場合はデータ・ハブを、リアルタイム処理が求められる場合はEAI,SOA,EBS等によるAPIやメッセージによる連携が選択されることが多いと思われます。

また、データ統合のアクティビティを読むと、次の点が必要であることが分かります。

  • インタフェースを増やさないために、標準となるデータの構造を定義する(ピア・ツー・ピア連携ではコストが掛かり、統合メリットが損なわれるため、意味的にも標準構造を中心としたハブ・アンド・スポーク型で連携する)
  • ドキュメントからソースデータとターゲットデータのメタデータを正しく定義する
  • ソースデータがどこで登録され、どのように受け渡しが行われ、加工されているのかのデータリネージ(データの系統)を把握する
  • 実際のソースデータをプロファイリングして、メタデータの定義どおりなのかを確認して、正しく移行できるように検討する

更に、データが統合された状態を維持するためには、ガバナンスのための集中的な組織が不可欠であることも理解できます。

個々の内容は常識的な話かもしれませんが、一つの章で他のナレッジエリアとの関連性についても書かれており、知識としては分かり易くまとめられていると感じました。

最近は、データ統合やデータ前処理(マッチングやクレンジングなど)のツール、メタデータ管理のリポジトリ機能も合わせ持ったものなどが出てきたので、データ統合のための基盤を構築し易い環境にあるのではないでしょうか?
とは言え、一つのツールですべてを網羅しているものはありませんし、逆に、データ分析のPOCを実施する目的のために、重厚長大なデータ統合ツールを導入するのは最適解とは言えないでしょう。また、ソースデータからすべてのデータリネージを自動的に取得して管理するようなツールも、まだ存在はしていません。

それでも、データ統合のための基盤づくりは確実に必要になっています。我々も、皆様の目的に合わせた最適解をご提案していきたいと考えております。そのあたりの考察については、また、別の機会にお伝えしていきます。

それでは、皆様にとって実りの多い良い年でありますように!
あ、データマネジメントもますます活性化されますように!
コンサルタントの本間でした。