データファブリック : データガバナンス用語解説12
データファブリックの定義
データファブリックの定義は、2018年頃までベンダやコンサル毎に異なっていましたが、最近ではガートナーが整理した次の定義が定着しています。
・データと接続プロセスの統合レイヤーとして機能する設計コンセプト
・既存の検出でき推論可能なメタデータ資産を継続的に分析して、ハイブリッドやマルチクラウドプラットフォームなどのあらゆる環境で統合され再利用可能なデータの設計、展開、利用を支援する
Gartnerサイト
” Data Fabric Architecture is Key to Modernizing Data Management
and Integration” (2022/7/20)
企業内に分散しているデータが意味で紐付いていく様を織物(ファブリック)の経糸と緯糸の織り重なる様に見立てて、そのように呼んでいるようです。
特徴1 分散管理されたデータを仮想的に統合して提供
全社横断でデータ利活用を実現する際には、全社で一つのデータウェアハウスやデータレイクを構築し、データを蓄積することが、今や一般的になっています。
しかし、データファブリックでは、そのようなデータ蓄積基盤を必須とはしません。
オンプレミスからクラウド、テーブルからファイルまで、全社データのメタデータを収集し、可視化し、組織を横断して公開します。さらに、そのメタデータに基づいて仮想的なビューを生成し、データを提供します。
つまり、物理的にデータを一元管理する環境を必要としない、というのが特徴になります。
データ利活用者はメタデータを介して自分が必要とするデータを発見し、物理環境が異なるデータも仮想的なビューから素早くアクセスすることができます。また、顧客データが複数システムに重複しているような場合は、メタデータを基に仮想統合したビューが提供されるようになります。
特徴2 メタデータ管理の機械学習による支援
データファブリックでは品質の高い最新のメタデータを収集・更新し続ける必要があります。また、いつ誰がどんなデータを必要とするかわからないので、メタデータ収集対象は広域になりがちです。
テーブル名・カラム名やその型桁などの物理的なテクニカルメタデータであれば、これまでもツールで自動収集・更新はできました。
しかし、データアナリストやサイエンティストがデータを利活用するためには、テーブルやカラム、区分値等のビジネス上の意味が分かる必要があります。ビジネスメタデータの意味定義などの作業は、業務部門がサブ業務として担当していることが多いでしょう。この作業範囲が広がることになるため、ますます負荷が高くなってしまいます。
そのためにデータファブリックでは、機械学習でメタデータ管理を支援し、可能な限り自動化するようにします。
たとえば、次のような作業です。
・業務用語集を基に、該当するテーブルやファイルを分類し一覧化
・マスタデータの名称項目の値を基に名寄せした結果を提供
・プライバシーに関するデータを特定しアクセス可能な人員を制限…等
想定される運用上の注意点
データファブリックの定義を踏まえると、次のような点に注意が必要ではないでしょうか。
ビューの乱立がさらなるサイロを生む可能性がある
データファブリックの仮想統合ビューと機械学習支援によって、データアナリストの探索的データ解析の前処理やデータサイエンティストの教師データの準備は、従来よりも早く容易になります。その一方で、よく似たビューが増えたり、ビューの孫引き、ひ孫引きが起きたりすることが想定されます。利活用者毎にビューが乱立することで、結果として、欲しいビューを探すのに苦労するかもしれません。これでは、システム単位でデータサイロが出来ていた世界と変わりません。
同一エンティティのビューは重複しないように削減していく、共用度が高いのであれば物理的にテーブル化して、誰もが共有できるデータ基盤で管理するなど、考えるべきでしょう。
機械学習は決断できない
機械のプライバシーデータの特定結果に対して漏れがないか確認できるのは人間だけです。
機械はその結果を踏まえて学習し精度を上げることはできますが、「これで正しい」という決断まではしてくれません。また、これまで業務部門が行っていたビジネスメタデータの意味定義などの作業を支援することは出来ても、内容の確認など最後は人が行わなければなりません。
データファブリックを価値あるものにするためには、ビジネスメタデータの品質向上が欠かせないため、これまで以上に業務部門はメタデータ管理に関わることが求められます。
最後に:データファブリックはこれまで以上にデータガバナンスが求められる
物理的なデータ統合環境を準備することなく、メタデータを利用することで仮想的なデータのビューが適用されるデータファブリックは、DXを推進する上でも非常に魅力的な考え方です。ただし、メタデータが継続的に管理されることと、ビューが乱立しないような統制をしていかないと、そのメリットは享受できなさそうです。
そのためにも、仕組みだけをつくるのではなく、業務部門とIT部門が継続して協力し統制するためにも、データガバナンスのスキームを確立しておく必要があるのではないでしょうか。
弊社は、“Metafind”と掲げているだけあって、メタデータ管理に関する知識とそのためのデータガバナンス体制構築の経験が豊富にありますので、お悩みの方はお声がけいただけると幸いです。