『標準化』で差がつくデータウェアハウス—迅速・正確な分析基盤の実現

はじめに

生成AIの導入・活用が急速に進み、AIにデータを提供する基盤として、データウェアハウス(以下、DWH)の構築もますます増えています。

一方でDWHの導入事例として公表されているもののなかには、データソースのマスタデータとトランザクションデータをそのまま蓄積し、データレイクと変わらない使い方をしているものがあります。
また、社内に複数のDWHが構築されることで、
「同じようなデータがあちこちに散在している」、
「名前は同じでも中身が全く異なるデータが増えた」という悩みもよく耳にします。

こうした状況では、データ利活用前の準備や前処理にかかる負荷は依然として高いままです。
処理負荷を軽減することもDWHを導入する目的の一つですが、なぜ負荷は減らないのでしょうか。
本稿ではこの理由について、DWHの定義を振り返りながら解説します。

そもそもDWHとはなにか~Inmon氏とKimball氏の定義

DWHとは、1990年代にBill Inmon氏とRalph Kimball氏が提唱した考え方です。

Inmon氏は、データ分析に必要なデータを提供するのに、データの蓄積期間や種類、品質ごとに役割の違うDBが必要になると考えていました。その中でもDWHを、複数のデータソースから収集したデータを統合し、全社規模での効率的な分析を支援するための、単一で一貫性のあるデータベースとして考えました(注:筆者の要約)。
彼は他に、リファレンスデータ(マスタデータを管理するDB)、オペレーショナルデータストア(ODS)、データマート、オペレーショナルデータマートが必要になると述べています(これらのデータ基盤アーキテクチャの全体像をCorporate Information Factoryと呼びます。詳細な解説がDAMA Rocky Mountain支部のサイトにあります。 https://damarmc.org/news/13419375)。

一方でKimball氏は、DBの役割はあまり細かく定義せず、唯一データマートの名前に触れるだけです。彼はDWHを、複数のデータマートを共通ディメンション(コンフォームドディメンション)の軸で統合した、分析基盤としての仕組みと定義しています。
共通ディメンションとは、複数のデータマートで共通するマスタデータのことを指します。DWHとは単独のDBではなく、共通するマスタデータによって統合されたデータを、複数のDBやETLを組み合わせて提供する「プロセス」だと考えていたのです(この全体像も、前述のDAMA支部サイトに解説があります。 https://damarmc.org/news/13422221)。

DWHをデータ基盤の構成要素としたInmon氏と分析者にデータを提供する仕組みとみなしたKimball氏。これらはまるで違う定義に思えますが、彼らの書籍を読むと次の5つの共通点があります。

  1. 複数ソースからデータを収集し、一箇所で蓄積する(データの一元管理)。
  2. トランザクションデータは可能な限り最小粒度で集める(最小粒度のトランザクションの保持)。
  3. マスタデータは全社共通のものに統合・変換する(マスタの標準化)。
  4. 同じ意味のトランザクションデータは統一されたレイアウトに統合・変換する(トランザクションの標準化)。
  5. 個別の分析ニーズに特化したデータマートへ、標準化されたデータを効率よく迅速に提供する(データマートへの提供)。

つまり、データを一か所に集め、複数ソースのデータをそのまま蓄積しただけの基盤は、DWH本来の定義に当てはまりません。マスタデータやトランザクションデータを標準化し、それらを利活用者に提供する仕組みこそが、Inmon氏やKimball氏が提唱する「DWH」なのです。
DWH製品と謳われているものを多数見かけますが、『標準化されたデータ』という魂を込めないと、真の意味での「DWH」は築けません。

標準化していない『DWH』がもたらす課題

受け取ったデータの標準化が不十分だと、データ利活用者は本来の目的の前に、使いたいデータを標準化するなどの前処理を終わらせなくてはいけません。
データ利活用の目的が定型レポートの作成であれば最初のレポート作成後、2回目以降の処理は楽になるかもしれません(それでも想定外のデータが連携されてエラーが発生しないか監視する必要は残ります)。

しかし最近は、新規ビジネス価値の創出や、新たな観点の洞察を導くためのアドホックな分析が増えています。こうした分析のためのデータが標準化されていないと、データ利活用者は今後も前処理に多くの時間を費やし続けるでしょう。その結果、本来得意な高度な分析スキルを活かした業務に時間を割くことが出来なくなります。
またデータの標準化は、生成AIの活用にも影響するでしょう。AIは一貫した定義と品質を持つ標準化されたデータをインプットとしない限り、有効なアウトプットを出すことが難しいためです。

まとめと提言

企業組織のデータは今後ますます増大し、社員ひとりひとりが生成AIなどを使ってデータを利活用する時代がやってきています。
効率的にデータを利活用できるように、データを単に集めて満足するのではなく、データの標準化に惜しまず人と資金を投資しましょう。
迅速かつ正確なデータが提供できる基盤として、真の意味でのDWHを用意しておきましょう。