AI・IoTの進展とデータカタログの整備
最近の日経新聞はAI・IoTの記事で溢れかえっている。工場の消費電力効率化や、銀行の融資審査の自動化などが好例だろう。どの事例も、従来活かし切れていなかった自社内のデータに焦点を当て、それを有効活用することで業務の効率化に一定の成果を上げようとしている。メディア等でこれだけ成果が表に出てくると、自社でも取り組んでみようと考える経営者も多いと思う。
IT部門もそういった経営者の期待に応えようと、AI・IoTの環境整備に躍起になっている。大規模データ統合基盤を用意し、複数のユーザにデータ提供できる環境を構築する。また、IT部門内に専門の分析チームを作る企業も少なくない。蓄積したデータを分析し、ユーザ部門に向けて積極的に業務改善の提案を行うことで、IT部門としての付加価値を訴求したいと考えているように映る。
昨今は、大規模データ統合基盤の構築とともに、データカタログの情報も併せて整備する企業も増えてきた。データカタログとは、いわゆるメタデータと同義と思ってよい。収集したデータの精度や品質、意味内容が分からないままでは活用されない。このテーブルには、どんなデータが、どのように入力されているか、このデータカタログを見れば分かる。これがキチンと整備出来ればAI・IoT推進の強力な武器になる。
ただ、データカタログの整備はなかなか厄介な作業である。DBの定義体など、一部の情報は自動で簡単に収集することができるのだが、データ項目やコード値の意味、リネージ(データ取得経路情報)、加工計算式・・・かなりの情報はITドキュメント等を紐解いて人手で整備しなければならないのが実情だ。データカタログ情報を本格的に整備している企業でも、この問題にぶつかっていることが多いと思う。
この整備作業だが、自動で行うことはできないだろうか?例えばJANコードの場合「上2桁が45もしくは49で始まり且つ13桁の数値型項目であること」といった特徴がある。これを基に判定ロジックを作れば、内容が不明なデータソースの中からJANコードを持ったデータ項目を自動で見つけ出すことができる。JANコードに限らず、入力値に一定の法則性が見いだせるデータ項目は同様のアプローチが使えそうだ。ただ、金額のようなデータ項目は単純にはいかない。そのデータが受注金額なのか?請求金額なのか?値域も似通っており入力値による判定だけで絞り込むことは困難だ。この場合はエンティティやテーブル名称と組み合わせて判定すれば判定の精度は向上できるかもしれない。
AI・IoTがこれだけ進展しているのだから、データカタログの整備作業もいつの日かAIが代替する時代が来るように思う。不明なデータを入手した際、AIがその入力値を手掛かりに、最も相応しいメタデータを推論し、ある程度のデータカタログを自動で提示してくれたら非常に便利に思う。担当者は、データ内容の把握から解放され、データ活用施策の検討など、より付加価値の高い業務に時間を費やすことが理想的な姿ではないだろうか。