非構造化データも含めたメタデータ管理の考察

構造化データだけではなく、音声、画像、センサーデータなどの非構造化データも含めてクラウド上に集約し解析などに利活用しているケースが多いと思います。
これらの中から必要な時に必要なデータが取り出せるように管理するにはどうすればよいでしょうか?

構造化データであれば、最低限、次のようなメタデータを可視化して管理しておけば、欲しいデータを探すことができます。

  • テーブル名
  • テーブルの意味や管理しているレコードの範囲
  • カラム名、型、桁、意味
  • コードや区分などの値とその意味
  • テーブルが所属する業務名またはアプリケーション名

では、非構造化データについてはどうでしょうか?
まずは、IoT系のセンサーデータについてです。分析用にサーバ側で蓄積しているものだと考えてください。
これらのデータはCSVやJSON形式で出力している場合が多く、値の出力順が決まっていたり、値の意味を表す項目名が含まれていたりします。よって、それらをメタデータとして管理しておくとよいでしょう。
しかし、そのままの形式で扱うことが、はたして便利なのでしょうか?
値の意味や項目名が決まっているのであれば、構造化データに変換して保持しても良さそうです。たとえば位置情報や温度、感知した振動等は日時と共に持たせるとデータを利用しやすくなります。

次に、音声や画像などのデータについてです。
これらのデータには、データの取得場所(撮影場所)、取得日時、取得時の設定情報(画像であれば絞り値など)、位置情報がバイナリデータに埋め込まれているものもあります(別ファイルになっているものもありますが)。
まずは、その情報やファイル形式、ファイルの保管場所をメタデータとして管理します。図書の目録みたいですが、これらを定義して管理するだけでも、必要なデータを検索しやすいのではないでしょうか。

後は、音声や画像データそのものについてです。
何らかの認識アルゴリズムにより解析され、テキストデータが出力される前提とします(なかなか難しいかもしれませんが)。
音声データであれば、誰が何について話しているのか(話題)やそれに対する反応(ネガポジ)が含まれています。あらかじめ、話題や反応に関する用語辞書やシソーラス辞書を定義し、音声データに含まれる単語にタグ付けしておきます。
画像データであれば、誰がどのような動きをしているのかということを、予め準備したオントロジ等に紐づけて管理することができそうです。
たとえば、「人」が「野菜」を「包丁で切っている」という行為を分類する。
もしくは、その行為は「料理」であると紐づけることにより関連画像として検索しやすくなります。(素材や手順が分かると何の料理なのか的確に表すこともできますね。)

実は、この用語辞書、シソーラス辞書、オントロジなどを整備することが一番大変です。
業界標準のものなど、整備されているものもありますが、それらを活用しながら、企業オリジナル、業務オリジナルを定義していくしかないと思います。
このような、辞書さえあれば、機械学習やAIによりある程度精度よく、自動的にデータに対してタグ付けできるでしょう。
メタデータ管理ツールに、AI機能が搭載されているものを見かけますが、その裏には、このような辞書が存在しています。
この充実化が肝でしょうね。

DMBOK2ndの第9章「Document & Content Management」の中でも、オントロジ、タクソノミ、類義語シソーラス等を活用して、ドキュメントやコンテンツにタグ付けすることにより、効率的に検索できるようにする考え方が書かれていますので、ご興味があれば参考にされると良いと思います。

少し散らかっていますが、この辺で。

カスタムフィールドなどの情報