データフィケーションとアノテーション

Image by Gerd Altmann from Pixabay

「AIを使って売上増加策を深堀したいが、因果関係をつきとめるためには、手元にあるデータだけでは不充分だ。」そんな場面に遭遇したことはありませんか?今回のテーマは、データを創り出すことです。

今回のテーマは、DMBOK2にも詳しい記述がない、「データを創り出すこと、別の言い方をすれば、いままで存在しないデータ項目を新たに認識すること」である。
DMBOK2はもともと存在するデータをどのように扱うかを中心に書かれている。このため、データが存在しない場合に、どのように新たなデータを創り出すかについて言及していない。少しだけこの件に触れているのは、第1章データマネジメントの2.2データとインフォメーションの節である。
以下のような記述がある。

データは存在するのが当たり前という仮定に基づいているが、 データは存在しないこともあり、データを生成する必要がある

データ、インフォメーション、ナレッジ、ウィズダムという順を追って記述した場合、最初にデータを生成するナレッジが必要であることに気づかない

データフィケーションやアノテーションのようなデータを創り出すことがなぜ重要か?
それはデジタルトランスフォーメーションやAIによるデータ解析などで、今まで存在しなかったデータが必要となるからだ。必要性についての詳しい説明は別な機会に譲るとして、今回はこの2つの言葉を説明しよう。

データフィケーション

直訳すればデータ化である。実世界の「もの」や「こと」をデータ化することをデータフィケーションと言う。
工場の製造設備にセンサーをつけて、振動・温度・湿度などをデータとして記録することは、データフィケーションの典型例である。機械ではなく、人間にセンサーをつければ、心拍数・体温・血圧・血糖値・今どこに居るかなどをデータとして把握することが可能となる。
比較的広い敷地をもつ小売業で店員にセンサーをつけて仕事をさせ、どのような動きをしている時に売上が最も大きくなるかの傾向を把握するような使い方をする。
主要な駅・拠点・デパート・コンビニ・車などに動画レコーダーを設置し、事実の記録や防犯に利用するケースもデータフィケーションの一種である。

アノテーション

こちらは、日本のWikipediaに簡単な説明が記載されているので、それを紹介しよう。

アノテーション(英語:annotation)とは、あるデータに対して関連する情報(メタデータ)を注釈として付与すること。XML等の記述形式を用いてメタデータをタグ付けする場合が多い。付与したメタデータやタグを指してアノテーションという場合もある。

ここではXMLが注目されているが、対象データはセンサーデータ・画像・動画・音声・設計図面・テキストなど多種多様である。
いくつか典型的な例を列挙してみる。

  • コールセンターへのクレームをテキスト化したものに、自社製品の何が対象であるかを特定した結果、商品名または商品型番を付加するケース
  • TwitterやFacebookの発言が政府への反抗を含むかどうかを表す判定区分を付加するケース(もちろん日本ではこのような事はないでしょうが・・)
  • 駅での静止画や動画に、立っている人と歩いている人の数の割合(=混雑度合データ)と時刻を付加するケース

アノテーションを1つ1つのデータに対して人間が実施するのは大変だ。可能な限り自動化したいところであるが、自動化のためには機械学習が不可欠である。また、正しく学習させるためにはそれを教え込むデータが必要となる。昨今、教師あり学習のためのデータづくりを実施するビジネスも出始めている。

まとめ

事業の創造や業務変革には、新たなデータが必要ということでデータフィケーションとアノテーションの重要性が注目されている。
DMBOK2の範囲では詳しく書かれていないが、データマネジメントに携わる人達は、価値あるデータの創造についても貢献すべきであるし、ここまで含めてデータマネジメントの範囲と考えたい。