統制語彙とは
データガバナンス用語解説15

Mudassar IqbalによるPixabayからの画像

統制語彙とは

DMBOK2の第9章ドキュメントとコンテンツ管理では次のように統制語彙を定義している。

明確に許可された用語を定義したリストのことであり、コンテンツを閲覧・検索する際に、索引付け、分類、タグ付け、ソート、検索に使用される。ドキュメント、レコード、コンテンツを体系的に整理するには、この統制語彙が必要となる。

DMBOK2 第9章ドキュメントとコンテンツ管理

統制語彙は用語の集合であり、単純なリストの形式や用語と用語の意味的な関係を階層的に示した形で表現される。
統制語彙で用いられる用語は、ある定められた範囲で利用が許可されたものを採用する。例えば電力や通信、あるいは販売や経理といったように、該当の業界・業務分野ごとに用いる用語は異なる。用語自体は企業全体で標準化されていることが望ましい。企業内の組織ごとに異なる用語が用いられているのであれば、同義語も含めた語彙管理が必要になる。

統制語彙が必要になる場面

構造化されていないドキュメントは検索する手段すらない。企業活動においては、設計書や図面などの電子ファイルのほか、AI活用により画像や動画ファイルといった多種・多量なデータが取り扱われる。これらリレーショナルデータベースに保存されないデータは索引を付け、検索する機能が不可欠である。統制語彙は言わばコンテンツを検索するためのメタデータである。

DMBOKでは出版物をカタログ化するために使用するダブリンコアを例にあげている。ダブリンコアとは電子文書を管理するためのメタデータの標準仕様である。文書のタイトル、作成者など15の基本記述要素を定めている。これは国立国会図書館の検索サービスでも採用されている。基本記述要素には他にもキーワード、内容記述があり、これらを設定しておくことで、利用者が知りたいトピックで自由に文書が検索できるようになる。

用語の関係性を表す体系

統制語彙は用語と用語の関係性について体系化する。いくつかの種類があるので、簡単にご紹介したい。

  • 同義語リスト:
    検索を行うために、同等の意味を持った用語をグループ化したものである。よくある例では商品、製品、プロダクトである。ある用語を検索した際、同等の用語を提示することで、関連するコンテンツへのアクセスに役立つ。
  • タクソノミ:
    タクソノミは単一あるいは複数の階層構造で用語を分類したものである。複数階層の簡単な例として、都道府県>市区町村>番地といった親子関係で表される。タクソノミは他にも様々な構造があり、少し複雑なものは子が複数の親を持つ階層構造もある。
  • シソーラス:
    用語と用語の関係に関する情報を体系化したものである。同義語リストとタクソノミの特性を併せ持ったものである。ある用語に関して、上位・下位関係や部分・全体関係、同義語・類義語関係を持つ。例えば、取引先の上位は企業、得意先は取引先の部分、顧客は得意先の同義語といったものである。
  • オントロジ:
    オントロジは用語の概念、個々の実体、属性、用語間の意味的な関係などを体系化する技法である。「従業員」を例とした場合、正社員、契約社員、派遣社員などが下位概念に位置付けられる。正社員の名前や住所などは属性となる。一人一人の個人はインスタンスとして管理される。

統制語彙の体系を4つご紹介した。
体系選択の目安だが、開発時に業務で使われている意味を理解したい目的に使用するのであれば同義語リストが整備されていれば十分だろう。
Webサイトのメニュー構造のように、検索のナビゲーションを目的とするならタクソノミで階層構造を管理しておくとよい。
AIに用語の概念を学習させる目的など、より高度なコンテンツ管理と検索ニーズに対応する場合はシソーラスやオントロジを用いるとよい。

まとめ

文章などのドキュメントやWeb上のコンテンツなど、構造化されていないデータを利用するには、統制語彙を用いて体系化して保管しておくことが重要である。また、効率的に検索する手段としてメタデータ管理ツールの導入も合わせて検討するとよいだろう。目的・用途に応じて統制語彙を取り入れ効果的なドキュメントとコンテンツ管理を目指していただきたい。

カスタムフィールドなどの情報