データの標準化は形式と意味の両面で行う

データの標準化とは

同じ業務でも、事業領域や地域が異なれば、そこで扱われているデータも異なることが多いです。一見同じようなデータに見えたとしても、エンティティや項目名などの名称、保持している項目、データの粒度や単位、エンティティ同士の関係性など、様々な違いがあります。グループ会社全体やグローバルレベルでデータ利活用を行う際、このような違いを考慮せずにデータを収集・蓄積してしまうとどうなるでしょうか?そのままの状態では、事業領域や地域を横断した分析ができないことが分かります。このような事態を避けるためにも、組織内に点在する各システムから収集されたデータを予め1つのデータ構造に合わせて扱いやすくしておく必要があります。このプロセスを「データの標準化」と呼びます。

データの標準化は2つの観点から考える

では、データの標準化を進めるには、どのような観点で考えれば良いでしょうか?

 

<①データ形式の標準化>

1つ目は、「データ形式の標準化」です。これは、データ項目の保持形式、並び順、正規化の要否などに対して、ある一定の基準を決め、全てのデータをその基準に合わせることを指します。例えば保持形式については、フラグ項目はデータ項目名の末尾は「~フラグ」で揃え、データ値は「0=オフ」「1=オン」に統一する。

また並び順については、データ項目フォーマットの先頭から、Key項目、5W1H項目、末尾にデータ更新者・更新日を保持させる。このようにデータの形式的な側面に着目し、設計者の属人性を排除したり、システム毎の個別最適にならないよう、あらかじめ標準のルールを定めます。ルールを定めることでデータ設計の品質が均一になりますし、ルールの違いによるバラバラなデータ構造の発生を防ぐことができます。また、一度定めたルールは他のプロジェクトでも使い回しができるため、組織内で知識として蓄えておくことをお薦めします。

 

<②データ内容の標準化>

次は、いよいよ、「データ内容の標準化」です。これは、事業領域や地域固有にバラバラに設計されたデータの内容を、ビジネスを横断した視点で統一することを指します。ここでは、全てはご紹介しきれないので、一部だけお伝えします。

代表例としてよくあるのが「業務用語の標準化」です。例えば、A業務では「得意先」、B業務では「アカウント」と呼んでいる2つのデータがあると仮定したとき、これらを1つにしたデータをどのように命名するのが相応しいでしょうか?

1つのアプローチの方法として、まずA・B業務の各々データが表している内容や範囲を調査します。A業務の「得意先」はその会社の全顧客を指しており、B業務の「アカウント」はweb経由で受注した顧客を指していることが判明したとします。この場合、全社横断的な業務を担っているA業務の「得意先」を標準の業務用語として採用し、統合データは「得意先」と命名すると良いでしょう。

標準用語は、業務内のコミュニケーションで使用され、また様々なドキュメントでも登場します。そのため、全社に浸透していて、より広いスコープを管理する際に使われている名称を選ぶことが重要になります。

もう一つの例は「標準保持項目の選定」です。例えば、各システムの受注テーブルではおおよそ100個の項目を保持していたとします。すべてのデータ項目を標準化するのは現実的ではありませんし、必要もないかもしれません。では、この中から標準化対象のデータ項目をどう選定すると良いでしょうか?

答えは、組織や事業で横串参照したいデータ項目に絞る、です。このデータ項目は、データ利活用の目的やKPIの集計軸から決めていきます。おおよそ、5W1H=Who(顧客、従業員)、What(商品)、Where(国、会社)、When(年別、月別、日別)、How(金額、数量)に該当する項目が対象となることが多いはずです。私がこの基準に照らし合わせて作業したときは、標準化対象を100項目から20項目以下に抑えることができました。

上記も含めて、データ内容の標準化は、個々のエンティティやデータ項目の意味・用途を理解した上で取り組む必要があります。Asisの実態を調査すること、そしてどのようなデータを保持すべきかを判断する軸・基準を設定することが重要です。

 

まとめ

データ標準化
Philip NeumannによるPixabayからの画像

<①データ形式の標準化>では、データの形式的な側面に着目し1つの基準を決めどのデータも一律その基準に合わせて標準化を行います。ある意味トップダウンで基準を決める方法です。一方、<②データ内容の標準化>では、1つ1つのデータが持つビジネス上の意味に着目します。これは<①データ形式の標準化>と同様、一定の基準(5W1H項目に絞るなど)は定めるものの、ボトムアップでAsisのビジネス実態を踏まえながら「あるべき標準化のかたち」を1つ1つのデータごとに考える必要があり、より丁寧なアプローチが求められます。

すでにデータの標準化に取り組んでいる方々、これから取り組もうと思っている方々の参考となれば幸いです。