データライフサイクル : データガバナンス用語解説10

mohamed HassanによるPixabayからの画像

データライフサイクルとは

DMBOK2では、データ資産が生み出されてから消去されるまでをデータライフサイクルと呼び、次のように定義しています。

「データライフサイクルには、データを生成または取得するプロセス、データを移動、変換および格納し、維持および共有するプロセス、データを利用または適用するプロセス、そして廃棄するプロセスが含まれ、このサイクルを通じてデータはクレンジング・変換・統合・強化・集計される。」

<DMBOK2(P.52)を抜粋要約>

データ資産を効果的に管理するためには、データライフサイクル全体を通して、その計画を立てる必要があります。

ライフサイクルを通じたデータ資産の管理例

では、データライフサイクル全体を通したデータ資産の管理とは具体的にどのようなものでしょうか。データ品質管理を例に、各プロセスでは何を実施するのかを解説します。

計画:

計画プロセスでは組織の業務課題・業務テーマに沿って、データの品質はどうあるべきかを検討します。例えば、取引先の住所情報が誤っていた場合、誤出荷や納入遅延が発生し、組織の信頼が失われる、といった問題につながります。従って、住所情報に関して、正確かつ最新状態を保つことなどの観点から、データ項目単位で具体的なデータ品質の要件を定義します。

設計・実装:

計画プロセスで定めたデータ品質の要件にもとづいて、品質を維持するための仕組みを構築します。先ほどと同様、取引先を例にすると、名称や住所入力のばらつきをなくすために書式や取りうる値の範囲を標準化し、不正確・不完全なデータが登録されないような入力チェックの仕組みをシステムへ実装します。

生成/取得:

実装が完了し運用が開始されたら、組織はあらかじめ決められたルールに従いデータを生成していきます。例えば、取引先の情報など、既に登録されているものがないか、などの重複チェックをしたり、社内外の他の組織から取得したデータは、値に不備がないことなどをチェックしたりします。

維持と利用:

データの利用はデータライフサイクルの中で特に重要です。データは利用されて初めて価値が生まれます。ただしデータが不正確だと、誤った意思決定を招く可能性がありリスクにもなります。そのため、データクレンジングなどのデータ品質を維持するための作業が必要不可欠です。取引先の例では、同一企業を表す重複したデータの名寄せや、合併・移転に伴う名称や住所変更した際のデータ更新に関する運用ルールなどを定め、データ品質の維持に努めます。

廃棄:

利用しなくなったデータは、いつまでも残すことなく廃棄する必要があります。過去のデータや無効になったデータは業務上のリスクになるほか、維持するための管理コストも必要となるからです。例えば、企業の合併などにより、無効となった取引先のデータは、削除フラグを付け、システム的に利用を禁止するなど、誤用による業務上のトラブルが発生しないようにします。データ資産としての管理が不要になったものは、ある時点で廃棄するといった基準を設けることがポイントです。

まとめ

データライフサイクル全体を通したデータ資産の管理について、データ品質管理の観点で述べてきました。ほかにも、データセキュリティの観点では、個人情報や機密情報など保護が必要なデータについては、管理リスクを軽減するために不要なものや不当な収集を行わない、利用は限定するといったことも要件として検討が必要になります。データマネジメントを効果的に推進するには、データライフサイクル全体を俯瞰してデータガバナンスの仕組みを検討していくことが重要です。