『DataOpsとは』 ~データライフサイクルのカイゼン活動~
DataOps(データオプス)は、IBMのBig Data & Analytics HubのWebサイトに2014年に投稿された記事が初出となります。ちょうどこのころIoTやデータサイエンスといったトピックが重なり、企業のデータ量も急拡大し始めた時期にあたります。当初はいつものバズワードとして終わるかなと考えていたのですが、国内の大手ベンダがツールの紹介やカンファレンスのなかで、頻繁に取り上げるようになってきました。
DataOpsとは?
DataOpsとは、データサイエンスやアナリティクスの分野におけるデータ利活用の進め方のひとつです。データの利用者が、データの管理者と協力・連携し、利用するデータとそれを処理するプロセスを改善し続ける活動であり、そのための手法のことを指します。よく似た言葉としてDevOps(デブオプス)があります。こちらはシステムの開発担当者(Development)と運用担当者(Operations)が協力・連携することで、システム機能やその運用業務を改善する活動や手法のことをいいます。もともとDataOpsは、このDevOpsのコンセプトをデータ利活用に適用する形で生まれました。アジャイル開発の進め方を前提としており、データライフサイクルにおける計画・設計から利用・見直しまでの一連の工程を1つのスプリント/イテレーションとみなし、これを複数回繰り返します。この繰り返しの中で、利用者と管理者のコミュニケーションギャップの解消や、無駄なプロセスの改善を行います。そのためDataOpsをアジャイル的データマネジメント、と呼んでもいいかもしれません。さらに理解を深めたい方には、DataOpsを実践する際の18の原則をまとめた「DataOpsマニフェスト(2017 DataKitchen社)」が公開されていますのでこちらを参考にされるとよいでしょう。
https://www.dataopsmanifesto.org/dataops-manifesto.html?lang=jp
DataOpsが登場した背景
世界中の企業が、データに基づく経営の意思決定や、データ利活用による新規ビジネスの立ち上げに取り組んでいます。経営や事業環境の変化に迅速に対応するためにも、必要なデータを素早く特定し利用者に扱いやすい形で提供しなければなりません。しかし多くの企業では、データを取り扱う現場でさまざまな問題を抱えており、迅速なデータ提供を実現できていないのが実情です。たとえば、
- ソースシステムの管理者は、自分たちとは異なる利活用要件にデータを加工・変換するための作業時間を削れない。
- データ統合基盤の管理者は、全社要件を考慮して作業するため、個別要件を持った利用者へのデータ提供が遅くなってしまう。
- 利用者が必要なデータの特定から分析まで一手に担うと、現状調査や前処理に作業時間の8割を費やしてしまい、残り2割の時間で分析をしなくてはいけない。
などこのような背景からDataOpsが注目されるようになりました。DataOpsにより、利用者と管理者間で生じる利害の調整や役割分担が改善し、プロセス全体が最適化することが期待されます。
DataOpsはデータライフサイクル全体の「カイゼン」活動として捉えるべき
DataOpsは、その初期事例から、無駄なプロセスを削減するための自動化や機械学習支援が積極的に採用されてきました。そのためか最近は自動化/機械学習支援ツールやその機能の名称に”DataOps”を冠するものが増えてきました。また、海外ではそうしたツールの導入や運用を担う技術者が”DataOpsエンジニア”を名乗りはじめています。そのため“DataOps”≒ツールもしくはソリューションと考える人も増えつつあります。
しかし、そうした考えはあまりに狭い捉え方でしょう。DataOpsの基となったDevOpsは、ビジネスの価値を高めるシステム機能をユーザに届け続けるカイゼン活動としてはじまりました。この活動には、プロセスの最適化だけでなく、開発者、運用者、そして業務ユーザが協力し合うといった意識改革や文化の定着化も含まれていました。そのコンセプトを引き継いだDataOpsも同じ様に考えるべきです。ツールの導入や役割分担の見直しは一部の手段でしかありません。利用者と管理者がそれぞれに割り当てられた作業のことだけを考えていては、経営や事業環境の変化に素早く対応することが難しい世の中になってきています。
今後はデータ利活用の現場だけでなく、MDMやコンプライアンスのような幅広いデータマネジメント分野でも、DataOpsのコンセプトを参考に利用者と管理者が密に連携していく環境を目指すべきではないでしょうか。