DATAFLUCT Tech Blog

データ技術・データサイエンス・MLOps に関するトレンドを追いかけます

データ基盤とは何か? 収集・変換・統制の3つの構成要素に分けて解説

こんにちは。今回は、データ基盤を俯瞰して、全体像を理解してみたいと思います。

突然ですが、皆さんが所属されている会社では、データの活用は進んでいますでしょうか?自社内で、どういう風に、データの活用を進めていくとしても、データ基盤の整備は非常に大切です。

本記事では、「データ基盤とは何か?」という点から話を進め、データ基盤を構成する3つの要素に注目し、全体感を捉えていきたいと思います。
今後、データ基盤を整備していく方に、少しでもお役に立てたら幸いです。

データ基盤とは?

そもそも、「データ基盤」とは何でしょうか?その問いから考えてみたいと思います。データ基盤とは、自社内(又は、社外も含む) データの活用を適切に、且つ、スムーズに行えるようにする基盤環境のことを指します。データの活用が自社内に浸透し、根付いているところは、データ基盤が、しっかりと整備・運用されていることをよく見聞きします。

もし、データ基盤が無ければ、データ活用はどういう流れになるでしょうか?

データを「活用」するには、解きたい問題に対して、必要なデータを集めてくる必要があります。
その際、データの基盤環境が無ければ、自ら、必要なデータがどこに存在するかを関連部署に問い合わせ、きちんと保存されているかを調査するところから始めないといけません。場合によっては、必要なデータがあまり存在しておらず、当面の代替手段や蓄積の方法から検討しないといけないケースもあり得るでしょう。

必要なデータが存在することが判明したとしても、必ずしも、すぐに利用できるとは限りません。

何故なら、そのデータが、何らかのファイル形式で保存されているのであれば、分析環境にコピーするだけで済みますが、本番サービス用のデータベースに保存されている場合は、データ抽出時の負荷を気にする必要があります。サービスの運用者からすれば、本番サービスのデータベースに、過大な負荷がかかることは、何としても避けたいことでしょう。

また、仮に、ファイルでデータが保持されているとしても、大量にファイルが存在する場合は、それらのファイル全てをコピーする必要があります。それだけで、かなりの時間を要することでしょう。

そして、それら以外にも、データの品質は活用できる状態にあるか?データの各項目の意味は何か?といった別の問題もあります。

データ活用の熱意があったとしても、既に、障壁が大きいですよね・・?

データ基盤を整えることは、そういった最初の壁を無くすことに繋がるのです。もちろん、それ以外にも、活用できるためのデータの一元管理やデータの集計・分析自体を効率良く行うといった側面もあります。

データ基盤の3つの構成要素とは?

それでは、データ基盤は、どういう構成になるのでしょうか?

自社のデータ活用のフェーズや用途次第ではあるかと思いますが、一般に、以下のようなイメージになることが多いかと思います。(本記事は、あくまで、全体象を理解するためのイメージですので、システムに関する具体的な説明は省略しています。)

データ基盤は、大きく3つの要素(機能)で構成されていると、筆者は考えています。
それらは、以下の3つです。

  • 収集
  • 変換
  • 統制 

それらの構成要素を1つずつ見ていきましょう。

1. 収集

「収集」とは、各所に散在するデータを1箇所に集めてくる機能を指します。前述のデータ活用の「壁」でも見てきたように、自社内には、各所にデータが散在しているはずです。また、そのデータが保持されている形式も、データベースやテキストファイルなど、様々な形で保存されていることが多々あります。

そのため、データを 1つの場所へ集約する機能は、大事な要素となります。

2.変換

次に、「変換」を見ていきましょう。変換とは、集められたデータを活用できるように、適切な形に変える機能を指します。集められてきたデータは、様々な形式で保持されています。その形式を統一して、扱いやすくする必要があります。また、データの項目の表記が統一されていないケースも考えられます。その表記も、同じ形式に統一し、データを活用しやすくするために変換を行うのです。

データの活用を促進するには、いかに利用しやすいデータを用意するかにかかっているため、変換の機能は、非常に大事な要素となります。

3.統制 

最後は、「統制」です。統制とは、特定のデータへのアクセス権限の管理機能を指します。データ基盤が整備され、データの活用が浸透してくれば、徐々に、データ基盤のユーザは増えてくることでしょう。最初のうちは、基盤のユーザ全員が全てのデータにアクセスできても大きな支障はないかもしれませんが、活用が広がってくれば、必ず、統制は必要になります。例えば、ある部署は、そのデータにアクセス可能だが、それ以外の部署は、アクセス不可といったケースが想定されるでしょう。

データの活用が浸透すればするほど、データ活用における自社内の統制(コントロール)は避けられないため、統制の機能は、データ基盤の適切な運用には欠かせない要素となります。

3つの構成要素の実装の流れ

ここまで、データ基盤の3つの構成要素を見てきました。
今回は、具体的なデータ基盤の開発までは触れませんが、3つの構成要素の実装の流れを簡単に見ていきたいと思います。

まずは、データ活用で必要なデータを調査し、データ基盤への「収集」と「変換」の機能を実装していきます。この段階では、データ基盤を利用するユーザは少ないでしょうから、「統制」の機能の実装は、そこまで注力されません。

データの活用が進んでいく中で、更に、必要なデータが明らかになってくると思いますので、再度、「収集」と「変換」の機能を充実させていくことになるでしょう。

そして、データが更に増えてくると、各データが、各ユーザにどこまでアクセスされるのが妥当なのかの検討が必要になってきますので、その段階で、データへの「統制」の機能を充実させていく流れとなります。

(勿論、データ基盤のユースケースにより、実際のデータ基盤の開発では、必ずしも、上記の流れになるとは限りません。)

つまり、データ基盤は、データ活用とセットで運用されていくので、一度作って終わりではなく、運用しながら、改良・改善をしていくことになります。

まとめ

データ基盤と基盤の構成要素について見てきました。

  • データ基盤は、データ活用における壁を無くし、スムーズに効率良くデータを活用できるようにする基盤環境である。
  • データ基盤は、「収集」・「変換」・「統制」の3つの構成要素で構築されている。
  • データ基盤は、一度開発して終わりではなく、データ活用の進捗具合を踏まえ、運用しながら、改良・改善していくものである。 

データ基盤を俯瞰的に捉えて、開発の流れや今後のロードマップを策定していく中で、3つの構成要素で考えていくと検討しやすいかと思いますので、本記事が参考になりましたら幸いです。