2011年、Pentahoの創業者で当時CTOだったジェームズ?ディクソンは、"データレイク "という生み出した。彼の目的は、従来のデータウェアハウスが抱えていた、エントリー時点での事前分類の必要性という問題を克服することでした。それ以来、私たちはデータウェアハウスやデータレイクのアイデアを先取りし、現在最もホットな話題である "データメッシュ "にたどり着きました。
组织の成功を确実なものにするために、データ主导の意思决定の重要性が世界的に高まる中、これらのコンセプトのそれぞれがどのように业务を可能にするのか、简単に见てみましょう。
91原创
データウェアハウスは、異種ソースからのデータの統合をサポートし、将来の使用のためにデータを分類して保存する。 ここでの運用スキーマは、関連するビジネス要件ごとにあらかじめ構築されており、通常はETL(抽出-変換-ロード)プロセスに従います。
データウェアハウスに関连する课题には、次のようなものがあります:
- 新しいビジネス要件が発生するたびに、スキーマを构筑し、贰罢尝プロセスを実装するために、関连するソースとデータを特定する必要がある。
- 既存のスキーマを更新する必要がある场合、データ量が非常に大きくなるため(数テラバイト/ペタバイト)、必要な时间の点で课题となる可能性がある。
- ビジネス?ユーザーによって复数のデータウェアハウスが作成され、分析や叠滨レポート用の生データや処理済みデータが管理され、ソースの重复につながっている可能性がある。
91原创
データレイクは、あらゆる種類のデータを集中型ストアに保存するスキーマレスアーキテクチャの助けを借りて、上記の問題のほとんどを解決するのに役立っている。 データレイクには複数のゾーンが設計されており、データを受け取るためのランディングゾーン(一時データストア)、オリジナルデータを保存するためのローデータゾーン、クレンジングされ処理されたデータが保存されるプロダクションゾーン、機密データを保存するセンシティブゾーン、データサイエンティストやエンジニアが作業するためのデベロッパーゾーンがある。これはロールベースのアクセス管理によって制御される。
データレイクでは、贰罢尝プロセスが贰尝罢プロセス(贰虫迟谤补肠迟-尝辞补诲-罢谤补苍蝉蹿辞谤尘)に変更され、异种ソースからのすべてのデータがまず単一のストアに集められる(异なるストリームがレイクに流れ込むことを想像してほしい)。データエンジニア、データサイエンティスト、ビジネスアナリストのチームは、主要な结果を动的に导き出すことができる。
そのメリットはともかく、データレイクには以下のような课题がある:
- すべてのデータが一元化されたストアに収集されるため、适切なカタログ化が行われない场合、データ沼が発生する可能性がある。
- データレイクを扱うデータエンジニアは、ビジネスの目标结果を导き出すための深いドメイン理解を必ずしも备えていない。
91原创
データ?メッシュ(Data Mesh)は、対応するサービスと似ている。データをビジネス?ドメインに分割し、各ユーザーが関連データを製品として所有することで、各情報を確実にすることで上記の問題を解決する:
- 発见可能
- アドレス指定可能
- 信頼できる真実性
- 自己记述
- 相互运用可能で
- セキュア

図 1 マーティン?フラワーによる30碍フィートから见たデータ?メッシュ?アーキテクチャ
参考
データメッシュは、データウェアハウスやデータレイクと共存する新しいパターンである。データウェアハウスが全体的な活动であることに変わりはないが、データレイクはより広范な情报ストアとして机能し、データメッシュによって洞察や分析への迅速なアクセスが可能になる。
データレイク内に仮想的な分离を导入し、データプールやデータポンドに関连する课题の克服を支援することで、データメッシュはこの分野で最もホットな新しいトピックとして浮上している。