Im Jahr 2011 pr?gte James Dixon, der Gr¨¹nder und damalige CTO von Pentaho "Data Lake" Sein Ziel war es, die Probleme mit traditionellen Data Warehouses zu ¨¹berwinden, die mit der Notwendigkeit einer Vorkategorisierung am Einstiegspunkt zusammenh?ngen. Seitdem haben wir uns von den Ideen der Data Warehouses und Data Lakes weiterentwickelt und sind beim aktuell hei?esten Thema angelangt - dem "Data Mesh"
Angesichts der wachsenden Bedeutung datengest¨¹tzter Entscheidungen f¨¹r den Unternehmenserfolg werfen wir einen kurzen Blick darauf, wie jedes dieser Konzepte Ihren Betrieb unterst¨¹tzen kann
91Ô´´
Ein Data Warehouse unterst¨¹tzt die Integration von Daten aus heterogenen Quellen, kategorisiert und speichert sie f¨¹r die k¨¹nftige Verwendung. Die operativen Schemata werden hier f¨¹r jede relevante Gesch?ftsanforderung vordefiniert, in der Regel nach dem ETL-Prozess (Extract-Transform-Load).
Zu den Herausforderungen, die mit einem Data Warehouse verbunden sind, geh?ren:
- F¨¹r jede neue Gesch?ftsanforderung m¨¹ssen wir die entsprechenden Quellen und Daten identifizieren, um das Schema zu erstellen und den ETL-Prozess zu implementieren.
- Wenn das bestehende Schema aktualisiert werden muss, kann dies eine Herausforderung in Bezug auf den Zeitbedarf darstellen, da das Datenvolumen recht gro? sein kann (mehrere Terabytes/Petabytes)
- Mehrere Data Warehouses k?nnten von Gesch?ftsanwendern erstellt worden sein, um ihre eigenen Rohdaten und verarbeiteten Daten f¨¹r ihre Analyse- und BI-Berichte zu pflegen, was zu einer Duplizit?t der Quellen f¨¹hrt.
91Ô´´
Data Lakes haben dazu beigetragen, die meisten der oben genannten Probleme mit Hilfe einer schemafreien Architektur f¨¹r die Speicherung jeder Art von Daten in einem zentralisierten Speicher zu l?sen. Sie sind mit mehreren Zonen konzipiert, angefangen von der Landing Zone f¨¹r den Empfang der Daten (tempor?rer Datenspeicher), der Rohdatenzone f¨¹r die Speicherung der urspr¨¹nglichen Daten, der Produktionszone, in der die bereinigten und verarbeiteten Daten gespeichert werden, der sensiblen Zone f¨¹r die Speicherung sensibler Daten und der Entwicklungszone f¨¹r die Arbeit der Datenwissenschaftler und Ingenieure. Dies wird ¨¹ber eine rollenbasierte Zugriffsverwaltung gesteuert.
Mit Data Lakes wird der ETL-Prozess nun zum ELT-Prozess (Extract-Load-Transform), bei dem alle Daten aus heterogenen Quellen zun?chst in einem einzigen Speicher gesammelt werden (stellen Sie sich vor, dass verschiedene Datenstr?me in einen See flie?en). Das Team aus Dateningenieuren, Datenwissenschaftlern und Gesch?ftsanalysten kann dann die wichtigsten Ergebnisse dynamisch ableiten.
Ungeachtet der Vorteile haben Data Lakes ihre eigenen Herausforderungen, darunter:
- Alle Daten werden in einem zentralen Speicher gesammelt, was zu einem Datensumpf f¨¹hren kann, wenn es keine angemessene Katalogisierung gibt.
- Dateningenieure, die sich mit einem Data Lake befassen, verf¨¹gen nicht immer ¨¹ber ein tiefes Dom?nenverst?ndnis, um die Zielergebnisse f¨¹r das Unternehmen abzuleiten.
91Ô´´
Ein Datengeflecht, das seinem Gegenst¨¹ck, dem Dienst, ?hnelt. Es l?st das oben genannte Problem, indem es die Daten in Gesch?ftsbereiche aufteilt, in denen jeder Nutzer die relevanten Daten als Produkt besitzt, um sicherzustellen, dass jede Information vorhanden ist:
- Auffindbar
- Adressierbar
- Vertrauensw¨¹rdig und wahrheitsgetreu
- Selbstbeschreibend
- Interoperabel, und
- Sicher

Abbildung 1 Data Mesh-Architektur aus der 30K-Fu?-Ansicht von Martin Flower
Ref:
Data Mesh ist ein neues Muster, das neben Data Warehouse und Data Lakes existiert. W?hrend Data Warehousing die ¨¹bergeordnete Aktivit?t bleibt, fungieren Data Lakes als breiterer Informationsspeicher, wobei das Data Mesh einen schnelleren Zugriff auf Erkenntnisse und Analysen erm?glicht.
Durch die Einf¨¹hrung einer virtuellen Trennung innerhalb eines Data Lakes und die ?berwindung der Herausforderungen, die mit einer Datenpf¨¹tze oder einem Datenteich verbunden sind, hat sich ein Data Mesh daher als das hei?este neue Thema in diesem Bereich herauskristallisiert.