Data Mesh ist eine Datenarchitektur, die die Zusammenarbeit und den Selbstbedienungsservice vereinfacht. Erfahre mehr über dieses neue Paradigma, das aufgrund seiner vielen Vorteile immer häufiger in Unternehmen eingesetzt wird.
Viele Unternehmen nutzen Big Data. Durch die Auswertung von Daten mithilfe von Analysen können bessere Entscheidungen getroffen werden. Die Datenarchitektur einer Organisation ist jedoch nicht immer optimal.
Um das volle Potenzial der Daten zu entfalten, müssen Data Scientists in der Lage sein, Abfragen durchzuführen und die Daten nahtlos zu erforschen. Häufig bietet ein siloartiges Data Warehouse oder ein Data Lake nur begrenzte Möglichkeiten und erfüllt nicht die Anforderungen.
Das Paradigma der Data Mesh-Architektur behebt diese Probleme. Aus diesem Grund wird es in allen Branchen massiv und mit rasanter Geschwindigkeit eingesetzt.
Auch interessant:
Data Science im Zeitaler von Big Data |
Power Platform – Die Big Data Plattform von Microsoft |
Big Data Berufe |
Big Data Definition und Anwendung |
Big Data für Dummies |
Was ist ein Data Mesh?
In der Welt der Softwareentwicklung sind die Teams von monolithischen Anwendungen zu Microservice-Architekturen übergegangen. Einfach ausgedrückt: Data Mesh ist das Äquivalent zu Microservices für Daten.
Der Begriff Data Mesh wurde zum ersten Mal von Zhamak Dehghani, einem Berater bei ThoughtWorks, erwähnt. Diese Art von Datenplattform-Architektur umfasst die Ubiquität von Daten, indem sie einen domänenorientierten Selbstbedienungsansatz nutzt.
Gemäß der domain-driven Designtheorie von Eric Evans besteht die Idee darin, die Struktur und die Sprache des Codes mit der Domäne des Unternehmens zu verbinden. Für viele ist das Data Mesh der nächste architektonische „Shift“ von Big Data.
Traditionelle monolithische Dateninfrastrukturen fassen den Verbrauch, die Speicherung und die Umwandlung von Daten in einem zentralen Data Lake zusammen. Dies ist beim Data Mesh nicht der Fall, in dem jeder Bereich seine eigene Datenpipeline unterstützt. Eine universelle Interoperabilitätsschicht, die die gleiche Syntax und die gleichen Datenstandards verwendet, verbindet die Daten aus den verschiedenen Bereichen.
Die Data Mesh basiert auf mehreren Schlüsselkonzepten. Zunächst einmal wird das „Dateneigentum“ zwischen verschiedenen domänenorientierten „Data Ownern“ aufgeteilt. Jeder ist für seine Daten als Produkte verantwortlich. Sie müssen auch die Kommunikation zwischen den Daten, die über verschiedene Standorte verteilt sind, erleichtern.
Die Dateninfrastruktur ist dafür verantwortlich, jeder Domäne die Lösungen zur Verfügung zu stellen, die sie zur Verarbeitung der Daten benötigt, aber die Domänen haben die Aufgabe, die Aufnahme, Bereinigung und Aggregation der Daten zu verwalten, um Elemente zu erzeugen, die von Business-Intelligence-Anwendungen verwendet werden können.
Jede Domäne besitzt und verwaltet ihre ETL-Pipelines, mit Ausnahme einer Reihe von Fähigkeiten, die auf alle Domänen angewendet werden, um die Rohdaten zu speichern, zu katalogisieren und die Zugriffskontrollen zu pflegen. Wenn die Daten von einer Domäne umgewandelt wurden, können die Eigentümer die Daten für ihre Analysebedürfnisse nutzen.
Selbstbedienung ist eine weitere Besonderheit des Data Mesh. Die Prinzipien des domänenorientierten Designs werden genutzt, um eine Selbstbedienungsplattform bereitzustellen, die es den Nutzern ermöglicht, sich von der technischen Komplexität zu befreien und sich auf ihre individuellen Anwendungsfälle der Daten zu konzentrieren.
Eine zentrale Plattform unterstützt die Engines für die Datenpipelines, die Speicherung und die Streaming-Infrastruktur. Jeder Bereich ist dafür verantwortlich, diese Komponenten zu nutzen, um ETL-Pipelines zu starten, die auf seine Bedürfnisse zugeschnitten sind. Dieser Ansatz vermeidet die Vervielfachung der Anstrengungen und Fähigkeiten, die für die Pflege der Datenpipelines und -infrastrukturen erforderlich sind, und gibt den Teams Autonomie.
Schließlich wird die Interoperabilität durch eine Reihe von universellen Standards gewährleistet, die die Zusammenarbeit zwischen den Bereichen erleichtern. Datenformate, Governance, Discoverability oder Metadatenfelder müssen standardisiert sein, um die Zusammenarbeit zwischen den verschiedenen Bereichen rund um die Daten zu ermöglichen.
Warum sollte man ein Data Mesh verwenden?
Bisher nutzten viele Unternehmen ein einziges Data Warehouse, das mit zahlreichen Business-Intelligence-Plattformen verbunden war. Eine kleine Gruppe von Spezialisten war für die Pflege dieser Lösungen verantwortlich.
Inzwischen sind jedoch Data-Lake-Architekturen in Mode gekommen, die Daten in Echtzeit zur Verfügung stellen und eine Verarbeitung per Streaming ermöglichen. Das Ziel ist es, Daten von einer zentralen Plattform aufzunehmen, anzureichern, umzuwandeln und zu liefern.
Diese Art von Architektur hat jedoch einige Schwachstellen. Eine zentrale ETL-Pipeline bietet weniger Kontrolle über die wachsenden Datenmengen, und dieser Ansatz berücksichtigt auch nicht die Besonderheiten der verschiedenen Datentypen.
Domain-orientierte Architekturen wie Data Meshes bieten das Beste aus beiden Welten. Sie kombiniert eine zentrale Datenbank oder einen Data Lake mit Bereichen oder Abteilungen im Unternehmen, die für die Verwaltung ihrer eigenen Pipelines verantwortlich sind. Es ist viel einfacher, ein Data Mesh zu erweitern, da es in kleinere domänenorientierte Komponenten zerlegt werden kann.
Wann sollte man den Data Mesh-Ansatz anwenden?
Das Data Mesh kann besonders für Teams relevant sein, die eine große Menge an Datenquellen verwalten und diese schnell verarbeiten müssen.
Die Wahl der Datenarchitektur hängt von mehreren Faktoren ab, darunter die Menge der Datenquellen, die Größe des Teams, die Anzahl der Datendomänen, die Barrieren, mit denen das Data-Engineering-Team konfrontiert ist, und die Bedeutung der Data Governance innerhalb der Organisation.
Je größer und komplexer die Anforderungen an die Dateninfrastruktur innerhalb des Unternehmens sind, desto wahrscheinlicher ist es, dass ein Data Mesh von Vorteil ist. Diese Architektur verbessert auch die Beobachtbarkeit von Self-Service-Daten.
Wie kann man sich in Data Mesh ausbilden lassen?
Die verschiedenen Data Architectures zu beherrschen ist sehr wichtig für die Berufe im Bereich Data Science. Um die Prinzipien des Data Mesh kennen zu lernen und zu implementieren, kannst du die DataScientest-Ausbildungen wählen.
Unsere verschiedenen Programme ermöglichen es dir, die Data Mesh-Architektur zu entdecken und alle Fähigkeiten zu erwerben, um Data Scientist, Data Engineer oder auch Data Analyst zu werden: Datenbanken, Data Visualization, Programmierung in Python, Machine Learning…
Alle unsere Kurse werden im intensiven BootCamp-Modus oder als Weiterbildung angeboten. Je nach deinen Bedürfnissen und deiner Verfügbarkeit kannst du den Ansatz wählen, der dir am besten passt. Unsere Kurse sind sowohl für Berufstätige als auch für Arbeitssuchende und Studenten zugänglich.
Die Programme werden von Experten entworfen und unser „Blended Learning“-Ansatz beruht auf einer gecoachten SaaS-Plattform und auf Masterclasses. Am Ende des Kurses erhältst du ein Zertifikat, das von MINES ParisTech und Dauphine PSL ausgestellt wird. Von unseren Alumni haben 80 % sofort einen Job gefunden.
Zur Finanzierung: Unsere Ausbildungen sind im Rahmen des Bildungsgutscheins förderfähig. Verliere keinen Moment mehr und entdecke die DataScientest-Weiterbildungen.