🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Azure Data Factory: Was ist das und wozu dient es?

-
4
 Minuten Lesezeit
-

Im Zeitalter von Big Data sind die Rohdaten oft unorganisiert und in unterschiedlichen Systemen gespeichert. Wenn diese Daten isoliert sind, können Unternehmen und Datenteams sie nicht optimal nutzen und daraus Entscheidungen ableiten. Die Microsoft Azure Data Factory soll diese Probleme lösen, indem sie Rohdaten aus verschiedenen Quellen zu verwertbaren Daten für Unternehmen macht.

Was ist die Azure Data Factory?

Azure Data Factory ist ein Dienst, der von Microsoft entwickelt wurde, um es Entwicklern zu ermöglichen, verschiedene Datenquellen zu integrieren. Es handelt sich um eine SSIS-ähnliche Plattform, mit der du die Daten, die du physisch und in der Cloud hast, verwalten kannst.

SSIS-Definition: SSIS – SQL server integration services – ist eine Komponente der Software Microsoft SQL Database, mit der du Datenmigrationen durchführen kannst.

Dieser Dienst ermöglicht den Zugriff auf Daten vor Ort wie in einer SQL-Datenbank, aber auch auf Daten in der Cloud wie in der Azure SQL Database.

Azure Data Factory ist eine perfekte Lösung, wenn es darum geht, hybride Pipelines für Extraktion-Transformation-Laden (d. h. den ETL-Prozess) oder Extraktion-Laden-Transformation (ELT) und Datenintegration aufzubauen.

ETL ist eine Art Datenintegrationsprozess, der aus drei verschiedenen, aber miteinander verbundenen Schritten besteht (Extraktion, Transformation und Laden). Es wird verwendet, um Daten aus mehreren Quellen immer und immer wieder zusammenzufassen, um ein Data Warehouse, einen Data Hub oder einen Data Lake aufzubauen.

Data Factory ist zu einem unverzichtbaren Werkzeug beim Cloud-Computing geworden. In fast allen Projekten musst du Aktivitäten durchführen, bei denen du Daten über verschiedene Netzwerke (Vor-Ort-Netzwerk und Cloud) und Dienste (von und zu verschiedenen Azure-Speichern) verschiebst.

Data Factory ist ein besonders notwendiges Werkzeug für Organisationen, die ihre ersten Schritte in der Cloud machen und daher versuchen, die Daten vor Ort mit der Cloud zu verbinden. Um dies zu erreichen, verfügt Azure Data Factory über eine Integration Runtime Engine, einen Gateway-Service, der vor Ort installiert werden kann und eine leistungsstarke und sichere Übertragung von Daten von und zur Cloud gewährleistet.

Wie funktioniert die Azure Data Factory?

Anmelden und Daten sammeln

Der erste Schritt besteht darin, Daten aus verschiedenen Quellen zu verbinden und zu sammeln, egal ob sie lokal, in der Cloud, strukturiert oder unstrukturiert sind. Die Azure Data Factory ermöglicht es, alle verschiedenen Datenquellen und Datenverarbeitungsdienste miteinander zu verbinden. Anschließend geht es darum, die Daten an einen zentralen Ort zu verschieben. Im klassischen Fall müssen Unternehmen die gesamte Dateninfrastruktur aufbauen, um die Daten zu verschieben. Mit Data Factory ist dieser Schritt sehr einfach und schnell.

Transformation von Daten

Sobald sich die Daten in einem zentralen Datenlager in der Cloud befinden, ermöglicht die Azure Data Factory Datenteams, die gesammelten Daten mithilfe der Azure Data Factory-Mapping-Datenströme zu verarbeiten und zu transformieren. Mithilfe der Datenströme können Dateningenieure Datenumwandlungsgrafiken erstellen und pflegen, die auf Spark laufen, ohne Spark-Cluster oder die Spark-Programmierung verstehen zu müssen. Azure Data Factory ermöglicht es dir jedoch auch, all diese Transformationen von Hand zu codieren, wenn du möchtest, und du kannst deine Transformationen auf Rechendiensten wie HDInsight Hadoop, Spark, Data Lake Analytics und Machine Learning ausführen.

Veröffentlichung von Daten und Aufsicht

Azure Data Factory ermöglicht es Dir, Deine Daten zu veröffentlichen. Data Factory bietet dir die Möglichkeit, die CI/CD – continuous integration/continuous delivery – der Pipelines vollständig zu unterstützen, z. B. mit Azure Devops. Auf diese Weise kannst du deine ETL-Prozesse erstellen und weiterentwickeln. Sobald alle deine Rohdaten umgewandelt sind, kannst du sie in andere Azure-Analysetools hochladen, damit deine Mitarbeiter sie visualisieren, Entscheidungen treffen, den Datenfluss mit einer reichhaltigen grafischen Benutzeroberfläche überwachen und Entscheidungen treffen können. Sobald du also deine Datenpipelines erstellt hast, kannst du den Geschäftswert deiner Daten nutzen. In dieser Phase kannst du die Pipelines überwachen und auf Leistungsindizes oder deine Erfolgsraten zugreifen.

Azure Data Factory VS herkömmliche ETL-Tools

Azure Data Factory ist eine der besten Optionen, wenn es um den Aufbau von ETL- (oder ELT-) Pipelines in der Cloud und in hybriden Systemen geht. Es gibt einige Merkmale, die Azure Data Factory von anderen Tools unterscheiden.

  • Die Fähigkeit, SSIS-Pakete auszuführen.
  • Automatische Anpassung an die gegebene Auslastung. Azure Data Factory geht sogar noch einen Schritt weiter, indem es seinen Kunden versichert, dass die Preise für Data Factory nutzungsbasiert sind. Die Anzahl der Aktivitäten (Datenverarbeitungsschritte) pro Monat und die Nutzung der Integrationslaufzeit wird pro Stunde abgerechnet, abhängig von der Maschine und der Anzahl der genutzten Knoten.
  • Nahtlose Verbindung zwischen Systemen vor Ort und der Azure-Cloud über ein Gateway.
  • Verwaltung großer Datenmengen, die im Zeitalter von Big Data von entscheidender Bedeutung sind
  • Möglichkeit, es mit anderen Rechendiensten (Azure Batch, HDInsights) zu verbinden und mit ihnen zusammenzuarbeiten, um wirklich große Datenberechnungen während des ETL durchzuführen.

Schließlich ist einer der sehr großen Vorteile die schnelle und einfache Integration mit anderen Azure Compute & Storage-Ressourcen. Es gibt 2 Arten von verbundenen Diensten – d.h. Verbindungsketten – die du definieren kannst:

  • Ein Speicherdienst, um einen Datenspeicher – Datamart – darzustellen, der : Azure SQL Database, Azure SQL Data Warehouse, eine On-Premise-Datenbank, ein Data Lake, ein Dateisystem, eine NoSQL-DB usw.
  • Eine IT-Abteilung zur Umwandlung und Anreicherung von Daten: z. B. Azure HDInsight, Azure Machine Learning, gespeicherte Prozedur auf jeder SQL, U-SQL Data Lake Analytics Aktivität, Azure Databricks und/oder Azure Batch (unter Verwendung einer benutzerdefinierten Aktivität).

Daten erfordern Software und Dienstleistungen, die Prozesse rationalisieren können, um die in den Systemen gespeicherten Rohdaten in Daten zu bereinigen, die von den Datenteams genutzt werden können. Die Beherrschung von Software wie Azure Data Factory ist heute für Data Engineer und Data Scientists unerlässlich.

Wenn Du mehr über diese unumgänglichen Datenberufe erfahren möchtest, dann informiere Dich über die Ausbildung zum Data Engineer, die von DataScientest angeboten wird und von der Universität Paris 1 Panthéon-Sorbonne zertifiziert ist.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.