Zurück zu den Artikeln

Apache Flume: Was ist das? Wozu dient es?

30. April 2023

Minuten Lesezeit

Data Science

Alle Unternehmen, unabhängig von ihrer Größe oder Branche, verwenden Log-Dateien, um alle Ereignisse, die auf dem Webserver stattfinden, zu protokollieren. Aber im Zeitalter der Digitalisierung werden diese Ereignisse immer zahlreicher. Die Logs speichern dann eine exponentiell wachsende Menge an Daten. Um all diese Daten zu verarbeiten, brauchen Netzwerkadministratoren und DevOps leistungsfähige Werkzeuge. An dieser Stelle kommt Apache Flume ins Spiel. Worum handelt es sich dabei? Was sind seine Vor- und Nachteile? In diesem Artikel findest du alle Antworten.

Was ist Apache Flume ?

Angesichts der zunehmenden Menge an Daten, die durch Logs gesammelt werden, entstehen neue Tools, die die Auswertung von Logs erleichtern. Ein Beispiel dafür ist Flume Apache.

Flume Flume ist ein Tool, mit dem du große Mengen an Logs sammeln, aggregieren und verschieben kannst. Diese Lösung wurde speziell für die Bewältigung großer Mengen und Durchsatzraten entwickelt.

Zu diesem Zweck wird Apache Flume in ein HDFS geschrieben. Das heißt, ein verteiltes Dateisystem, das große Datenmengen verwaltet.

Die Idee dahinter ist, dass die Nutzer auf die Dateien im gemeinsamen Speichersystem zugreifen können. Und das von einem der Server im Netzwerk aus. Alle Ressourcen können so viel einfacher gemeinsam genutzt werden.

Da Apache Flume große Datenmengen verarbeiten kann, ist es besonders für Spitzenbelastungen geeignet.

Nach mehreren Überarbeitungen aufgrund einer zu komplexen Architektur und eines verschulten Codes wurde Flume OG (old Generation) zu Flume NG (new generation).

Dadurch kann das Tool den Nutzern erweiterte Funktionen und eine vereinfachte Bedienung bieten. Außerdem wurde es 2012 als Top Level Apache Project eingestuft. Das sind Open-Source-Projekte, die innovative Veränderungen in der IT-Welt bewirken sollen.

Wie funktioniert Flume ?

Die Architektur von Flume

Wie bereits erwähnt, ist Flume eine verteilte Lösung. Daher besteht die Architektur aus einer Vielzahl von Agenten.

Du musst also die verteilten Agenten definieren, die die Aufgabe haben, :

Daten aus einer Vielzahl von Quellen zu sammeln;
die Logs zu konsolidieren, um sie in ein Repository zu schreiben.
(wie ein HDFS-Cluster oder eine HBase-Datenbank) zu speichern.
Wir werden uns ihre Rolle genauer ansehen.

Die Agenten

Traditionell führt der Agent Routen aus, die sich wie folgt materialisieren: Source -> Channel -> Sink.

Jedes dieser Elemente erfüllt eine ganz bestimmte Funktion :

Die Flume-Quelle

Die Idee ist, die Nachricht von einer externen Quelle abzurufen, z. B. von einer Anwendung, Netzwerkverkehr, sozialen Medien, E-Mail-Nachrichten und vielen anderen Quellen.

Es gibt verschiedene Arten von Flume-Quellen; jede hat ihre eigenen spezifischen Eigenschaften. Die häufigsten sind die folgenden:

Avro: Dies ermöglicht die Kommunikation zwischen den verschiedenen Apache Flume-Agenten.
Spooling Directory Source: Erleichtert das Lesen eingehender Dateien.
Syslog (TCP oder UDP): Die Idee ist, die Ereignisse eines Syslog-Servers zu erfassen.
HTTP: Damit können POST- und GET-Anfragen übersetzt werden.

Dies ist eine nicht erschöpfende Liste. Die Agenten können nämlich eine Vielzahl von Quellen nutzen, je nach den Besonderheiten der Organisation.

Der Channel

Hier werden die Logs vom Agenten gespeichert. Auch hier gibt es verschiedene Channels, nämlich :

Memory: Die Ereignisse werden im Speicher gehalten.
JDBC: Hierbei handelt es sich um die Speicherung in einer Datenbank.
File: Hierbei handelt es sich um ein Filesystem, in dem die Logs gespeichert werden.

Der Sink

Dadurch werden die Logdaten in ihr Ziel-Repository zurückgeschrieben. Die Ereignisse können dann nach HDFS, IRC, HBase, ElasticSearch, File (oder lokale Datei) gepusht werden. Es ist auch möglich, Avro zu verwenden, um die Kommunikation mit einem anderen Agenten zu erleichtern.

Die Personalisierung

Auch wenn der vorherige Weg der klassischste ist, kannst du die Route immer noch anpassen. Du kannst z. B. einen Interceptor hinzufügen, der die Logs sortiert und filtert, damit sie in das richtige Repository geleitet werden.

In ähnlicher Weise können IT-Teams Links zwischen mehreren Agenten erstellen, mehrere Channels oder Sinks hinzufügen oder ihre eigenen Quellen, Channels oder Sinks über Java-Schnittstellen implementieren.

Der Weg kann dann zwar viel komplexer sein als zuvor, aber er macht den Datenfluss intelligenter. In jedem Fall geht es darum, eine Logverarbeitung zu realisieren, die sich an die Bedürfnisse der Organisation anpasst.

Was sind die Vorteile von Flume ?

Apache Flume wird von vielen Unternehmen eingesetzt und bietet eine Reihe von Vorteilen:

Einfachheit: Ob Installation, Konfiguration oder Betrieb, Apache Flume ist sehr einfach zu bedienen.
Individuelle Anpassung: Je nach Geschäftsanforderungen können Organisationen Java-Schnittstellen implementieren. Dadurch können zusätzliche Funktionen genutzt werden.

Kompatibilität: Flume wurde von einem Hadoop-Hersteller, Cloudera, unter der Apache-Lizenz entwickelt. Es ist also ein Werkzeug, das zum Open-Source-Big-Data-Ökosystem von Hadoop gehört. Als solches lässt es sich in die meisten Distributionen des Frameworks integrieren. Dies ermöglicht die Interaktion mit einer Vielzahl von Technologien.
Leistung: Da es sich um eine verteilte Lösung handelt, bietet Flume eine hervorragende Leistung und Skalierbarkeit. Unternehmen mit einem komplexen Informationssystem (mit mehreren tausend Ereignissen pro Sekunde) können dieses Tool perfekt einsetzen.
Zugänglichkeit: Da Apache Flume eine SaaS-Software ist, wird sie von allen Betriebssystemen (Windows, Mac, OS Mobile …) unterstützt, was den Zugriff von jedem Webbrowser aus ermöglicht.
Fehlertoleranz: Wenn fehlerhafte Komponenten erkannt werden, verwendet Flume Backup-Komponenten, die diese automatisch ersetzen. Dadurch werden Betriebsunterbrechungen vermieden.

Was sind die Nachteile von Flume Apache ?

Auch wenn Flume viele Vorteile bietet, hat es dennoch einige Schwächen:

Die Langsamkeit beim Schreiben auf Festplatte: Um die Leistung zu maximieren, sollte das Schreiben von Daten in den Speicher bevorzugt werden.
Die mangelnde Elastizität: Das Hinzufügen eines neuen Knotens in der Topologie ist nicht erkennbar.
Die Konfiguration: Um die Durchsatzgeschwindigkeit zu optimieren, müssen DevOps so viele Routen wie verfügbare CPU-Kerne konfigurieren. Das bedeutet mehrere hundert identische (oder fast identische) Konfigurationszeilen. Um das Lesen zu vereinfachen, ist es daher notwendig, sich mit einem Skript zur Datengenerierung auszustatten.

Wie unterscheidet sich Flume Apache von anderen Tools?

Für die Verwaltung von Logs gibt es andere Tools wie Logstash oder auch Kafka. Was sind also die Unterschiede zwischen diesen Lösungen?

Flume vs Logstasch

Flume und Logstash haben viele ähnliche Funktionen, aber es ist wichtig, die Unterschiede zwischen den beiden zu erwähnen.

In Flume ist das Senden von Daten an ein HDFS (Hadoop) nativ möglich, während in Logstash ein Plugin installiert werden muss. Außerdem kann man bei Flume auch Avro verwenden, um die Serialisierungsleistung des Tools zu optimieren.

Im Gegensatz dazu ist Logstash viel einfacher zu konfigurieren.

Flume vs Kafka

Flume und Kafka sind zwar beide unter der Apache-Lizenz stehende Tools, aber sie weisen einige Unterschiede auf.

Flume ist nämlich dafür zuständig, große Mengen an Logs aus vielen verschiedenen Quellen zu sammeln, zu aggregieren und zu verschieben. Das Tool kann also kontinuierlich Daten aus mehreren Quellen empfangen, um sie in Hadoop zu speichern und zu analysieren.

Kafka seinerseits wurde speziell für die Aufnahme und Verarbeitung von Streaming-Daten in Echtzeit entwickelt. Dazu behandelt es jede Themenpartition als eine geordnete Menge von Nachrichten.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Weiterlesen

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!

Data Analyst

Analytics Engineer

Data Scientist

AI / Machine Learning Engineer

Data Engineer

Cloud Engineer

DevOps Engineer

Data Marketing & AI

MLOps

ETL Entwickler

Data Ops Engineer

Amazon Web Service (AWS)

Microsoft Power BI

Über uns

Karriere

Events

Unsere Alumni

Überblick

Bildungsgutschein

Qualifizierungs-chancengesetz