Der Begriff „Big Data” steht für die Megadaten, die von Unternehmen in allen Branchen gesammelt und analysiert werden, um wertvolle Informationen zu sortieren. Hier erfährst Du alles, was Du über dieses Thema wissen musst.
Bevor man Big Data oder Megadaten definiert, ist es wichtig zu verstehen, was Daten sind. Daten werden als Mengen, Zeichen oder Symbole definiert, die von einem Computer verarbeitet werden. Daten können als elektrische Signale gespeichert oder übertragen werden und werden auf einem mechanischen, optischen oder magnetischen Medium abgespeichert.
Der Begriff Big Data bezieht sich auf große, von Unternehmen gesammelte Datensätze, die ausgewertet und analysiert werden können, um daraus verwertbare Informationen zu sortieren oder für Projekte des Machine Learning verwendet werden können.
Big Data wird oft durch die „3 V” definiert: das Volumen (volume) und die Vielfalt (variety) der Daten sowie die Geschwindigkeit (velocity), mit der sie erzeugt, gesammelt und verarbeitet werden. Dies unterscheidet „Megadaten“ von herkömmlichen Daten.
Diese drei Merkmale wurden erstmals 2001 von Doug Laney, einem Analysten der Meta Group Inc. identifiziert. Später wurden sie von Gartner nach der Übernahme der Meta Group im Jahr 2005 popularisiert. Heute werden Big Data manchmal auch andere Eigenschaften zugeschrieben, wie Wahrhaftigkeit, Wert und Variabilität.
In Unternehmen aller Branchen sind Systeme zur Verarbeitung und Speicherung von Big Data unverzichtbar geworden. Der Grund dafür ist, dass herkömmliche Datenverwaltungsprogramme nicht in der Lage sind, solch große Datenmengen abzuspeichern oder zu verarbeiten.
Wofür wird Big Data verwendet?
Unternehmen aller Branchen nutzen die in ihren Systemen gespeicherten Big Data für unterschiedliche Zwecke: um Abläufe zu verbessern, einen besseren KundInnenservice zu bieten, personalisierte Marketingkampagnen auf der Grundlage von KundInnenpräferenzen zu erstellen oder einfach nur, um den Umsatz zu steigern.
Mit Big Data können sich Unternehmen einen Wettbewerbsvorteil gegenüber ihren nicht datengesteuerten KonkurrentInnen verschaffen. Sie können schneller und genauer Entscheidungen treffen, die direkt auf Informationen basieren.
So kann ein Unternehmen beispielsweise Big Data analysieren, um wertvolle Informationen über die Bedürfnisse und Erwartungen seiner KundInnen zu erhalten. Diese Informationen können dann zur Entwicklung neuer Produkte oder gezielter Marketingkampagnen genutzt werden, um die KundInnenbindung oder die Konversionsrate zu erhöhen. Ein Unternehmen, das sich bei seiner Entwicklung ausschließlich auf Daten stützt, gilt als datengesteuert (data-driven auf Englisch).
Big Data wird auch in der medizinischen Forschung eingesetzt. So können beispielsweise Risikofaktoren für Krankheiten ermittelt oder zuverlässigere und genauere Diagnosen gestellt werden. Medizinische Daten können auch zur Vorhersage und Überwachung möglicher Epidemien verwendet werden.
Megadaten werden ausnahmslos in fast allen Bereichen eingesetzt. Die Energiewirtschaft nutzt sie, um potenzielle Bohrgebiete zu entdecken und ihren Betrieb oder das Stromnetz zu überwachen. FinanzdienstleisterInnen nutzen es für das Risikomanagement und die Analyse von Marktdaten in Echtzeit.
HerstellerInnen und Transportunternehmen verwalten ihre Lieferketten und optimieren ihre Lieferwege mithilfe von Daten. In ähnlicher Weise nutzen Regierungen Big Data zur Verbrechensbekämpfung oder für Smart-City-Initiativen.
Woher kommen die Megadaten?
Megadaten können aus einer Vielzahl von Quellen stammen. Gängige Beispiele sind Transaktionssysteme, KundInnendatenbanken und medizinische Aufzeichnungen.
Auch die Aktivitäten der InternetnutzerInnen erzeugen eine Vielzahl von Daten. Klickprotokolle, Apps und soziale Netzwerke erfassen eine Vielzahl von Informationen. Das Internet der Dinge ist dank seiner Sensoren ebenfalls eine Datenquelle, unabhängig davon, ob es sich um Industriemaschinen oder um vernetzte Gegenstände für Privatpersonen wie Armbänder für Sport handelt.
Zum besseren Verständnis sind hier einige konkrete Beispiele für Big Data-Quellen aufgeführt. Allein Wall Street erzeugt täglich etwa ein Terabyte an Daten.
Das ist viel, aber nichts im Vergleich zu sozialen Netzwerken. Facebook nimmt täglich mehr als 500 Terabyte an neuen Daten in seine Datenbanken auf. Diese Daten werden hauptsächlich durch das Hochladen von Fotos und Videos, den Austausch von Nachrichten und Kommentare unter Beiträgen generiert.
In nur 30 Minuten Flugzeit kann ein einziges Flugzeugtriebwerk mehr als 10 Terabyte an Daten erzeugen. Wie Du siehst, fließen Megadaten jetzt aus verschiedenen Quellen ein, und die Daten werden im Zuge des technologischen Fortschritts immer umfangreicher…
Die verschiedenen Arten von Big Data
Big Data stammt aus einer Vielzahl von Quellen und kann daher viele Formen annehmen. Es gibt mehrere Hauptkategorien.
Wenn Daten in einem festen und genau definierten Format abgespeichert und verarbeitet werden können, spricht man von „strukturierten” Daten. Dank zahlreicher Fortschritte in der Informatik stehen heute Techniken zur Verfügung, die eine effiziente Arbeit mit diesen Daten ermöglichen und ihren vollen Wert ausschöpfen.
Aber auch strukturierte Daten können aufgrund ihrer extremen Menge problematisch sein. Bei einem Datenvolumen, das mittlerweile mehrere Zettabytes erreicht, sind Speicherung und Verarbeitung eine echte Herausforderung.
Daten mit unbekanntem Format oder unbekannter Struktur werden dagegen als „unstrukturierte” Daten bezeichnet. Über ihre extremen Menge hinaus stellt diese Art von Daten eine zusätzliche Herausforderung bei ihrer Verarbeitung und Nutzung dar.
Ein typisches Beispiel dafür ist eine heterogene Datenquelle, die eine Kombination aus Text-, Bild- und Videodateien enthält. Im digitalen und multimedialen Zeitalter wird diese Art von Daten immer häufiger. Unternehmen verfügen daher über riesige Datenmengen, die sie jedoch nur schwer nutzen können, weil die Verarbeitung dieser unstrukturierten Informationen schwierig ist…
Die „halbstrukturierten” Daten liegen auf halbem Weg zwischen diesen beiden Kategorien. Es kann sich zum Beispiel um Daten handeln, die zwar formatiert wurden, aber nicht eindeutig in einer Datenbank definiert sind.
Bevor unstrukturierte oder halbstrukturierte Daten verarbeitet und analysiert werden können, müssen sie mit verschiedenen Arten von Data-Mining- oder Datenaufbereitungstools aufbereitet und umgewandelt werden.
Techniken zur Analyse von Big Data
Zur Analyse von Big Data werden verschiedene Techniken eingesetzt. Hier sind einige Beispiele.
Durch Benchmarking kann ein Unternehmen beispielsweise die Leistung seiner Produkte und Dienstleistungen mit der seiner KonkurrentInnen vergleichen. Bei der Marketinganalyse geht es darum, Daten zu analysieren, um neue Produkte und Dienstleistungen auf besser informierte und innovativere Weise zu fördern.
Die Sentimentanalyse zielt darauf ab, die Zufriedenheit der KundInnen mit einer Marke zu bewerten, z. B. durch die Auswertung von Bewertungen oder Kommentaren im Internet. In ähnlicher Weise kann die Analyse sozialer Netzwerke über den Ruf eines Unternehmens informieren, und zwar auf der Grundlage dessen, was Menschen im Internet über das Unternehmen sagen. Dadurch wird es möglich, neue Zielgruppen für Marketingkampagnen zu ermitteln.
Wie werden Megadaten abgespeichert und verarbeitet?
Die Menge, die Geschwindigkeit und die Vielfalt der Megadaten erfordern eine spezielle IT-Infrastruktur. Ein einzelner Server oder sogar ein Cluster von Servern wird durch Big Data schnell überfordert sein.
Um eine ausreichende Verarbeitungsleistung zu erreichen, kann es notwendig sein, Tausende von Servern zu kombinieren, um die Verarbeitungsarbeit zu verteilen. Diese Server müssen in einer Cluster-Architektur zusammenarbeiten, die häufig auf speziellen Technologien wie Hadoop oder Apache Spark basiert.
Die Kosten können sehr hoch sein, weshalb viele Unternehmensleiter zögern, in eine Infrastruktur zu investieren, die für die Speicherung und Verarbeitung von Big Data-Workloads geeignet ist.
Als Alternative wenden sich viele Unternehmen der öffentlichen Cloud zu. Dies ist nun die bevorzugte Lösung. Aus diesem Grund geht das Wachstum des Cloud Computing Hand in Hand mit dem Wachstum von Big Data.
Public-Cloud-AnbieterInnen können Speicherkapazität entsprechend den Anforderungen seiner KundInnen an die Big-Data-Verarbeitung unbegrenzt erweitern. Das Unternehmen zahlt für die von ihm genutzten Ressourcen. Es gibt keine Kapazitätsbeschränkungen und keine unnötigen Kosten.
Zu den am häufigsten verwendeten Cloud-Speicherlösungen für Big Data gehören Hadoop Distributed File System (HDFS), Amazon Simple Storage Service (S3) und verschiedene relationale und NoSQL-Datenbanken.
Über die Speicherung hinaus bieten viele öffentliche Cloud-AnbieterInnen auch Big-Data-Verarbeitungs- und Analysedienste an. Dazu gehören Amazon EMR, Microsoft Azure HADInsight und Google Cloud Dataproc.
Es gibt jedoch auch Big-Data-Lösungen, die für den Einsatz vor Ort konzipiert sind. Diese Lösungen verwenden in der Regel Open-Source-Apache-Technologien in Kombination mit Hadoop und Spark. Beispiele sind der YARN-Ressourcenmanager, das MapReduce-Programmiergerüst, die Kafka-Daten-Streaming-Plattform, die HBase-Datenbank und SQL-Abfrage-Engines wie Drill, Hive, Impala oder Presto.
Kann man sich im Bereich Big Data weiterbilden lassen ?
Die Verarbeitung und Nutzung von Big Data erfordert die Beherrschung der verschiedenen hier genannten Tools und Techniken. Diese Fähigkeiten sind bei Unternehmen aller Branchen sehr gefragt, da viele Organisationen die ihnen zur Verfügung stehenden Daten nutzen wollen.
Um die verschiedenen Big-Data-Berufe zu erlernen, kannst Du die Weiterbildungen von DataScientest absolvieren. Wir bieten verschiedene Trainingskurse an, um schnell zum/r Data Scientist, Data Analyst, Data Engineer oder Machine Learning Engineer zu werden. Warte nicht länger und entdecke jetzt unsere Fortbildungskurse.
Jetzt weißt Du alles über Big Data. Weitere Informationen zu diesem Thema findest Du in unserem vollständigen Dossier über Datenbanken oder über die verschiedenen Big-Data-Berufe.
Auch interessant: