Du hast Fragen? Wir haben Antworten! - Bald findet unser nächster Tag der offenen Tür statt!

Logo site

Data Quality: 10 Fehler, die du nicht machen solltest

-
7
 Minuten Lesezeit
-
data quality

Data Quality: Wir leben heute im goldenen Zeitalter der Daten. Jede E-Mail, die du erhältst, jede App, die du herunterlädst, jeder Klick auf den Wetterbericht erzeugt eine Menge Daten. Aber, wie ein bekanntes Sprichwort in der IT-Branche sagt: Garbage In, Garbage Out. Die Informationen, die ein Unternehmen aus den Daten ziehen kann, sind nur dann gut, wenn die Daten selbst gut sind.
Schlechte Datenqualität kann zu Schwierigkeiten bei der Informationsgewinnung führen und letztendlich zu einer schlechten Entscheidungsfindung im Unternehmen.

Darüber hinaus können Daten von schlechter Qualität große Auswirkungen auf die Organisation eines Unternehmens haben. Zum Beispiel: Ein hoher Prozentsatz falscher E-Mail-Adressen in einer Datenbank kann das Ergebnis einer Marketingkampagne verfälschen, ein falsches Messsystem kann zu falschen Verkaufsprognosen führen.

Deshalb ist es für alle, die Daten erstellen, manipulieren oder auswerten, wichtig, die Qualität der Daten sicherzustellen. Hier ist eine kleine Liste von Fehlern, die zu einem Problem mit der Datenqualität führen können:

1- Falsches Verständnis der Datenumgebung

Die Unkenntnis der Art der Daten, die uns zur Verfügung stehen, oder der Definitionen der Variablen im Datensatz kann zu einer falschen Analyse der Daten führen, oder schlimmer noch, zu einer ungenauen/naheliegenden Interpretation.


Das erste, was du tun solltest, bevor du einen Datensatz erforschst, ist, dich für die Metadaten zu interessieren, d.h. für die Informationen, die du über die Daten hast: 

Was ist die Quelle dieser Daten? Wie wurden diese Daten gesammelt .

Welche Arten von Dateien haben wir? Wie groß sind sie? .

Welche Merkmale sind vorhanden?

.
Ein Datensatz, der von der Regierung geteilt wird und mehrere Gigabyte an Daten enthält, die über Jahre hinweg gesammelt wurden, ist nicht dasselbe wie ein Datensatz, der durch eine Umfrage bei einer Stichprobe der Bevölkerung gewonnen wurde.

Wenn man seine Daten gut kennt, kann man viele Fehler vermeiden..

2 - Unvollständige Informationen

Fehlende Werte sind ein sehr häufig auftretendes Thema in der Datenwissenschaft.

In der Statistik treten fehlende Daten oder fehlende Werte auf, wenn für eine Variable bei einer bestimmten Beobachtung kein Wert dargestellt wird.

Einige Gründe für das Vorhandensein fehlender Daten in einem Datensatz sind:

  • Der Nutzer hat vergessen, ein Feld auszufüllen.
  • Daten sind bei einer manuellen Übertragung aus einer alten Datenbank verloren gegangen.
  • Es ist ein Programmierfehler aufgetreten.
  • Der Nutzer hat sich dafür entschieden, ein Feld nicht auszufüllen, das mit seinen Überzeugungen darüber zusammenhängt, wie die Ergebnisse verwendet oder interpretiert werden würden.

Manchmal handelt es sich einfach um zufällige Fehler; in anderen Fällen ist es ein systematisches Problem.

Fehlende Werte kommen häufig vor und können einen erheblichen Einfluss auf die Analyse, die Leistung von Vorhersagen oder jegliche Verwendung von Daten, die solche Werte enthalten, haben.

Der richtige Umgang mit fehlenden Daten ist daher grundlegend für die erfolgreiche Durchführung einer Studie.

Um Probleme zu vermeiden, muss man zunächst einmal wissen, welche Werte als fehlend zu betrachten sind. Beispielsweise enthalten einige Variablen Leerzeichen oder Sonderzeichen (‚?‘, ‚\‘, …), die fehlende Werte darstellen, aber nicht unbedingt als solche erkannt werden.

Das Ersetzen der fehlenden Werte oder das Löschen der betreffenden Zeilen oder Spalten muss auf intelligente Weise erfolgen.

Es ist nicht nötig, eine Spalte mit 5 fehlenden Werten von 200.000 zu löschen, aber eine Zeile mit 60% fehlenden Daten könnte einem maschinellen Lernmodell mehr schaden als nützen.

3 - Typografische Fehler und ungenaue Daten

Ungenaue Daten sind alle Daten, die ein Problem mit der Übereinstimmung oder der Wahrheit haben: Ein falsch geschriebener Name, eine unvollständige Adresse, ein Wert, der nichts mit der Variable zu tun hat, in der er enthalten ist. Es gibt eine ganze Reihe von Fehlern, die in den meisten Fällen korrigiert werden können, aber man muss sie auch erkennen können.

Heutzutage werden viele Unternehmen von ungenauen Daten herausgefordert, aber noch mehr von der Fähigkeit, diese zu erkennen.

Wie kann man erkennen, ob die Ergebnisse einer Suchanfrage falsch sind? Vor allem, wenn die Antwort richtig zu sein scheint?

Wenn ein Analyst im Rahmen einer internen Umfrage nach dem monatlichen Umsatz seines Unternehmens in den letzten zwei Jahren sucht und auf ein Ergebnis von 100 € stößt, wird er zwangsläufig an der Richtigkeit der Information zweifeln. Und er wird Recht haben, denn der Wert wird höchstwahrscheinlich nicht korrekt sein.

Aber wenn einer der Umsätze mit 200.000 € statt mit 236.000 € angegeben wird, wird der Analyst dies wahrscheinlich nicht in Frage stellen.

Die ungenauen Daten werden verwendet und tragen dazu bei, neue Daten und Analysen von schlechter Qualität zu erstellen, die potenziell zu schlechten Entscheidungen führen können.

Deshalb ist es wichtig, dass du, sobald du Daten sammelst oder erstellst, darauf achtest und überprüfst, dass sie korrekt sind und keine Fehler enthalten, die später Ärger verursachen könnten.

4 - Inkonsistentes Format / Probleme mit Dateiarten

Wenn Daten in uneinheitlichen Formaten gespeichert werden, können die Systeme, die zur Analyse oder Speicherung der Informationen verwendet werden, diese möglicherweise nicht richtig interpretieren. 

Wenn eine Organisation beispielsweise ihre Verbraucherdatenbank pflegt, muss das Speicherformatder grundlegenden Informationen festgelegtwerden. Der Name (Vorname, Nachname oder umgekehrt), das Geburtsdatum (amerikanischer/europäischer Stil) oder die Telefonnummer (mit oder ohne Ländervorwahl) müssen in genau demselben Format gespeichert werden.


Für Personen, die mit diesen Daten umgehen, kann es sehr zeitaufwändig sein, die vielen verschiedenen Datenformate einfach zu entwirren..

Ebenso muss der Typ der Variablen vordefiniert werden. Zum Beispiel wird eine Variable, die ein Datum darstellt, deren Werte teilweise im Format datetime, Text und teilweise im Format Text haben, unweigerlich Probleme für den Benutzer verursachen.

Achte darauf, dass du das Format und den Typ der Variablen, die du erstellst, immer festlegst, oder stelle sicher, dass sie einheitlich und konsistent sind, wenn du Daten abrufst..

5 - Duplikate

Redundante Daten sind in den meisten Organisationen ein weit verbreitetes Problem. 

Doppelte Daten können durch das Sammeln identischer Informationen aus verschiedenen Quellen, durch menschliche Fehler oder durch Daten, die hinzugefügt statt aktualisiert wurden, entstehen.


Doppelte Daten können jede Art von Datenanalyse verzerren und indirekt sogar zu falschen Entscheidungen führen.

Außerdem haben dieselben Daten, die in mehreren Systemen dupliziert werden, einen unterschiedlichen Lebenszyklus. Sie werden sich irgendwann weiterentwickeln und nicht mehr denselben Wert haben, selbst wenn sie als ähnlich identifiziert werden. Dies kann dazu führen, dass man bei der Entscheidung, welche Version eines duplizierten Datensatzes für eine kritische Geschäftsentscheidung verwendet werden soll, ein gewisses Risiko eingeht..

Redundante Daten können ein Unternehmen auch sehr teuer zu stehen kommen, wenn sie sehr zahlreich sind. Glücklicherweise gibt es zum Beispiel in Python Funktionen (wie drop_duplicates von Pandas) , mit denen man Duplikate sehr einfach loswerden kann..

6 - Maßeinheiten oder mehrere Sprachen

Ein weiteres Problem ist die Verwendung von verschiedenen Sprachen, verschiedenen Arten von Code oder verschiedenen Maßeinheiten.

Bevor du Daten aus verschiedenen Quellen zusammenfügst, solltest du sicherstellen, dass sie kompatibel sind, oder sie konvertieren..

Es gibt viele Beispiele für katastrophale Fehler, die gemacht wurden, weil diese Fragen nicht zum richtigen Zeitpunkt berücksichtigt wurden, wie zum Beispiel dieser NASA-Satellit auf dem Mars, der mehrere Millionen Dollar kostete und abstürzte, weil seine Navigationssoftware in angelsächsischen Maßeinheiten programmiert war und nicht nach dem metrischen System.

Auch die Verarbeitung von Daten, die in mehreren Sprachen gespeichert sind, kann zu Schwierigkeiten führen, wenn die Analysewerkzeuge diese nicht erkennen oder nicht wissen, wie sie zu übersetzen sind. Auch Sonderzeichen wie Umlaute und Akzente können verheerende Folgen haben, wenn ein System nicht für sie konfiguriert ist. Du solltest daher diese potenziellen Probleme berücksichtigen, wenn du mit internationalen Daten zu tun hast, und deine Algorithmen entsprechend programmieren..

7 - Ausreißer (Outliers)

In der Statistik ist ein Ausreißer einWert, der stark von der Verteilung einer Variablen abweicht. Es handelt sich um eine anormale Beobachtung, die von ansonsten gut strukturierten Daten abweicht.

Die Erkennung von Ausreißern oder Anomalien ist eines der grundlegenden Probleme des Data Mining. Die neu entstehende und anhaltende Datenexpansion lässt uns neu darüber nachdenken, wie wir mit Anomalien umgehen und welche Anwendungsfälle durch die Untersuchung dieser Anomalien konstruiert werden können.

Die Anwendungsfälle und Lösungen, die durch das Aufspüren von Anomalien entwickelt werden, sind unbegrenzt..

Wir haben jetzt z. B. intelligente Uhren und Armbänder, die unseren Herzschlag alle paar Minuten erkennen können. 

Die Erkennung von Anomalien in Herzfrequenzdaten kann bei der Vorhersage von Herzkrankheiten helfen.


In der Data Science können Ausreißer bestimmte statistische Parameter wie den Mittelwert beeinflussen. Wenn Ausreißer nicht erkannt werden, kann dies unser Verständnis eines Datensatzes verzerren und uns dazu verleiten, falsche Annahmen über den Datensatz zu treffen. 

Ein weiterer Grund, warum es wichtig ist, sich mit Ausreißern zu beschäftigen, ist, dass die meisten Machine-Learning-Algorithmensehr empfindlich auf die Daten, mit denen sie trainiert werden, sowie auf deren Verteilungen reagieren. 

Outlier in der Trainingsmenge eines Machine-Learning-Modells können die Trainingsphase verlängern und potenziell verzerren.

Daher wird das erstellte Vorhersagemodell weniger leistungsfähig oder weniger genau sein.

Es isteinfach, einen Outlier zu identifizieren, wenn die Beobachtungen eine eindimensionale Menge von Zahlenwertenbilden. Zum Beispiel kannst du den Ausreißer in der folgenden Liste eindeutig identifizieren: [7, 2, 38600, 8, 4].

Bei Tausenden von Beobachtungen oder mehreren Dimensionenerfordert die Erkennung von Ausreißern jedoch die Verwendung bestimmter statistischer (z. B. Standardabweichung), grafischer (z. B. Boxplot) oder algorithmischer Werkzeuge, wie z. B. den Clustering mit DBSCAN.

8 - Fehler bei der Verarbeitung

In der Data Science ist es vor der Datenmodellierung üblich, bestimmte mathematische Transformationen, wie die Normalisierung der Werte einer Variablen, der Übergang von einer kategorialen Variablen zu einer kontinuierlichen oder indikativen Variablen

In jedem Fall ist es wichtig, dass du überprüfst, ob die Berechnungen, die du durchführst, korrekt und kohärent sind. Manchmal kann es vorkommen, dass die Ergebnisse nicht mit den Anforderungen übereinstimmen, die man hatte, was zu Fehlern und Fehlinterpretationen führen kann.

9 -Definitionsprobleme

Es ist wichtig, dass die in einem Datensatz enthaltenen Variablen immer genau beschrieben werden können. Wenn die Definition einer Variable nicht präzise genug ist, solltest du nachfragen.

Manchmal kann eine Variable mehrere Bedeutungen oder Berechnungsmethoden für verschiedene Organisationen, Länder oder Kontinente haben.

Wenn du zum Beispiel eine Analyse der Arbeitslosenquote durchführst, musst du bedenken, dass die Arbeitslosenquote in den verschiedenen Ländern unterschiedlich berechnet wird.

Vorsicht also, diese beiden Indikatoren nicht zu vergleichen oder zwei Tabellen zusammenzufügen, ohne diese Unterschiede zu berücksichtigen.

10 - Fragen der Einhaltung von Vorschriften (Compliance)

Endlich mag es für einige offensichtlich sein, aber wenn man mit Daten umgeht, muss man sicherstellen, dass das Unternehmen, seine Führungskräfte und Angestellten die für sie geltenden rechtlichen und ethischen Normen einhalten. Auf diese Weise kann das Unternehmen finanzielle, rechtliche und Reputationsrisiken vermeiden, die entstehen, wenn es Gesetze, Vorschriften, Konventionen oder einfach eine bestimmte Ethik oder Berufsethik nicht einhält..

Neben den klassischen Schritten der Bereinigung und der Transformation der Daten für die Analyse oder Modellierung, kannst du mit den oben genannten Tipps wertvolle Zeit sparen und viele kostspielige Fehler vermeiden, die zu beheben sind.

Wie bereits erwähnt, sind die schlimmsten Fehler diejenigen, die bis zum Zeitpunkt der Entscheidungsfindung ignoriert werden und die sich als kritisch für ein Unternehmen erweisen können.

Um die Qualität der Daten, mit denen du arbeitest, zu optimieren, haben wir einen Kurs entwickelt, der es dir ermöglicht, diese Tipps mit Python umzusetzen.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.