🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Fehlende Daten in der Data Science meistern

-
4
 Minuten Lesezeit
-

In der Praxis sind vollständig vollständige Datensätze eine Seltenheit. Ob bei der manuellen Eingabe, der automatischen Extraktion oder der Zusammenführung mehrerer Quellen – fehlende Daten treten fast immer auf. Werden sie falsch behandelt, können sie Analysen verfälschen, die Leistung von Modellen mindern und deutliche Verzerrungen verursachen.

Deshalb ist es entscheidend, die Ursachen und Mechanismen hinter diesen Lücken zu verstehen. Fehlende Werte einfach zu ignorieren, mag zwar verlockend erscheinen, bedeutet jedoch oft, einen wesentlichen Teil des Problems zu übersehen.

 

In diesem Artikel erfährst Du, wie Du fehlende Daten in der Data Science erkennen, einordnen und gezielt behandeln kannst. Außerdem zeigen wir Dir, nach welchen Kriterien Du eine geeignete Imputationsmethode auswählst und welche Best Practices helfen, die negativen Auswirkungen zu minimieren.

Die Natur fehlender Daten verstehen

Definition und Identifizierung fehlender Daten

Ein fehlender Datenpunkt bezeichnet das Fehlen eines Wertes in einer Zelle eines Datensatzes. Er kann durch NaN, None, eine leere Zelle oder Indikatoren wie „N/A“ dargestellt werden.

Zur Identifizierung stehen mehrere Werkzeuge zur Verfügung:

  • Visuelle Exploration: Bibliotheken wie missingno (Python) ermöglichen die Visualisierung von Mustern fehlender Werte (z. B. Heatmaps, Matrizen).
  • Deskriptive Funktionen: In Python gibt .isnull().sum() auf einem Pandas DataFrame die Anzahl fehlender Werte pro Spalte zurück.

Warum fehlen Daten? Die Mechanismen des Verlusts?

Um fehlende Daten gezielt zu behandeln, musst Du zunächst verstehen, warum sie fehlen. Klassischerweise unterscheidet man drei Mechanismen:

  • MCAR (Missing Completely at Random): Die Wahrscheinlichkeit, dass ein Wert fehlt, ist unabhängig von allen anderen Variablen.
    Beispiel: Ein zufälliger Ausfall während der Datenerfassung.
  • MAR (Missing at Random): Das Fehlen hängt von anderen beobachteten Variablen ab, nicht jedoch vom fehlenden Wert selbst.
    Beispiel: Männer beantworten seltener eine Frage zu Depressionen als Frauen – das Fehlen hängt vom Geschlecht ab.
  • MNAR (Missing Not at Random): Das Fehlen hängt vom fehlenden Wert selbst oder von einem nicht beobachteten Faktor ab.
    Beispiel: Sehr hohe Einkommen werden selten angegeben – der Wert selbst beeinflusst das Fehlen.

Auswirkungen der verschiedenen Fehltypen

Der zugrunde liegende Mechanismus hat großen Einfluss auf die Wahl der Behandlungsstrategie. Während MCAR meist einfache Methoden erlaubt, erfordern MAR und MNAR komplexere, oft auch domänenspezifische Ansätze.

Strategien zur Behandlung fehlender Daten

1. Löschen fehlender Daten

  • Listenweises Löschen

Dabei entfernst Du alle Zeilen eines Datensatzes, die mindestens einen fehlenden Wert enthalten. Diese Methode ist leicht umzusetzen, birgt jedoch ein hohes Risiko für Informationsverlust und Verzerrungen, wenn die Daten nicht MCAR sind.

  • Paarweises Löschen

Hier werden für jede spezifische Analyse nur die Beobachtungen berücksichtigt, bei denen die für diese Analyse relevanten Variablen vorhanden sind. So bleiben mehr Daten erhalten, jedoch können die Ergebnisse schwerer interpretierbar und statistische Matrizen instabil sein.

  • Variablenweises Löschen

Eine ganze Spalte wird entfernt, wenn der Anteil fehlender Werte zu hoch ist (oft >50 %). Dies ist sinnvoll, wenn die Variable schwer wiederherstellbar oder nur von geringem Nutzen ist, birgt jedoch das Risiko, eine relevante Variable zu verlieren.

Methode Vorteile Nachteile
Listenweises Löschen - Einfach umzusetzen
- Keine künstliche Datenergänzung
- Bedeutender Informationsverlust, wenn Daten nicht MCAR sind
- Verzerrungsgefahr
Paarweises Löschen - Mehr Daten bleiben erhalten
- Weniger zerstörerisch
- Ergebnisse schwer zu interpretieren
- Instabile statistische Matrizen
Variablen löschen - Schnelle Bereinigung
- Dimensionsreduktion
- Risiko, eine relevante Variable zu verlieren

2. Einfache Imputation

  • Imputation durch Mittelwert, Median oder Modus

Fehlende Werte werden durch Maße der zentralen Tendenz ersetzt. Mittelwert und Median eignen sich für numerische Variablen, der Modus ist sowohl für kategoriale als auch für numerische Variablen einsetzbar. Diese Methode ist schnell und ressourcenschonend, kann jedoch die Varianz verringern und Verteilungen oder Korrelationen verzerren.

  • Imputation durch einen konstanten Wert oder binären Indikator

Fehlende Werte werden durch einen festgelegten Wert wie „-1“ oder „Unbekannt“ ersetzt. Häufig wird eine zusätzliche binäre Variable ergänzt, um anzuzeigen, ob der ursprüngliche Wert fehlte. Diese Methode bewahrt die Information über das Fehlen, kann jedoch Verzerrungen einführen und ist empfindlich gegenüber der Wahl des Ersatzwertes.

Methode Vorteile Nachteile
Mittelwert / Median / Modus - Einfach und schnell umzusetzen
- Geringer Ressourcenaufwand
- Verringerung der Varianz
- Kann Verteilungen und Korrelationen verfälschen
Konstanter Wert / Indikator - Information über das Fehlen bleibt erhalten
- Kompatibel mit bestimmten Modellen
- Kann Verzerrungen einführen
- Anfällig für willkürlich gewählte Ersatzwerte

3. Fortgeschrittene Imputation

  • Imputation durch Regression

Fehlende Werte werden mithilfe eines Regressionsmodells vorhergesagt, das die übrigen Variablen des Datensatzes als Prädiktoren nutzt. Diese Methode kann die Beziehungen zwischen Variablen optimal ausschöpfen, birgt aber das Risiko, Zusammenhänge zu überschätzen oder Verzerrungen zu erzeugen, wenn Annahmen verletzt werden.

  • Imputation durch k-nächste Nachbarn (k-NN)

Hier werden fehlende Werte durch den Durchschnitt der k ähnlichsten Beobachtungen ersetzt, wobei die Ähnlichkeit über Abstände in den vorhandenen Variablen gemessen wird. Sie ist flexibel und kann komplexe Zusammenhänge erfassen, ist jedoch rechenintensiv und sensibel gegenüber der Wahl von k und der verwendeten Distanzmetrik.

Methode Vorteile Nachteile
Regression - Nutzt Beziehungen zwischen Variablen - Verzerrungsrisiko bei Verletzung der Annahmen
- Kann Zusammenhänge überschätzen
k-Nächste Nachbarn (k-NN) - Erfasst komplexe Zusammenhänge
- Geeignet für numerische und gemischte Daten
- Hoher Rechenaufwand
- Empfindlich gegenüber Wahl von k und Distanzmetrik

Passende Methode finden und testen

Die Auswahl einer geeigneten Methode zur Behandlung fehlender Daten hängt von mehreren Faktoren ab. Ein zentraler Punkt ist die Art der Variablen: Ob numerisch, kategorial oder gemischt, bestimmt maßgeblich, welche Techniken sinnvoll sind. So eignen sich beispielsweise Imputationen durch Mittelwert oder Regression vor allem für numerische Variablen, während Modus oder konstante Werte besser zu kategorialen Daten passen.

Auch die Fehlerrate spielt eine große Rolle. Liegt sie unter 5 %, können oft einfache Ansätze ausreichen. Ab einer Rate von über 20 % wird es hingegen riskant, Daten zu löschen oder auf naive Imputationen zu setzen.

Ebenso wichtig ist die Frage, ob eine Variable tatsächlich Einfluss auf das Ziel oder die Analyseergebnisse hat. Weist sie viele fehlende Werte auf und liefert nur wenig nützliche Informationen, ist es oft effizienter, sie zu entfernen. Das spart Zeit, reduziert die Komplexität des Modells und erleichtert Visualisierungen – besonders, wenn explorative Analysen oder Korrelationsprüfungen zeigen, dass sie nur schwach mit anderen Variablen zusammenhängt.

 

Nach der gewählten Behandlungsmethode solltest Du deren Auswirkungen unbedingt bewerten. Vergleiche dafür die Verteilungen der Variablen vor und nach der Imputation, überprüfe die Modellleistung mithilfe von Kreuzvalidierung und führe eine Sensitivitätsanalyse durch, um mehrere Strategien zu testen und die Robustheit der Ergebnisse sicherzustellen.

Fazit

Der Umgang mit fehlenden Daten gehört zu den unvermeidbaren Herausforderungen in der Data Science. Entscheidend ist, ihre Ursachen zu verstehen, ihre Art zu erkennen, die passende Imputationsmethode auszuwählen und deren Auswirkungen sorgfältig zu bewerten.

Anstatt sich auf eine einzige Lösung zu verlassen, lohnt es sich, mehrere Ansätze zu testen und auf den jeweiligen Kontext abzustimmen. Mit der Weiterentwicklung von Tools und Techniken wird das Management fehlender Daten immer präziser und fester Bestandteil der Datenverarbeitungspipelines.

 

Der Schlüssel liegt in einer rigorosen, transparenten und fundierten Vorgehensweise – nur so lassen sich verlässliche und belastbare Analysen gewährleisten.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.