Du hast Fragen? Wir haben Antworten! - Bald findet unser nächster Tag der offenen Tür statt!

Logo site

4 Arten von Statistik Bias, die du in deinen Analysen vermeiden solltest

-
2
 Minuten Lesezeit
-
statistik bias

Statistik Bias kann als alles definiert werden, was zu einem systematischen Unterschied zwischen den wahren Parametern einer Population und den Statistiken führt, die zur Schätzung dieser Parameter verwendet werden. Es gibt eine lange Liste von Arten von statistischen Verzerrungen.

Wir haben uns entschieden, dir diese vier Typen vorzustellen, weil sie die sind, die wir am häufigsten sehen und die den Alltag von Data Scientists und Analysten beeinflussen.

Wir werden sie beschreiben und dir ein konkretes Beispiel geben.

1) Statistik Bias - Entscheidungsbias

Selektionsverzerrung tritt auf, wenn, wie der Name schon sagt, die Auswahl der Daten falsch ist. Das bedeutet in der Regel, dass du mit einer bestimmten Teilmenge deiner Gruppe arbeitest und nicht mit einer zufälligen Teilmenge.

Wenn du z. B. ein neues Produkt einführen möchtest, musst du, bevor du Zeit und Geld ausgibst, herausfinden, ob deine Zielgruppe daran interessiert ist. Du führst also eine Umfrage durch, die du an deine bestehenden Kunden verschickst. Diese sind natürlich ein wichtiger Teil deines Publikums, aber sie repräsentieren nicht die Gesamtheit deines Publikums. Du hast gerade einen Selektionsfehler gemacht, der dich sehr teuer zu stehen kommen kann!

2) Erinnerungsverzerrung

Die Erinnerungsverzerrung ist ein weiterer häufiger Fehler in Befragungssituationen, insbesondere bei Feedback. Er entsteht, wenn sich die Teilnehmer nicht an frühere Ereignisse, Erinnerungen oder Details erinnern können.

Da das menschliche Gedächtnis standardmäßig selektiv ist, ist dies ein normales Phänomen, das jedoch die Forschung erschwert.

Das menschliche Gehirn neigt dazu, sich eher an gute als an schlechte Erinnerungen zu erinnern. Wenn du z. B. im Anschluss an eine Konferenz eine Umfrage durchführst, solltest du das Formular schnell abschicken, wenn du möchtest, dass es genauer ist.

3) Survivor Bias

Der Survivor Bias ist eine andere Form des Selektionsbias, bei dem sich der Forscher nur auf die Teilmenge der Gruppe konzentriert, die bereits einen Vorauswahlprozess durchlaufen hat.

Es gibt viele Fälle von Survivor Bias im militärischen Bereich. Ein Beispiel ist der Statistiker Abraham Wald, der während des Zweiten Weltkriegs konsultiert wurde und eine Idee vorschlug, die gegen den Strom schwamm. Er empfahl, Flugzeuge, die von ihren Einsätzen zurückkehrten, an den Stellen zu verstärken, die die geringsten Schäden aufwiesen. In der Tat wurden nur Flugzeuge untersucht, die von ihren Einsätzen zurückkehrten.

4) Bias durch ausgelassene Variablen

Dies ist eine Verzerrung, die sich aus dem Fehlen relevanter Variablen in einem Modell ergibt. Bei Machine Learning kann das Entfernen von relevanten Variablen und/oder einer zu großen Anzahl von Variablen dazu führen, dass dieses Modell unbrauchbar wird.

Ein konkreteres Beispiel wäre der Kauf eines Autos nach bestimmten Kriterien, aber nicht nach anderen. Stell dir zum Beispiel einen Bentley Continental 2021 für 20.000 Euro vor. Das klingt nach einem Schnäppchen, bis du feststellst, dass der Wagen 600.000 km auf dem Tacho hat.

Wir haben dir eine Liste der wichtigsten statistischen Verzerrungen zusammengestellt, die am häufigsten in der Data Science, aber auch in unserem täglichen Leben vorkommen.

Wir halten es für wichtig, abschließend festzustellen, dass verzerrte Statistiken schlechte Statistiken sind. Man sollte immer versuchen, die Verzerrungen so weit wie möglich zu minimieren. Eine sehr effektive Technik zur Vermeidung von Verzerrungen ist zum Beispiel die Randomisierung. Sorge dafür, dass die Stichprobe für eine Studie zufällig gezogen wird.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!