Statistik Bias kann als alles definiert werden, was zu einem systematischen Unterschied zwischen den wahren Parametern einer Population und den Statistiken führt, die zur Schätzung dieser Parameter verwendet werden. Es gibt eine lange Liste von Arten von statistischen Verzerrungen.
Wir haben uns entschieden, dir diese vier Typen vorzustellen, weil sie die sind, die wir am häufigsten sehen und die den Alltag von Data Scientists und Analysten beeinflussen.
Wir werden sie beschreiben und dir ein konkretes Beispiel geben.
1) Statistik Bias - Entscheidungsbias
Selektionsverzerrung tritt auf, wenn, wie der Name schon sagt, die Auswahl der Daten falsch ist. Das bedeutet in der Regel, dass du mit einer bestimmten Teilmenge deiner Gruppe arbeitest und nicht mit einer zufälligen Teilmenge.
Wenn du z. B. ein neues Produkt einführen möchtest, musst du, bevor du Zeit und Geld ausgibst, herausfinden, ob deine Zielgruppe daran interessiert ist. Du führst also eine Umfrage durch, die du an deine bestehenden Kunden verschickst. Diese sind natürlich ein wichtiger Teil deines Publikums, aber sie repräsentieren nicht die Gesamtheit deines Publikums. Du hast gerade einen Selektionsfehler gemacht, der dich sehr teuer zu stehen kommen kann!
2) Erinnerungsverzerrung
Die Erinnerungsverzerrung ist ein weiterer häufiger Fehler in Befragungssituationen, insbesondere bei Feedback. Er entsteht, wenn sich die Teilnehmer nicht an frühere Ereignisse, Erinnerungen oder Details erinnern können.
Da das menschliche Gedächtnis standardmäßig selektiv ist, ist dies ein normales Phänomen, das jedoch die Forschung erschwert.
Das menschliche Gehirn neigt dazu, sich eher an gute als an schlechte Erinnerungen zu erinnern. Wenn du z. B. im Anschluss an eine Konferenz eine Umfrage durchführst, solltest du das Formular schnell abschicken, wenn du möchtest, dass es genauer ist.
3) Survivor Bias
Der Survivor Bias ist eine andere Form des Selektionsbias, bei dem sich der Forscher nur auf die Teilmenge der Gruppe konzentriert, die bereits einen Vorauswahlprozess durchlaufen hat.
Es gibt viele Fälle von Survivor Bias im militärischen Bereich. Ein Beispiel ist der Statistiker Abraham Wald, der während des Zweiten Weltkriegs konsultiert wurde und eine Idee vorschlug, die gegen den Strom schwamm. Er empfahl, Flugzeuge, die von ihren Einsätzen zurückkehrten, an den Stellen zu verstärken, die die geringsten Schäden aufwiesen. In der Tat wurden nur Flugzeuge untersucht, die von ihren Einsätzen zurückkehrten.
4) Bias durch ausgelassene Variablen
Dies ist eine Verzerrung, die sich aus dem Fehlen relevanter Variablen in einem Modell ergibt. Bei Machine Learning kann das Entfernen von relevanten Variablen und/oder einer zu großen Anzahl von Variablen dazu führen, dass dieses Modell unbrauchbar wird.
Ein konkreteres Beispiel wäre der Kauf eines Autos nach bestimmten Kriterien, aber nicht nach anderen. Stell dir zum Beispiel einen Bentley Continental 2021 für 20.000 Euro vor. Das klingt nach einem Schnäppchen, bis du feststellst, dass der Wagen 600.000 km auf dem Tacho hat.
Wir haben dir eine Liste der wichtigsten statistischen Verzerrungen zusammengestellt, die am häufigsten in der Data Science, aber auch in unserem täglichen Leben vorkommen.
Wir halten es für wichtig, abschließend festzustellen, dass verzerrte Statistiken schlechte Statistiken sind. Man sollte immer versuchen, die Verzerrungen so weit wie möglich zu minimieren. Eine sehr effektive Technik zur Vermeidung von Verzerrungen ist zum Beispiel die Randomisierung. Sorge dafür, dass die Stichprobe für eine Studie zufällig gezogen wird.