🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Kolmogorov Smirnov Test: Was ist das für eine Methode?

-
3
 Minuten Lesezeit
-
Kolmogorov Smirnov Test

Der Kolmogorov Smirnov Test ist eine häufig verwendete Methode zum Vergleich von Daten. Erfahre die erstaunliche Geschichte seiner Erfindung und wie er heutzutage in der Data Science eingesetzt wird!

1933 veröffentlichte Andrei Kolmogorov einen Artikel mit dem Titel „Sulla determinazione empirica di una legge di distribuzione“ (Über die empirische Bestimmung eines Verteilungsgesetzes).

Darin stellte der Mathematiker das Konzept der empirischen kumulativen Verteilung (EKV) und der entsprechenden Teststatistik vor.

Er interessierte sich dafür, wie Daten mit einer theoretischen Verteilung verglichen werden können, ohne eine bestimmte Form für die Verteilung anzunehmen.

Seine Methode basierte auf der maximalen Differenz zwischen der EZD und der TCD (theoretische kumulative Verteilung), und er schlug eine Teststatistik vor, um diese Differenz zu quantifizieren.

Einige Jahre später, im Jahr 1939, entwickelte Nikolai Smirnov völlig zufällig einen ähnlichen Ansatz in seinem Artikel „Schätzung der Differenz zwischen empirischen Verteilungsfunktionen in zwei unabhängigen Stichproben“.

Auch er hatte das Ziel, eine nichtparametrische Methode zum Vergleich von zwei unabhängigen Datenstichproben vorzuschlagen.

Er schlug seinerseits vor, eine Teststatistik zu definieren, die auf der maximalen Differenz zwischen den beiden WRD der Datenproben basierte.

Erst auf einer Mathematikkonferenz trafen sich Kolmogorow und Smirnow zufällig. Als sie anfingen, über ihre jeweilige Forschung zu diskutieren, stellten sie fest, dass sie unabhängig voneinander an ähnlichen Problemen arbeiteten.

Während sie ihre Ideen und Ergebnisse austauschten, waren sie sehr erstaunt, als sie feststellten, dass ihre Methoden und Formeln extrem ähnlich waren.

Überrascht von diesem Zufall beschlossen die beiden Mathematiker, zusammenzuarbeiten, um einen gemeinsamen Ansatz zu entwickeln. Sie kombinierten daraufhin ihre Ideen und Fachkenntnisse, um den „Kolmogorov Smirnov Test“ zu entwickeln.

Was ist der Kolmogorov-Smirnov-Test?

Der Kolomogorov-Smirnov-Test wird in vielen Bereichen eingesetzt und ist ein leistungsstarkes statistisches Werkzeug. Er wird verwendet, um die Ähnlichkeit zwischen einer empirischen und einer theoretischen Verteilung zu bewerten oder um zwei Verteilungen miteinander zu vergleichen.

Es beruht auf zwei Schlüsselkonzepten: der EZD und der TCD. Die EZD ist die empirische kumulative Verteilung. Sie wird aus beobachteten Daten konstruiert und stellt den Anteil der Beobachtungen dar, die kleiner oder gleich einem bestimmten Wert sind.

Die TCD ist ihrerseits die theoretische kumulative Verteilung. Sie basiert auf einer vom Nutzer festgelegten theoretischen Verteilung.

Das Ziel des Tests ist es, den maximalen Abstand (Teststatistik D) zwischen der EZD und der TCD zu messen. D wird berechnet, indem man den absoluten Wert der größten Differenz zwischen den beiden kumulativen Verteilungen nimmt.

Je höher sein Wert ist, desto größer ist die Differenz zwischen der empirischen und der theoretischen Verteilung.

Um die Signifikanz des Tests zu beurteilen, wird ein P-Wert berechnet. Er stellt die Wahrscheinlichkeit dar, einen Wert für D zu erhalten, der genauso extrem oder extremer ist als der beobachtete Wert.

Außerdem besagt die Nullhypothese, dass die beiden Verteilungen identisch sind, und die Alternativhypothese legt nahe, dass es einen signifikanten Unterschied zwischen den beiden Verteilungen gibt.

Man kann diesen Test mit einer einzelnen Stichprobe verwenden, um zu überprüfen, ob die Verteilung einer bestimmten Gesetzmäßigkeit folgt, oder mit zwei unabhängigen Stichproben, um zwei verschiedene Verteilungen zu vergleichen.

Wenn der P-Wert über einem vordefinierten Signifikanzniveau liegt, ist die Nullhypothese bestätigt. Wenn er niedriger ist, beweist dies einen Unterschied und die beiden Verteilungen sind unvereinbar.

Wozu dient der Kolmogorov-Smirnov-Test?

Der Kolmogorov-Smirnov-Test wird in vielen verschiedenen Bereichen wie Sozialwissenschaften, Wirtschaft, Biologie, Physik, Ingenieurwesen und vielen anderen verwendet.

Eine der häufigsten Anwendungen ist die Beurteilung der Normalität einer Verteilung. Dabei wird eine empirische Verteilung mit einer theoretischen Normalverteilung verglichen, um zu überprüfen, ob die Daten signifikante Abweichungen aufweisen.

Diese Methode kann auch verwendet werden, um festzustellen, ob zwei unabhängige Stichproben aus der gleichen Population stammen oder ob sie große Unterschiede aufweisen. Das ist sehr nützlich bei vergleichenden Studien, kontrollierten Experimenten oder Gruppenanalysen.

Es wird auch verwendet, um die Angemessenheit eines statistischen Modells zu überprüfen. Dabei wird geprüft, ob das an die Daten angepasste Modell die beobachtete Verteilung genau wiedergibt. Wenn dies nicht der Fall ist, können potenzielle Lücken oder Fehler identifiziert werden.

Es handelt sich also um ein sehr vielseitiges Werkzeug für Data Science, Machine Learning und Künstliche Intelligenz. Es wird nicht nur zum Vergleich der Leistung von Modellen verwendet, sondern auch zur Auswahl von Merkmalen und zur Erkennung von Anomalien.

Fazit

Diese Anekdote hat nicht nur die Bedeutung von Begegnungen und Zufall bei großen wissenschaftlichen Entdeckungen hervorgehoben, sondern auch ein Werkzeug hervorgebracht, das auch heute noch häufig verwendet wird, um Daten zuverlässig zu analysieren.

Um alle Methoden und Werkzeuge der Data Science zu erlernen, bist du bei DataScientest genau richtig. Unsere verschiedenen Kurse bieten dir die Möglichkeit, alle Fähigkeiten eines Data Analyst, Data Engineer, Data Scientist, Machine Learning Engineer oder Data Product Manager zu erwerben.

Du wirst insbesondere die Programmiersprache Python und ihre Bibliotheken, DataViz, Business Intelligence, Datenanalyse und maschinelles Lernen kennen lernen.

Alle unsere Programme werden vollständig aus der Ferne absolviert, und unsere staatlich anerkannte Organisation ist für die Finanzierung durch den Bildungsgutschein qualifiziert. Dank einer Partnerschaft mit MINES ParisTech erhalten die Lernenden am Ende des Kurses eine Zertifizierung. Entdecke DataScientest!

Du weißt alles über den Kolmogorov-Smirnov-Test. Weitere Informationen über Data Science Tools findest du in unserem Dossier über Power BI und unserem Dossier über Python.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.