Du hast Fragen? Wir haben Antworten! - Bald findet unser nächster Tag der offenen Tür statt!

Logo site

Chi-2 : Mehr über diesen unentbehrlichen statistischen Test

-
3
 Minuten Lesezeit
-
chi2

Der Chi-Quadrat-Test ist ein statistischer Test für Variablen, die eine endliche Anzahl von möglichen Werten annehmen (also kategoriale Variablen). Zur Erinnerung: Ein statistischer Test ist eine Methode, um eine Hypothese, die sogenannte Nullhypothese, anzunehmen oder abzulehnen, je nachdem, wie gut sie zu den Daten passt.

Wozu dient der Chi-Quadrat-Test?

Der Vorteil des Chi-Quadrat-Tests ist seine große Bandbreite an Anwendungsmöglichkeiten:

  • Test auf Übereinstimmung mit einer a priori definierten Gesetzmäßigkeit oder einer Familie von Gesetzmäßigkeiten, z.B. Folgt die Größe einer Population einer Normalverteilung? :
  • Test auf Unabhängigkeit, Beispiel: Ist die Haarfarbe unabhängig vom Geschlecht?
  • Test auf Homogenität: Sind zwei Datensätze gleich verteilt?

Wie funktioniert der Test?

Das Prinzip ist, die Nähe oder Ferne zwischen der Gesetzmäßigkeit der Stichprobe und einer theoretischen Gesetzmäßigkeit mit der sogenannten Pearson-Statistik \chi_{Pearson}} zu vergleichen. [\latex], die auf dem Chi-Quadrat-Abstand basiert.

Erstes Problem: Da wir nur über eine begrenzte Anzahl von Daten verfügen, können wir das Gesetz der Stichprobe nicht perfekt kennen, sondern nur eine Annäherung an dieses Gesetz, das empirische Maß.

Das empirische Maß \widehat{\mathbb{P}}_{n,X} [\latex] stellt die Häufigkeit der verschiedenen beobachteten Werte dar:

\forall x \in \mathbb{X} \quad \widehat{\mathbb{P}}_{n,X} (x) = \frac{1}{n} \sum_{k=1}^{n} 1_{X_{k} =x}

Formel Empirische Messung

mit

X_{1},... ,{X_n} =Probe
{\mathbb{X}} = Die Menge aller möglichen Werte

Wir definieren die Pearson-Statistik als :

\chi_{Pearson} = n \times \chi_{2}(\widehat{\mathbb{P}}_{n,X}, P_{theorique} ) = n \times \sum_{x \in \mathbb{X}} \frac{(\widehat{\mathbb{P}}_{n,X} (x)- P_{theorique}(x))^{2}}{P_{theorique}(x)}

Statistische Formel nach Pearson

Unter der Nullhypothese, d. h. dass die Stichprobenverteilung mit der theoretischen Verteilung übereinstimmt, wird die Pearson-Statistik gegen die Chi-Quadrat-Verteilung mit d Freiheitsgraden konvergieren. Die Anzahl d der Freiheitsgrade hängt von der Größe des Problems ab und ist im Allgemeinen die Anzahl der möglichen Werte -1.

Zur Erinnerung: Die Chi-Quadrat-Verteilung mit d Freiheitsgraden

zentriert reduziert unabhängig.

\chi^{2}_{loi}(d)

ist die einer Summe der Quadrate von d Gaußschen

chi^{2}_{loi}(d) := \sum_{k=1}^{d} X_{k} \quad avec \quad X_{k} \sim \mathbb{N}(0,1)

Andernfalls wird diese Statistik ins Unendliche divergieren, was die Entfernung zwischen empirischen und theoretischen Verteilungen widerspiegelt.

Sous \quad H_{0} \quad \lim_{n\rightarrow \infty } \chi_{Pearson} = \chi^{2}_{loi}(d). \\ Sous \quad H_{1} \quad \lim_{n\rightarrow \infty } \chi_{Pearson} = \infty

Grenzformel

Was sind seine Vorteile?

Wir haben also eine einfache Entscheidungsregel: Wenn die Pearson-Statistik einen bestimmten Schwellenwert überschreitet, lehnen wir die Ausgangshypothese (die theoretische Verteilung passt nicht zu den Daten) ab, ansonsten akzeptieren wir sie. Der Vorteil des Chi-Quadrat-Tests ist, dass dieser Schwellenwert nur von der Chi-Quadrat-Verteilung und dem Alpha-Konfidenzniveau abhängt, also unabhängig von der Verteilung der Stichprobe ist.

Eine Anwendung, der Unabhängigkeitstest :

Nehmen wir ein Beispiel, um diesen Test zu veranschaulichen: Wir wollen wissen, ob die Geschlechter der ersten beiden Kinder X und Y eines Paares unabhängig sind?

Wir haben die Daten in einer Kontingenztabelle zusammengefasst:

\begin{array}{|c|c|c|c|} \hline X / Y & Kind 2 : Sohn & Kind 2 : Tochter & Total \\ \hline Kind 1 : Sohn & 857 & 801 & 1658 \\ \hline Kind 1 : Tochter & 813 & 828 & 1641\\ \hline Total & 1670 & 1629 & 3299 \end{array}

Die Pearson-Statistik bestimmt, ob das empirische Maß der gemeinsamen Gesetzmäßigkeit (X,Y) gleich dem Produkt der marginalen empirischen Maße ist, was die Unabhängigkeit charakterisiert:

\chi_{Pearson} = n \times \chi2 (\widehat{\mathbb{P}}_{X \times Y}, \widehat{\mathbb{P}}_{X} \times \widehat{\mathbb{P}}_{Y}) = \sum_{x \in \{Tochter, Sohn\}, y\in \{Tochter, Sohn\} } \frac{(Observation_{x,y} - Theory_{x,y})^{2}}{Theory_{x,y}}

Hier Observation(x,y) ist die Häufigkeit des Wertes (x,y) :

\forall x,y \in \{Tochter, Sohn\} \quad Observation_{x,y} = \frac{1}{n} \sum_{k=1}^{n} 1_{(X_{k},Y_{k}) =(x,y)}

Zum Beispiel:

Observation(Tochter, Sohn)= \frac{828}{3299} =0.251

Für Theory(x,y) wird angenommen, dass X und Y unabhängig sind, so dass die theoretische Gesetzmäßigkeit das Produkt der Randgesetze sein sollte:

\forall x,y \in \{Tochter, Sohn\} \quad Theory_{x,y} = Observation^{X} \times Observation^{Y} = \sum_{y\in\{Tochter, Sohn\}}Observation_{x,y} \times \sum_{x\in\{fille, fils\}}Observation_{x,y}

Die theoretische Wahrscheinlichkeit für (Sohn,Sohn) ist also:

Theory(Tochter, Sohn)=\frac{857+801}{3299} \times \frac{857+813}{3299} =\frac{1658 \times 1670}{3299^{2}}=0.254

Berechnen wir die Teststatistik mithilfe des folgenden Python-Codes:

In unserem Fall haben die Variablen X und Y nur zwei mögliche Werte: Mädchen oder Jungen. Die Dimension des Problems ist also (2-1)(2-1) oder 1.

Wir vergleichen daher die Teststatistik mit dem Chi-Quantil bei 1 Freiheitsgrad über die Funktion chi2.ppf in scipy.stats. Sie ist kleiner als das Quantil und der p-Wert ist größer als das Konfidenzniveau = 0,05. Wir können die Nullhypothese mit 95%igem Vertrauen nicht ablehnen und schließen daher auf die Unabhängigkeit des Geschlechts der ersten beiden Kinder.

Wo liegen seine Grenzen?

Der Chi-Quadrat-Test scheint sehr praktisch zu sein, hat aber auch seine Grenzen: Er stellt nur fest, dass es Korrelationen gibt, aber er erkennt weder die Stärke dieser Korrelationen noch Kausalitäten.

Er beruht auf der Annäherung des Chi-Quadrat-Gesetzes durch die Pearson-Statistik, die nur dann überprüft werden kann, wenn eine ausreichende Anzahl von Daten vorliegt. In der Praxis sieht diese Gültigkeitsbedingung wie folgt aus:

\forall x \in \mathbb{X} \quad n \times P_{theorie}(x) (1- P_{theorie}(x)) \geq 5

Der exakte Test nach Fisher kann diesen Mangel beheben, erfordert aber eine hohe Rechenleistung (in der Praxis wird er auf 2*2-Kontingenztabellen beschränkt).

Statistische Tests sind in der Data Science unerlässlich, um die Relevanz der erklärenden Variablen zu überprüfen und die Hypothesen der Modellierung zu validieren. Weitere Informationen über Chi-2 und andere statistische Tests findest du in unserem Modul 104 – Explorative Statistik.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.