🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Die Varianzanalyse ANOVA: Ein Tool der Datenanalyse

-
6
 Minuten Lesezeit
-
anova

Die Varianzanalyse ANOVA (analysis of variance) ist eine einfache und häufig verwendete statistische Technik, um die Beziehung zwischen zwei (oder mehreren) Variablen zu untersuchen, insbesondere zwischen einer erklärenden Variablen und einer Zielvariablen (oder abhängigen Variablen). Die ANOVA ermöglicht es uns zu verstehen, ob und wie die erklärende Variable die Zielvariable beeinflusst.

Die Varianzanalyse ANOVA wird also in verschiedenen Kontexten und zu unterschiedlichen Fragestellungen mobilisiert, angefangen beim Marketing bis hin zu wissenschaftlichen Studien in verschiedenen Bereichen (Medizin, Biologie, Demografie usw.). Wir können uns konkrete Fälle vorstellen, in denen die ANOVA eingesetzt werden kann.

Der Leiter einer Kette mit 80 Geschäften möchte wissen, ob sich eine Erhöhung der Helligkeit der Werbeplakate positiv auf die Verkäufe auswirken kann. Er teilt seine Geschäfte in vier Gruppen ein. Die erste Gruppe bittet er, die Helligkeit der Werbeplakate nicht zu verändern. Dagegen bittet er die zweite, dritte und vierte Gruppe von Geschäften, die Helligkeit der Werbeplakate um 20 %, 40 % bzw. 60 % zu erhöhen. Einen Monat später berechnet er die durchschnittlichen Verkaufszahlen für jede der vier Gruppen. Er stellt Unterschiede fest: Der Helligkeitsgrad der Plakate scheint den Verkauf gefördert zu haben.

Demografen möchten den Effekt des Bildungsniveaus (unterhalb des Abiturs, Abitur, Bachelor, Master) auf das Einkommen untersuchen. Ausgehend von einer nationalen Studie, die 150.000 Personen in ganz Frankreich umfasste, berechneten sie das durchschnittliche Einkommen für jede dieser Schulstufen.

Sie stellen fest, dass sich die Durchschnittswerte unterscheiden und dass die Schulstufe einen positiven Effekt auf das Einkommen zu haben scheint.

Wie können der Geschäftsführer der Ladenkette und die Demografen sicher sein, dass es einen signifikanten Zusammenhang zwischen den Variablen gibt, die sie untersuchen (Helligkeit der Werbeplakate und Verkäufe einerseits und Bildungsniveau und Einkommen andererseits) und dass die Unterschiede, die sie festgestellt haben, also real sind?

Glücklicherweise können sie sich auf einen statistischen Test verlassen, der 1918 von dem britischen Biologen und Statistiker Fischer entwickelt wurde: die ANOVA.

Was ist die Varianzanalyse ANOVA?

Die Varianzanalyse ANOVA ist eine Technik der Inferenzstatistik, die entwickelt wurde, um zu testen, ob es einen signifikanten Zusammenhang zwischen zwei Variablen in zwei oder mehr Gruppen gibt.

Sie wird insbesondere dann eingesetzt, wenn wir wissen wollen, ob eine erklärende Variable (in unserem Beispiel die Helligkeit der Plakate und das Bildungsniveau) eine abhängige Variable (in unserem Beispiel die Verkäufe in den Geschäften und das Einkommen) beeinflusst.

Es ist wichtig zu beachten, dass im Fall der ANOVA die erklärende Variable eine kategoriale Variable ist, d.h. eine Variable, die Werte für eine Eigenschaft oder ein Merkmal enthält, die bzw. das nicht quantifizierbar ist. Andererseits ist die Zielvariable eine quantitative Variable, d. h. eine Variable, die in Zahlenwerten ausgedrückt werden kann.

Die ANOVA folgt der gleichen Logik wie ein Mittelwertvergleichstest wie der T-Test, aber im Gegensatz zum T-Test ist sie nicht auf die Analyse von zwei Gruppen beschränkt, sondern kann im Gegenteil eine Vielzahl von Gruppen berücksichtigen: Das ist ihre Stärke.

Das Ziel der ANOVA ist es, die Nullhypothese, die besagt, dass es keinen signifikanten Unterschied zwischen den untersuchten Gruppen gibt, zu verwerfen und die Alternativhypothese, die besagt, dass die festgestellten Unterschiede zwischen den Gruppen tatsächlich bestehen, beizubehalten. Um dies zu erreichen, setzt die Varianzanalyse ANOVA, wie der Name schon sagt, die Varianz zwischen den Klassen in Beziehung zur Varianz innerhalb der Klassen.

Die Interklassenvarianz gibt die Varianz zwischen den Gruppen an, d. h., um auf eines unserer Beispiele zurückzukommen, die Varianz zwischen den verschiedenen Gruppen, die durch ihren Bildungsgrad definiert sind. Die Varianz innerhalb der Klasse gibt die Varianz innerhalb jeder Gruppe an, die durch ihre Bildungsstufe definiert ist.

Die Grundidee der ANOVA ist, dass je größer das Verhältnis zwischen der Varianz zwischen den Klassen und der Varianz innerhalb der Klassen ist, desto größer ist die Wahrscheinlichkeit, dass die Unterschiede zwischen den Gruppen tatsächlich bestehen.

Mit anderen Worten: Wenn die Varianz zwischen den Klassen größer ist als die Varianz innerhalb der Klassen, können wir davon ausgehen, dass die beobachteten Unterschiede tatsächlich auf die Zugehörigkeit zu den verschiedenen Gruppen zurückzuführen sind: Wir können dann die Nullhypothese ablehnen. Das Verhältnis zwischen der Varianz zwischen den Klassen und der Varianz innerhalb der Klasse wird durch die F-Ratio ausgedrückt.

Auch interessant: Standardabweichung Formel Excel

Wie wird der F Ratio berechnet?

Um den F-Ratio zu berechnen, können wir unser Problem der Varianzanalyse in mehrere Schritte zerlegen. Wir beginnen damit, die Varianz zwischen den Klassen (über die Gruppen hinweg) und die Varianz innerhalb der Klassen (innerhalb der Gruppen) zu berechnen.

Dazu müssen wir die Summe der Quadrate der Abweichungen (SCE) zwischen den Gruppen berechnen.

Die Formel lautet wie folgt:

SCEInterclasse = \sum_{k=1}^{n} u_{k} \times (\overline{Y_{k}}- \overline{Y})^{2}

mit

k = die Anzahl der verschiedenen Gruppen
\overline{Y_{k}} = der Durchschnitt einer Gruppe
\overline{Y} = der Gesamtdurchschnitt

Die SCEInterklasse kann auch als die Gesamtvariation in der abhängigen Variable verstanden werden, die durch die unabhängige Variable erklärt werden kann.

Als Nächstes werden wir die Intraklassen-Quadratsumme berechnen, d. h. die Summe der Quadrate der Abweichungen innerhalb der Gruppen. Wir werden sie SCEIntraclass nennen.

Die Formel zur Berechnung der Summe der Quadrate der Abweichungen innerhalb der einzelnen Gruppen lautet wie folgt:

SCEIntraclasse = \sum_{k=1}^{n} u_{k} \times (\overline{Y_{i}}- \overline{Y_{k}})^{2}

mit:

\overline{Y_{i}} = jede einzelne Punktzahl innerhalb der Gruppe
\overline{Y_{k}} = der Durchschnitt der Gruppe

Zusammen bilden die Interklassenvarianz und die Interklassenvarianz die Gesamtvarianz in unseren Beobachtungen. Diese kann wie folgt dargestellt werden:

SCEGesamt = SCEInterklasse + SCEIntraklasse.

Als Nächstes können wir unsere Freiheitsgrade berechnen.

Für SCEInterklasse werden die Freiheitsgrade bestimmt durch:

DDLInterklasse = K – 1

Dabei ist K die Anzahl der Gruppen.

Für SCEIntraclass werden die Freiheitsgrade wie folgt bestimmt:

DDLIntraklasse = N – k

Dabei gilt

N = die Gesamtzahl der Beobachtungen
k = die Anzahl der Gruppen.

Wir können nun den Durchschnitt der Interklassenquadrate berechnen, indem wir SCEInterklasse durch die DDL Interklasse dividieren.

Mittelwert der klassenübergreifenden Quadrate = SCEinterclass / DDLInterclass.

Wir können auf die gleiche Weise vorgehen, um den Durchschnitt der klasseninternen Quadrate zu berechnen:

Mittelwert der Intraklassenquadrate = SCEinterklasse / DDLIntraklasse.

Wir sind am Ende unseres Weges angelangt und können nun endlich das F-Verhältnis (Fisher’s F) berechnen.

F ratio = Mittelwert der Interklassenquadrate / Mittelwert der Intraklassenquadrate

Eine hohe F-Ratio zeigt an, dass die Varianz zwischen den Klassen größer ist als die Varianz innerhalb der Klassen.

Dies erhöht die Wahrscheinlichkeit, dass wir die Nullhypothese ablehnen und behaupten können, dass es tatsächlich einen Unterschied zwischen unseren Interessengruppen gibt.

Es ist wichtig zu erwähnen, dass wir, um eine Varianzanalyse ANOVA an unseren Daten durchführen zu können, überprüfen müssen, ob die Daten eine Reihe von Bedingungen erfüllen, insbesondere die Normalverteilung und die Unabhängigkeit unserer Stichproben.

Genauer gesagt ist es notwendig, dass die untersuchte quantitative Variable eine Normalverteilung hat: Dies ist besonders wichtig bei kleinen Stichproben.

Außerdem müssen wir die Homoskedastizität untersuchen: Um eine Varianzanalyse ANOVA durchführen zu können, müssen alle untersuchten Gruppen eine gleiche (oder ähnliche) Varianz aufweisen.

Schließlich müssen wir vor der Durchführung einer ANOVA überprüfen, ob die Beobachtungen unabhängig voneinander sind.

Auch interessant: Statistik Bias die du kennen solltest

Two-Way ANOVA und Post-hoc-Tests

Die Varianzanalyse ANOVA-Beispiele, die wir bisher vorgestellt haben, untersuchen die Beziehung zwischen einer erklärenden Variablen (die Helligkeit der Plakate einerseits und das Bildungsniveau andererseits) und einer abhängigen Variablen:

Diese einfache Version der Varianzanalyse ANOVA wird auch one-way anova oder Ein-Faktor-Anova genannt. In den meisten Fällen sind wir jedoch daran interessiert, die Auswirkungen von zwei oder mehr Variablen auf die abhängige Variable zu untersuchen.

Wir können uns z. B. fragen, ob das Geschlecht einer Person einen Einfluss auf ihr Einkommen hat und nicht nur ihr Bildungsniveau. In diesem Fall würden wir eine komplexere Version unserer ANOVA verwenden: die two-way anova.

Wenn wir nur eine einzige erklärende Variable haben, können wir eine einzige F-Ratio berechnen. Wenn jedoch signifikante Unterschiede von mehreren unabhängigen Variablen erzeugt werden, müssen wir mehrere F-Quotienten berechnen.

Die Zwei-Wege-Anova ermöglicht es uns, den Haupteffekt jeder einzelnen unabhängigen Variable zu bewerten, aber auch, ob es eine Interaktion zwischen ihnen gibt.

Die ANOVA (One-way oder two-way) ermöglicht es uns, zu testen, ob es einen signifikanten Unterschied zwischen zwei oder mehreren Gruppen gibt.

Sie erlaubt uns jedoch nicht zu wissen, wo dieser Unterschied liegt. Anders ausgedrückt: Wenn wir auf das Beispiel mit der Helligkeit der Werbeplakate zurückkommen und feststellen, dass eine Erhöhung der Helligkeit der Plakate die Verkäufe positiv beeinflusst, können wir uns fragen, welche Helligkeitsstufe für diese Erhöhung verantwortlich ist:

Wir können uns vorstellen, dass nur eine Erhöhung der Helligkeit der Plakate um 60 % einen positiven Effekt auf die Verkäufe hat und dass die Erhöhungen um 20 % und 40 % keinen Effekt haben.

Um diese Art von Hypothesen zu überprüfen, müssen wir Post-hoc-Tests durchführen. Die am häufigsten verwendeten Post-hoc-Tests sind der HSD-Test nach Tukey und die Bonferroni-Korrektur.

Die ANOVA (one-way oder two-way) in Kombination mit diesen Tests ermöglicht ein gutes Verständnis der Beziehung zwischen unseren interessierenden Variablen.

Diese Techniken gehören zu den Werkzeugen, die ein Data Scientist täglich anwenden kann, um seine Daten zu verstehen. Sie helfen zu verstehen, ob und wie eine erklärende Variable eine Zielvariable beeinflusst. Die Ausbildung in Varianzanalyse ist daher ein wichtiger Schritt auf dem Weg zu einer Karriere als Data Scientist.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.