Um Daten besser zu verstehen, ist es wichtig, ihre Beziehungen zueinander zu analysieren. Und um diese Analyse bei Zehntausenden von Datenzeilen zu erleichtern, gibt es mathematische Formeln. Dazu gehört auch der Korrelationskoeffizient.
Was ist der Korrelationskoeffizient?
Beziehung und Abhängigkeit zwischen zwei Variablen
Bevor man den Korrelationskoeffizienten verstehen kann, muss man die Beziehungen zwischen den verschiedenen Variablen in einem Datensatz verstehen. Wenn also die Werte einer Variablen Y von dem Wert x abhängen (oder umgekehrt), besteht eine Beziehung zwischen diesen beiden Variablen. Die Kenntnis von X (oder Y) sollte dann die Vorhersage der anderen Variablen Y (oder X) ermöglichen.
Beispielsweise hängt die von einem Unternehmen erzielte Gewinnspanne (teilweise) vom Preis seiner Produkte oder Dienstleistungen ab. Es besteht also eine Korrelation zwischen diesen beiden Werten.
In der Mathematik wird diese Beziehung wie folgt übersetzt: Y=f(X). Hier wird Y als die abhängige Variable und X als die unabhängige Variable betrachtet.
Achtung: Nur weil man von X auf Y schließen kann, heißt das nicht, dass dies auch umgekehrt der Fall ist.
Und um herauszufinden, ob es eine Korrelation zwischen zwei Variablen gibt, kann man die Formel für den Korrelationskoeffizienten verwenden. Zuvor muss jedoch die Form einer Beziehung definiert werden.
Die Form der Beziehung zwischen zwei Variablen
Um die Form der Beziehung zwischen zwei Variablen festzustellen, ist das einfachste Werkzeug eine grafische Darstellung. Mithilfe eines Diagramms können die Modalitäten von X und Y gekreuzt werden, wobei X auf der Abszisse und Y auf der Ordinate steht. Dieses Diagramm ermöglicht es dann, die Beziehung zwischen den Variablen anhand von drei Parametern zu charakterisieren:
- Intensität: Die Beziehung zwischen den Variablen kann stark, schwach oder null sein. Sie ist stark, wenn die Einheiten in X und Y benachbarte Werte haben. Visuell zeigt sich dies in einer Punktwolke mit eng beieinander liegenden Werten. Umgekehrt ist die Beziehung schwach, wenn die benachbarten Werte von X und Y weit auseinander liegen. Und wenn sie sehr weit voneinander entfernt sind (ohne jegliche Leitlinie), ist die Beziehung gleich null. Mit anderen Worten: Es ist nicht möglich, Y anhand von X vorherzusagen.
- Die Form: Die Beziehung kann linear und monoton (eine gerade Linie im Diagramm), nicht linear und monoton (eine streng ansteigende oder abfallende Kurve) oder nicht linear und nicht monoton (die Kurve wird sowohl ansteigend als auch abfallend sein, wie eine Parabel oder Hyperbel) sein.
- Bedeutung: Dies gilt für monotone Beziehungen. Man sagt dann, dass die Korrelation positiv ist, wenn die beiden Variablen in die gleiche Richtung gehen, oder negativ, wenn sie in entgegengesetzte Richtungen gehen.
Je nach Form der Beziehung müssen die richtigen Werkzeuge ausgewählt werden. Dazu gehört auch die Formel für den Korrelationskoeffizienten.
Die Formel für den Korrelationskoeffizienten
Der Korrelationskoeffizient wird verwendet, um monotone Beziehungen zu untersuchen (unabhängig davon, ob sie linear sind oder nicht). Je nach ihrer Linearität werden jedoch zwei Arten von Korrelationskoeffizienten (Pearson oder Spearman) verwendet, die wir im nächsten Absatz behandeln werden.
Die verwendete Formel unterscheidet sich dann je nach Art der Beziehung. Sie wird aber immer in dieser Form „r“ geschrieben.
Der Korrelationskoeffizient kann verwendet werden, um eine Verbindung zwischen einer Vielzahl von Variablen herzustellen. Zum Beispiel der Zusammenhang zwischen Körpergröße und Intelligenz, Preis und Gewinnspannen, Einwohnerzahl und Umweltverschmutzung, Kalorienzufuhr und Krankheit usw.
Was sind die verschiedenen Korrelationskoeffizienten?
Der Pearson-Korrelationskoeffizient
Dann geht es darum, lineare und monotone Beziehungen zu untersuchen.
Die Formel für den Korrelationskoeffizienten nach Pearson lautet wie folgt:
Um den Korrelationskoeffizienten nach Pearson zu berechnen, muss daher zunächst die Kovarianz berechnet werden. Das heißt, den Mittelwert des Produkts der Abweichungen vom Mittelwert.
Anschließend teilt man diese Kovarianz durch das Produkt der Standardabweichungen von X und Y.
Je nachdem, wie das Ergebnis ausfällt, kannst du die Beziehung zwischen den beiden Variablen interpretieren. So :
- wenn r nahe bei 0 liegt: die lineare Beziehung ist null. Achtung: Nur weil es keine lineare Beziehung zwischen zwei Variablen gibt, heißt das nicht, dass es überhaupt keine Beziehung gibt.
- Wenn r nahe bei -1 liegt: Es gibt einen starken linearen Zusammenhang zwischen den beiden Variablen, der aber negativ ist. Sie bewegen sich also in entgegengesetzte Richtungen.
- Wenn r nahe bei 1 liegt: Es gibt eine starke positive lineare Beziehung zwischen den beiden Variablen. Sie bewegen sich in die gleiche Richtung.
Gut zu wissen: Diese Formel für den Korrelationskoeffizienten ist zwar effektiv, um die Beziehung zwischen zwei Variablen besser zu verstehen, sie funktioniert aber nur, wenn die Verteilung keine Ausreißer aufweist. Andernfalls können die Ergebnisse der Berechnung zu völlig falschen Schlussfolgerungen führen.
Der Korrelationskoeffizient nach Spearman
Mit dieser Formel (auch Rangkorrelationskoeffizient genannt) können monotone Beziehungen analysiert werden. Dies gilt unabhängig von der Form der Beziehung (linear, exponentiell, ….). Der Spearman-Koeffizient ist am besten geeignet, wenn es Ausreißer oder unsymmetrische Verteilungen gibt. Durch die Berechnung von Spearlarms ist es weniger wahrscheinlich, dass diese das Ergebnis verzerren.
Wo liegen die Grenzen des Korrelationskoeffizienten?
Die Formel für den Korrelationskoeffizienten ist nur der erste Schritt bei der Bestimmung der Beziehungen zwischen mehreren Variablen. Um ein umfassenderes Bild zu erhalten, ist es entscheidend, weitere mathematische Berechnungen durchzuführen, wie z. B. den Signifikanztest und die Überprüfung, dass keine Verzerrung vorliegt.
Wenn du diese verschiedenen statistischen Werkzeuge zusammen benutzt, kannst du einige weitere Schritte bei der Erstellung eines Modells für maschinelles Lernen machen. Um die Verbindungen zwischen Daten und neuronalen Netzen besser zu verstehen, ist es jedoch besser, eine umfassende Weiterbildung in Datenwissenschaft zu absolvieren. Um dies zu erreichen, kannst du an einem Datascientest-Kurs teilnehmen.
Was du dir merken solltest
- Der Korrelationskoeffizient ermöglicht es, die Beziehungen zwischen mehreren Variablen anzuzeigen.
Er gibt somit einen Hinweis auf die Stärke, die Form und die Richtung der Beziehung.
Je nach Art der Beziehung kann man den Spearman- oder den Pearson-Korrelationskoeffizienten verwenden.