Das Bestimmtheitsmaßstab wird von Statistiksoftware berechnet und hilft zu verstehen, wie viele Variablen eines Faktors durch seine Beziehung zu einem anderen Faktor erklärt werden können.
Definition des Bestimmtheitsmaßes
Bei einer linearen Regression geht es darum, eine lineare Beziehung zwischen zwei Datensätzen zu bestimmen. Wenn man vom Bestimmtheitsmaß, auch „R-Quadrat“ genannt, spricht, kommt dieses zum Tragen, wenn man in dieser linearen Regression nach der Stärke der Übereinstimmung zwischen dem Modell dieser Regression und den gesammelten Daten sucht. In diesem Fall spricht man von der „Anpassungsgüte“.
Warum sollte man den Bestimmtheitsmaßstab verwenden?
Konkret ist das Bestimmtheitsmaß ein Index für die Qualität der Vorhersage der linearen Regression. Das Bestimmtheitsmaß liegt zwischen 0 und 1. Je näher es an 1 liegt, desto besser stimmt die lineare Regression mit den erhobenen Daten überein. 1 entspricht 100%, d.h. in diesem Fall ist die Korrelation zwischen den Variablen vollständig. Umgekehrt bedeutet ein Wert nahe Null, dass die Daten praktisch nicht korreliert sind. Das Bestimmtheitsmaß ist nützlich, um zukünftige Ereignisse auf der Grundlage der Wahrscheinlichkeit, die das Ergebnis seiner Berechnung liefert, vorherzusagen. Daher ist es notwendig, so viele Daten wie möglich zu haben, damit das Ergebnis so genau wie möglich ist.
Wie wird der Bestimmtheitsmaßstab berechnet?
Das Bestimmtheitsmaß ist gleich dem Korrelationskoeffizienten (R) zum Quadrat. Der Korrelationskoeffizient misst die Stärke der Beziehung zwischen zwei Variablen: der abhängigen Variable (x) und der vorhersagenden Variable (y). Diese Stärke liegt zwischen -1 und 1. Wenn man also R hat, ist es möglich, R² zu berechnen. Andererseits kann man mit dieser Berechnung nicht den Effekt bestimmen, der dazu geführt hat, dass die Daten für die lineare Regression geeignet sind oder nicht. Eine andere Methode basiert auf der Qualität der Daten; unter allen gespeicherten Daten (TSS) werden diejenigen gezählt, die nur Restvarianten (RSS) darstellen. Die folgende Berechnung ermöglicht es daher, ein geeigneteres und genaueres Bestimmtheitsmaß zu finden:
R² = 1 – RSS / TSS
R² oder angepasstes R²?
Die Grenze des Bestimmtheitsmaßes liegt in der Hinzufügung von Variablen zu einer linearen Regression. Wenn zu viele Variablen hinzugefügt werden, erhöht sich der Wert von R² ungerechtfertigterweise. In diesem Fall ist es hilfreich, sich auf das „angepasste R²“ zu beziehen, das bestimmt, wie zuverlässig die Korrelation ist und ob sie durch das Hinzufügen von Variablen bestimmt wird.
Im Allgemeinen ist das Bestimmtheitsmaß ein gutes Instrument, um den Zusammenhang zwischen der linearen Regression und den Variablen zu schätzen. Er ist jedoch nur begrenzt verwendbar, da er nur teilweise die Nützlichkeit einer linearen Regression und die Anpassung der Punkte an das Regressionsmodell misst.
Du weißt jetzt alles über den Bestimmungskoeffizienten. DataScientest bietet dir die Möglichkeit, einen Schritt weiter zu gehen, indem du lernst, wie du ein Datenprojekt von A bis Z verwalten kannst. Entdecke unsere Weiterbildungen, zögere nicht länger!