🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Multiple lineare Regression – Definition und Nutzen

-
3
 Minuten Lesezeit
-
lineare regression

Anstatt die Beziehungen zwischen zwei Variablen zu erklären, stellt die multiple lineare Regression Beziehungen zwischen einer Variablen und mehreren erklärenden Variablen her. Dieser mehrdimensionale Ansatz ermöglicht es, die Zusammenhänge zwischen verschiedenen Datensätzen weiter zu vertiefen und gleichzeitig das Risiko von Fehlinterpretationen zu verringern.

Erfahre mehr über das Modell der multiplen linearen Regression, seine mathematischen Übersetzungen und seine Vorteile.

💡Auch interessant: Logistische Regression

Was ist multiple lineare Regression?

Definition

Bevor wir die multiple lineare Regression (auch multidimensionale lineare Regression oder MLR genannt) verstehen, sollten wir die Grundlagen neu definieren.

👉Genauer gesagt: die lineare Regression.

Dieser Klassifikationsalgorithmus hat das Ziel, Beziehungen zwischen einer zu erklärenden Variable Y (die wir als abhängige Variable oder Antwortvariable bezeichnen) und einer erklärenden Variable X (die wir als unabhängige Variable bezeichnen) herzustellen.

Dieses Modell nimmt auf einer Punktwolke Gestalt an, wobei X auf der Ordinatenachse und Y auf der Abszissenachse liegt.

In diesem Fall muss die lineare Regression eine Gerade bestimmen, die in der Lage ist, so nah wie möglich an den Punkten der Wolke vorbeizugehen. Dies geschieht mithilfe der Methode der kleinsten Quadrate (oder OLS für Ordinary Least Squares), die die Beziehung zwischen X und Y bestimmt.

Auf dieser Grundlage ist es möglich, eine abhängige Variable Y durch eine unabhängige Variable X zu erklären (einfache lineare Regression) oder die abhängige Variable Y durch mehrere unabhängige Variablen X (mindestens zwei) zu erklären.

Genau das ist die multiple lineare Regression. Die Herstellung von Beziehungen zwischen verschiedenen Variablen ermöglicht es somit, Vorhersagen mit minimalen Fehlern zu treffen.

Unabhängig vom Modell ist die abhängige Variable immer vom kontinuierlichen numerischen Typ, im Gegensatz zu den unabhängigen Variablen, die kontinuierlich oder kategorial (aber immer numerisch) sein können.

Mathematische Übersetzung

Die multiple lineare Regression kann verwendet werden, wenn du über einen solchen Datensatz verfügst:

Y X1 X2 Xn
1 15 54
2 58 65
n

Aus dieser Tabelle ergibt sich die RLM in folgender Form:

yi = β0 + β1xi1 +…+ βpxip + ϵi.

Dabei gilt

yi = die abhängigen Variablen ;
i = der Index der Beobachtungen ;
xij = die beobachteten Werte der unabhängigen Variablen ;
βp = die unbekannten Parameter (manchmal auch als „partielle Steigungen“ bezeichnet) ;
ϵi = die Residuen (anders gesagt: der Vorhersagefehler).

Wie jede lineare Regression wird auch die multiple Regression durch eine Punktwolke formalisiert. Im Gegensatz zur einfachen Regression, die auf eine zweidimensionale grafische Ebene projiziert wird, wird die multiple lineare Regression auf eine mehrdimensionale grafische Ebene projiziert. Auf diese Weise können die verschiedenen erklärenden Variablen modelliert werden.

Warum sollte man die multidimensionale lineare Regression verwenden?

Vorhersagen treffen

Durch die Identifizierung von Korrelationsbeziehungen zwischen einem Ergebnis (der abhängigen Variable) und mehreren erklärenden und unabhängigen Variablen ermöglicht die multiple lineare Regression Vorhersagen und Einsichten.

Aus diesem Grund wird diese mathematische Methode in vielen Bereichen eingesetzt. Hier sind einige Anwendungsbeispiele:

  • Verkaufsleistung: Unternehmen können den Verkauf eines Produkts vorhersagen, indem sie die verschiedenen Merkmale des typischen Käufers, wie Alter, Gehaltsniveau, geografische Lage usw., verwenden.
  • Wettervorhersagen: Meteorologen können anhand der Lufttemperatur, der Luftfeuchtigkeit, des Luftdrucks usw. vorhersagen, wie das Wetter in der kommenden Woche sein wird.
  • Medizin: Gesundheitsexperten können die Ausbreitung eines Virus in einer Region vorhersagen, abhängig von der Anzahl der infizierten Personen, der Geschwindigkeit der Ansteckung, dem Verzehr bestimmter Nahrungsmittel, den Wetterbedingungen usw.
  • Börse: Finanzanalysten können den Kurs einer Aktie anhand der finanziellen Gesundheit des Unternehmens, seiner Nachrichten, der Wirtschaftslage usw. vorhersagen.

Die Verwirrung zwischen erklärenden Variablen einschränken

Neben der Durchführung von Vorhersagen kann die multiple lineare Regression auch die Grenzen der einfachen linearen Regression überwinden. In einigen Fällen kann es nämlich einen scheinbaren Zusammenhang zwischen einer zu erklärenden und einer erklärenden Variable geben. Dennoch scheint dieser Zusammenhang nicht logisch zu sein.

Zum Beispiel gibt es einen starken Zusammenhang zwischen dem Konsum von Pfefferminzbonbons und der Atmungsfähigkeit.

So nimmt die Atemkapazität ab, wenn der Konsum von Pfefferminzbonbons steigt.

🤔Bedeutet dies, dass der Konsum von Pfefferminzbonbons diese Atemschwäche erklärt?

Nein, es gibt noch einen anderen Faktor.

Auch hier zeigt sich, dass es einen klaren Zusammenhang zwischen dem Konsum von Pfefferminzbonbons und dem Rauchen gibt. Aber auch zwischen dem Rauchen und der Atemkapazität.

Bei dieser Hypothese steht die Variable Minzbonbonkonsum sowohl mit der Antwortvariable (Atemkapazität) als auch mit der erklärenden Variable (Rauchen) in Verbindung. Sie wird somit zum Störfaktor.

Die Verwendung einer einfachen linearen Regression reicht nicht aus, um diese Verwirrung aufzudecken. Stattdessen sollte die multiple lineare Regression verwendet werden.

Diese Methode ermöglicht es, die Beziehung zwischen der Variablen und den erklärenden Variablen zu bestimmen. Dabei werden alle erklärenden Variablen berücksichtigt.

Lineare Regression und Machine Learning

Die multiple lineare Regression erklärt nicht nur eine Variable in Abhängigkeit von mehreren voneinander unabhängigen Daten, sondern ist auch in der Lage, selbstständig neue Regeln zu assimilieren.

Daher ist dieses mathematische Werkzeug ein Muss für die künstliche Intelligenz. Die Idee ist, mit einer Lernphase mit Trainingspunktwolken zu beginnen.

Dadurch erhält man ein leistungsfähiges Machine-Learning-Modell, das die Beziehungen zwischen einer zu erklärenden Variablen und anderen erklärenden Variablen genau aufzeigen kann.

Um diese Modelle zu entwickeln und die Ergebnisse zu interpretieren, ist jedoch eine gründliche Schulung erforderlich.

Genau das ist mit DataScientest möglich. In unserem Kurs in Datenwissenschaft lernst du alles, was du über multiple lineare Regression und alle anderen Machine-Learning-Tools wissen musst. Komm zu uns!

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.