🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Lineare Regression Python – Ein Leitfaden

-
4
 Minuten Lesezeit
-
Lineare Regression Python - Ein Leitfaden

Lineare Regression Python: Die lineare Regression ist ein unumgänglicher Algorithmus im Machine Learning und ermöglicht es, Beziehungen zwischen einer oder mehreren Variablen herzustellen. Um diesen Algorithmus einfach in die Praxis umzusetzen, können Datenwissenschaftler auf Programmiersprachen zurückgreifen, insbesondere auf Python.

Lineare Regression Python - Aber was ist eine lineare Regression?

Bevor wir uns die praktische Anwendung der linearen Regression mit Python ansehen, sollten wir zu den Grundlagen zurückkehren.

Lineare Regression - Definition

Das lineare Regressionsmodell ist ein überwachter Lernalgorithmus, der eine kontinuierliche Zielvariable (abhängige Variable) mithilfe einer oder mehrerer erklärender Variablen (unabhängige Variablen oder Prädiktoren) vorhersagt. Mit anderen Worten, es geht darum, Beziehungen zwischen 2 oder mehreren Variablen herzustellen.

Wenn es nur eine erklärende Variable gibt, spricht man von einer einfachen linearen Regression. Wenn es jedoch mehrere Variablen gibt, spricht man von einer multiplen linearen Regression.

Sowohl einfache als auch multiple lineare Regressionen können mit Python verwendet werden.

Lineare Regression - mathematische Übersetzungen

Die mathematische Gleichung für die lineare Regression wird wie folgt übersetzt:

Y = Θ0 + Θ1x1 + ... Θnxn

In dieser Gleichung :

  • Y entspricht dem erklärenden Wert ;
  • θ entspricht dem Bias-Term oder Parametervektor ;
  • x1, x2…, xn entsprechen den Werten der Entitäten.

Aus visueller Sicht wird die lineare Regression angewendet, wenn die Trainingsdaten eine Punktwolke darstellen. Das Ziel ist es dann, eine Gerade zu identifizieren, die der Punktmenge so nahe wie möglich kommt. Um sicherzustellen, dass diese Gerade möglichst genau ist, muss der mittlere quadratische Fehler (mean squared error) gemessen werden.

Lineare Regression Python: Anwendungsfälle der linearen Regression

Die lineare Regression ist der erste Algorithmus, der im maschinellen Lernen verwendet wird, weil es so viele Anwendungsfälle gibt. Zum Beispiel:

  • Faktoren identifizieren, die die Rentabilität einer Investition beeinflussen ;
  • Zukünftige Verkäufe durch Analyse vergangener Verkäufe vorhersagen ;
  • Das Verhalten von Verbrauchern vorhersagen ;
  • Den Preis eines Hauses aufgrund seiner Eigenschaften vorhersagen ;
    etc.

Und für jeden Anwendungsfall der linearen Regression kann Python verwendet werden.

Wie kann ich die lineare Regression mit Python verwenden?

Um dir die lineare Regression mit Python zu erklären, ist es sinnvoll, ein konkretes Beispiel zu nehmen. Die Ausgangshypothese ist folgende:

Ein Restaurantbesitzer, der bereits mehrere Restaurants in mehreren Städten besitzt, möchte sein Geschäft ausbauen, indem er sich an verschiedenen Orten niederlässt. Um die nächsten Städte zu analysieren, in denen er sich niederlassen will, stehen dem Restaurantbesitzer zwei Datengruppen zur Verfügung: die Gewinne, die er in den Städten, in denen er bereits vertreten ist, erzielt hat, und die Bevölkerung der Städte.

Da das Ziel darin besteht, in der Stadt, in der er sich niederlassen wird, einen möglichst hohen Gewinn zu erzielen, muss der in der Stadt, in der er sich niederlassen wird, erzielte Gewinn (abhängige Variable = Y) in Abhängigkeit von der Bevölkerung dieser Stadt (unabhängige Variable = X) vorhergesagt werden.

Wie kann man also das lineare Regressionsmodell mit Python auswerten? Hier sind die Schritte, die du unternehmen musst.

Daten formatieren

Um die lineare Regression mit Python zu modellieren, müssen die Trainingsdaten im richtigen Format vorbereitet werden. Am besten bereitest du eine CSV-Datei mit zwei Spalten vor: eine für die Population (unabhängige Variable) und eine für den Nutzen (unabhängige Variable). Diese Datei könnte folgendermaßen aussehen:

Bevölkerung Gewinn
811 000 175 000 €
757 000 91 300 €
551 000 21 000 €
372 000 - 6 000 €

Daten laden

Diese Trainingsdaten müssen dann in Python geladen werden. Mithilfe der Pandas-Bibliothek kannst du CSV-Dateien einfach einlesen. Hier ist die Manipulation.

import pandas as pd 
df=pd.read_csv("D:\DEV\PYTHON_PROGRAMMING\donnees-d-entrainement-regression-lineaire.csv")

Die Funktion read_csv() gibt ein zweidimensionales Array zurück, das die abhängigen und unabhängigen Variablen enthält. Um die lineare Regression mit Python zu verwenden, müssen die beiden Spalten jedoch in zwei Python-Variablen getrennt werden.

Für die erste Spalte, die der Größe der Population entspricht :

X = df.iloc[0:len(df),0]

Für die zweite Spalte, die den Gewinnen entspricht :

Y = df.iloc[0:len(df),1]

Dadurch erhältst du eine einfache Tabelle, die den gesamten Trainingsdatensatz enthält.

Daten visualisieren

Um die lineare Regression mit Python besser zu verstehen, kann es hilfreich sein, sie zu visualisieren. So kannst du die Punkte identifizieren und die Streuung besser verstehen.

Um einen Punktwolkengraphen zu erhalten, kannst du Matplotlib, eine Python-Bibliothek, verwenden. Hier ist, wie du es bekommst:

import matplotlib.pyplot as plt
axes = plt.axes()
axes.grid()
plt.scatter(X,Y) 
plt.show()

Den Algorithmus anwenden

Das Ziel ist es, eine Vorhersagefunktion F(X) zu finden, deren Eingabedaten die Größe der Population und deren Ausgabedaten die erwarteten Gewinne sind.

Um die lineare Regression mit Python zu modellieren, ist es am einfachsten, die Bibliothek Scikit Learn zu verwenden, indem du diese Suchanfrage eingibst:

from sklearn.linear_model import LinearRegression.

Von hier aus kannst du deine Vorlage bauen. Hier ist der Code, den du schreiben musst :

reg = LinearRegression(normalize=True)
reg.fit(x,y)

Und um die Gerade f(x)=ax+b mit einem minimalen quadratischen Fehler zu finden, tippe :

a = reg.coef_
b = reg.intercept.

Vorhersagen machen

Um die lineare Regressionskurve mit Python zu zeichnen, tippe einfach den folgenden Code ein:

ordonne = np.linspace
plt.scatter(x,y)
plt.plot(ordonne,a*ordonne+b,color='r')

Lineare Regression Python: Werde zum Profi in diesem Thema!

Die lineare Regression ist zweifellos der Algorithmus, den du in der Datenwissenschaft unbedingt beherrschen musst. Und wenn dir seine Verwendung über Python noch kompliziert erscheint, ist das nur vorübergehend. Mit der richtigen Fortbildung wirst du in der Lage sein, jeden Machine-Learning-Algorithmus in verschiedenen Programmiersprachen zu bewerten. Aber welche Weiterbildung sollte man am besten wählen? Erfahre mehr über unser Programm.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.