Das lineare Regressionsmodell ist ein überwachter Lernalgorithmus, der eine kontinuierliche Zielvariable (abhängige Variable) mithilfe einer oder mehrerer erklärender Variablen (unabhängige Variablen oder Prädiktoren) vorhersagt. Mit anderen Worten, es geht darum, Beziehungen zwischen 2 oder mehreren Variablen herzustellen.

Wenn es nur eine erklärende Variable gibt, spricht man von einer einfachen linearen Regression. Wenn es jedoch mehrere Variablen gibt, spricht man von einer multiplen linearen Regression.

Sowohl einfache als auch multiple lineare Regressionen können mit Python verwendet werden.

Lineare Regression - mathematische Übersetzungen

Die mathematische Gleichung für die lineare Regression wird wie folgt übersetzt:

Y = Θ₀ + Θ₁x₁ + ... Θ_nx_n

In dieser Gleichung :

Y entspricht dem erklärenden Wert ;
θ entspricht dem Bias-Term oder Parametervektor ;
x1, x2…, xn entsprechen den Werten der Entitäten.

Aus visueller Sicht wird die lineare Regression angewendet, wenn die Trainingsdaten eine Punktwolke darstellen. Das Ziel ist es dann, eine Gerade zu identifizieren, die der Punktmenge so nahe wie möglich kommt. Um sicherzustellen, dass diese Gerade möglichst genau ist, muss der mittlere quadratische Fehler (mean squared error) gemessen werden.

Lineare Regression Python: Anwendungsfälle der linearen Regression

Die lineare Regression ist der erste Algorithmus, der im maschinellen Lernen verwendet wird, weil es so viele Anwendungsfälle gibt. Zum Beispiel:

Faktoren identifizieren, die die Rentabilität einer Investition beeinflussen ;
Zukünftige Verkäufe durch Analyse vergangener Verkäufe vorhersagen ;
Das Verhalten von Verbrauchern vorhersagen ;
Den Preis eines Hauses aufgrund seiner Eigenschaften vorhersagen ;
etc.

Und für jeden Anwendungsfall der linearen Regression kann Python verwendet werden.

Wie kann ich die lineare Regression mit Python verwenden?

Um dir die lineare Regression mit Python zu erklären, ist es sinnvoll, ein konkretes Beispiel zu nehmen. Die Ausgangshypothese ist folgende:

Ein Restaurantbesitzer, der bereits mehrere Restaurants in mehreren Städten besitzt, möchte sein Geschäft ausbauen, indem er sich an verschiedenen Orten niederlässt. Um die nächsten Städte zu analysieren, in denen er sich niederlassen will, stehen dem Restaurantbesitzer zwei Datengruppen zur Verfügung: die Gewinne, die er in den Städten, in denen er bereits vertreten ist, erzielt hat, und die Bevölkerung der Städte.

Da das Ziel darin besteht, in der Stadt, in der er sich niederlassen wird, einen möglichst hohen Gewinn zu erzielen, muss der in der Stadt, in der er sich niederlassen wird, erzielte Gewinn (abhängige Variable = Y) in Abhängigkeit von der Bevölkerung dieser Stadt (unabhängige Variable = X) vorhergesagt werden.

Wie kann man also das lineare Regressionsmodell mit Python auswerten? Hier sind die Schritte, die du unternehmen musst.

Daten formatieren

Um die lineare Regression mit Python zu modellieren, müssen die Trainingsdaten im richtigen Format vorbereitet werden. Am besten bereitest du eine CSV-Datei mit zwei Spalten vor: eine für die Population (unabhängige Variable) und eine für den Nutzen (unabhängige Variable). Diese Datei könnte folgendermaßen aussehen:

Bevölkerung	Gewinn
811 000	175 000 €
757 000	91 300 €
551 000	21 000 €
372 000	- 6 000 €
…	…

Daten laden

Diese Trainingsdaten müssen dann in Python geladen werden. Mithilfe der Pandas-Bibliothek kannst du CSV-Dateien einfach einlesen. Hier ist die Manipulation.

import pandas as pd 
df=pd.read_csv("D:\DEV\PYTHON_PROGRAMMING\donnees-d-entrainement-regression-lineaire.csv")

Die Funktion read_csv() gibt ein zweidimensionales Array zurück, das die abhängigen und unabhängigen Variablen enthält. Um die lineare Regression mit Python zu verwenden, müssen die beiden Spalten jedoch in zwei Python-Variablen getrennt werden.

Für die erste Spalte, die der Größe der Population entspricht :

X = df.iloc[0:len(df),0]

Für die zweite Spalte, die den Gewinnen entspricht :

Y = df.iloc[0:len(df),1]

Dadurch erhältst du eine einfache Tabelle, die den gesamten Trainingsdatensatz enthält.

Daten visualisieren

Um die lineare Regression mit Python besser zu verstehen, kann es hilfreich sein, sie zu visualisieren. So kannst du die Punkte identifizieren und die Streuung besser verstehen.

Um einen Punktwolkengraphen zu erhalten, kannst du Matplotlib, eine Python-Bibliothek, verwenden. Hier ist, wie du es bekommst:

import matplotlib.pyplot as plt
axes = plt.axes()
axes.grid()
plt.scatter(X,Y) 
plt.show()

Den Algorithmus anwenden

Das Ziel ist es, eine Vorhersagefunktion F(X) zu finden, deren Eingabedaten die Größe der Population und deren Ausgabedaten die erwarteten Gewinne sind.

Um die lineare Regression mit Python zu modellieren, ist es am einfachsten, die Bibliothek Scikit Learn zu verwenden, indem du diese Suchanfrage eingibst:

from sklearn.linear_model import LinearRegression.

Von hier aus kannst du deine Vorlage bauen. Hier ist der Code, den du schreiben musst :

reg = LinearRegression(normalize=True)
reg.fit(x,y)

Und um die Gerade f(x)=ax+b mit einem minimalen quadratischen Fehler zu finden, tippe :

a = reg.coef_
b = reg.intercept.

Vorhersagen machen

Um die lineare Regressionskurve mit Python zu zeichnen, tippe einfach den folgenden Code ein:

ordonne = np.linspace
plt.scatter(x,y)
plt.plot(ordonne,a*ordonne+b,color='r')

Lineare Regression Python: Werde zum Profi in diesem Thema!

Die lineare Regression ist zweifellos der Algorithmus, den du in der Datenwissenschaft unbedingt beherrschen musst. Und wenn dir seine Verwendung über Python noch kompliziert erscheint, ist das nur vorübergehend. Mit der richtigen Fortbildung wirst du in der Lage sein, jeden Machine-Learning-Algorithmus in verschiedenen Programmiersprachen zu bewerten. Aber welche Weiterbildung sollte man am besten wählen? Erfahre mehr über unser Programm.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Weiterlesen

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!

Data Analyst

Analytics Engineer

Data Scientist

AI / Machine Learning Engineer

Data Engineer

Cloud Engineer

DevOps Engineer

Data Marketing & AI

MLOps

ETL Entwickler

Data Ops Engineer

Amazon Web Service (AWS)

Microsoft Power BI

Über uns

Karriere

Events

Unsere Alumni

Überblick

Bildungsgutschein

Qualifizierungs-chancengesetz

Zurück zu den Artikeln

Lineare Regression Python – Ein Leitfaden

Lineare Regression Python - Aber was ist eine lineare Regression?

Lineare Regression - Definition

Lineare Regression - mathematische Übersetzungen

Lineare Regression Python: Anwendungsfälle der linearen Regression

Wie kann ich die lineare Regression mit Python verwenden?

Daten formatieren

Daten laden

Daten visualisieren

Den Algorithmus anwenden

Vorhersagen machen

Lineare Regression Python: Werde zum Profi in diesem Thema!

DataScientest News

Weiterlesen

Voiceflow: Chatbots und Sprachassistenten ohne Coden entwickeln

Framer AI: Websites mit KI in Rekordzeit erstellen

No-Code-Leitfaden: Digitale Lösungen ohne Programmierung

AutoGen: Microsofts Framework für kollaborative KI-Agenten

Möchtest Du informiert bleiben?

Data Analyst

Analytics Engineer

Data Scientist

AI / Machine Learning Engineer

Data Engineer

Cloud Engineer

DevOps Engineer

Data Marketing & AI

MLOps

ETL Entwickler

Data Ops Engineer

Amazon Web Service (AWS)

Microsoft Power BI

Über uns

Karriere

Events

Unsere Alumni

Überblick

Bildungsgutschein

Qualifizierungs-chancengesetz

Zurück zu den Artikeln

Lineare Regression Python – Ein Leitfaden

Lineare Regression Python - Aber was ist eine lineare Regression?

Lineare Regression - Definition

Lineare Regression - mathematische Übersetzungen

Lineare Regression Python: Anwendungsfälle der linearen Regression

Wie kann ich die lineare Regression mit Python verwenden?

Daten formatieren

Daten laden

Daten visualisieren

Den Algorithmus anwenden

Vorhersagen machen

Lineare Regression Python: Werde zum Profi in diesem Thema!

DataScientest News

Weiterlesen

Voiceflow: Chatbots und Sprachassistenten ohne Coden entwickeln

Framer AI: Websites mit KI in Rekordzeit erstellen

No-Code-Leitfaden: Digitale Lösungen ohne Programmierung

AutoGen: Microsofts Framework für kollaborative KI-Agenten

Möchtest Du informiert bleiben?

DataNews