Régression linéaire : Qu’est-ce que c’est ? Comment ça fonctionne ?

-
4
 m de lecture
-

C’est l’outil le plus utilisé en statistiques… A partir d’un ensemble de données connues, la régression linéaire définit une ligne droite ou bien une courbe qui par la suite, va aider à prédire des phénomènes. La régression linéaire est employée dans de nombreux domaines dont le machine learning.

« Régression linéaire »… Ce nom pourrait paraître intimidant. En réalité, il recouvre une fonction statistique fondamentale. À partir d’un nuage de points (issus de variables numériques), la régression linéaire trace une ligne ou une courbe qui est la plus proche de tous ces points. Cette figure géométrique se veut la plus fiable possible.

Un outil de prédiction

Nous avons là un outil de prédiction car à partir d’une ou plusieurs variables que nous lui soumettons, la régression linéaire aide à définir d’autres variables en relation logique.

Quelques exemples de régression linéaire

En tant que méthode de prédiction reposant sur des statistiques, la régression linéaire est mise à contribution dans un très grand nombre d’activités : économie, médecine, environnement, sport…

Voici quelques cas d’usage typiques :

  • Estimer le taux de vente d’un produit donné en fonction du budget publicitaire investi et/ou d’une tranche d’âge des consommateurs.
  • Prédire la résistance d’un matériau selon diverses conditions externes.
  • Evaluer l’âge d’une étoile en fonction de sa luminosité et autres facteurs environnants.
  • Prévoir les évolutions d’un type d’action en Bourse selon l’analyse du sentiment du public par rapport à de nouveaux produits.
  • etc.

Qui a inventé la régression linéaire ?

C’est un mathématicien et statisticien britannique du nom de Francis Galton (1822 – 1911) qui est à l’origine de ce concept. Etant cousin de Charles Darwin, il était fortement intéressé par des notions telles que l’hérédité et la génétique. Lui-même cherchait à résoudre des problèmes concrets tels que celui-ci : la taille des parents aide-t-elle à prédire la taille qu’auront les enfants une fois qu’ils ont atteint l’âge adulte ?

Par la suite, d’autres chercheurs ont affiné les méthodes de régression linéaire.

  • Karl Pearson est le créateur du coefficient de corrélation de Pearson, un outil fondamental dans l’étude des relations entre variables. Nous abordons ce qu’est le coefficient de corrélation plus bas.
  • Ronald A. Fisher a contribué à formaliser la régression linéaire. L’une des techniques qu’il a mis au point permet de déduire l’écart type, un autre facteur fondamental explicité plus bas.
  • John Turkey a élaboré des techniques aidant à diagnostiquer des problèmes dans les modèles de régression linéaire
  • Bradley Efron a défini des méthodes pour évaluer la précision des paramètres.
  • etc.

Régression linéaire simple et multiple

On distingue deux types de régressions linéaires :

  • Celle basée sur les relations entre deux variables X et Y (Y étant déduit de X), produit une droite et se voit appelée régression linéaire simple.
  • Celle basée sur plusieurs variables X produit habituellement une courbe. Elle est appelée régression linéaire multiple.

Régression linéaire simple

La régression linéaire simple repose sur la formule suivante :

Y = β0 + β1 × X + ϵ

  • Y est la variable que l’on cherche à prédire. Elle est appelée « variable dépendante ».
  • β0 est la valeur de Y lorsque X est égal à zéro.
  • β1 représente le « coefficient de régression » et produit la pente de la ligne, soit de combien change Y lorsque X augmente d’une unité
  • X est la variable de base.
  • ϵ désigne la marge d’erreur inévitable.

En gros, nous cherchons à évaluer β0 et β1 en vue de minimiser ϵ et obtenir la courbe la plus fiable possible au croisement de X et Y.

​Nous avons là une formule simple puisqu’elle repose sur la relation de deux variables. Le problème posé par Francis Galton (évaluer la taille de l’enfant devenu adulte en fonction de la taille cumulée de ses parents) serait un bon exemple de régression linéaire.

Régression linéaire multiple

La formule de la régression linéaire multiple est une extension de sa forme simple :

Y = β0 + β1 × X1 + β2 × X2 + … + βn × Xn + ϵ

Là encore Y est la variable dépendante – celle que l’on tente de prédire – et ϵ est la marge d’erreur. Les couples βn × Xn évoluent sur le même modèle que dans la régression simple si ce n’est qu’ils sont multiples. Cette fois, l’objectif est de trouver les coefficients βn correspondant aux variables Xn qui ensemble, vont minimiser au mieux ϵ, et ainsi produire la meilleure prédiction possible.

À titre d’exemple, des données X telles que la taille d’une maison, le nombre de pièces habitables, l’âge du bâtiment, et la proximité de transports publics pourraient aider à  prédire Y, soit le prix de vente du bien.

Deux concepts clés de la régression linéaire

D’autres éléments ont une importance dans le calcul d’une courbe de régression linéaire.

Coefficient de corrélation

Cette mesure décrit le degré de relation linéaire entre deux variables et varie entre -1 et 1.

Si le coefficient de corrélation est égal à 1, il existe alors une relation linéaire positive parfaite. Quand l’une des variables augmente, l’autre croît de manière proportionnelle.

S’il est égal à -1, la relation est à nouveau parfaite, mais négative.

Il arrive ainsi que tous les points soient situés sur la droite / courbe mais ce cas est extrêmement rare. Habituellement, la figure de régression linéaire apparaît vers le milieu d’un ensemble de points situés de part et d’autre.

Enfin, si le coefficient de corrélation s’approche de 0, cela signifie qu’il n’existe aucune relation linéaire entre les deux variables.

Écart type

Cette mesure statistique, mesure combien les valeurs individuelles s’écartent de la moyenne de l’ensemble. Si l’écart type est faible, les données sont globalement proches de la moyenne. Un écart type élevé, à l’inverse, dénote d’une forte dispersion des données.

La régression linéaire dans le machine learning

La régression linéaire est mise à profit dans le machine learning.

Par principe, le machine learning opère à partir d’un dataset (des données présentées sous la forme de lignes et colonnes) à partir duquel un algorithme va chercher à définir un modèle. Celui-ci va alors être ajusté afin de réduire les écarts entre la courbe et les points, puis minimiser les erreurs.

La régression linéaire est le modèle le plus simple pour ceux qui souhaitent débuter dans le machine learning, par exemple, avec la bibliothèque mathématique Numpy sous Python.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.
Poursuivre la lecture

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?