Régression linéaire multiple : Qu’est-ce que c’est ? À quoi ça sert ?

-
4
 m de lecture
-

Plutôt que d’expliquer les relations entre deux variables, la régression linéaire multiple établit des relations entre une variable et plusieurs variables explicatives. Cette approche multidimensionnelle permet d’approfondir davantage les liens entre différents jeux de données, tout en réduisant le risque d’erreur d’interprétation. Découvrez plus en détail le modèle de régression linéaire multiple, ses traductions mathématiques et ses avantages.

C’est quoi la régression linéaire multiple ?

Définition

Avant de comprendre la régression linéaire multiple (également appelé régression linéaire multidimensionnelle ou RLM), il convient de redéfinir les bases. Et plus précisément, la régression linéaire. Cet algorithme de classification a pour objectif d’établir des relations entre une variable à expliquer Y (que l’on appelle variable dépendante ou variable réponse) et une variable explicative X (que l’on appelle variable indépendante).

Ce modèle prend forme sur un nuage de point où X se trouve sur l’axe des ordonnées et où Y se trouve sur l’axe des abscisses. Dans ce cas, la régression linéaire doit déterminer une droite capable de passer au plus près des points du nuage. Pour cela, on utilise la méthode des moindres carrés (ou MCO pour moindres carrés ordinaires).Cette droite détermine ainsi la relation entre X et Y.

À partir de là, il est possible d’expliquer une variable dépendante Y à partir d’une variable indépendante X (c’est la régression linéaire simple) ou d’expliquer la variable dépendante Y à partir de plusieurs variables indépendantes X (au moins 2). C’est justement ça la régression linéaire multiple. L’établissement de relations entre différentes variables permet ainsi de réaliser des prédictions avec un minimum d’erreurs.

Quel que soit le modèle, la variable dépendante est toujours de type numérique continue, contrairement aux variables indépendantes qui peuvent être continues ou catégorielles (mais toujours numériques).

Traduction mathématique

La régression linéaire multiple peut être utilisée dès lors que vous disposez de ce type de jeu de données :

Y X1 X2 Xn
1 15 54
2 58 65
n
À partir de ce tableau, la RLM se présente sous la forme suivante :

yi = β0 + β1xi1 +…+ βpxip + ϵi

  • yi =  les variables dépendantes ; 
  • i = l’indice des observations ; 
  • xij = les valeurs observées des variables indépendantes ; 
  • βp = les paramètres inconnus (également parfois appelés “pentes partielles”) ;
  • ϵi = les résidus (autrement dit, l’erreur de prédiction).

Comme toute régression linéaire, la régression multiple se formalise à travers un nuage de point. Mais contrairement à la régression simple qui se projette sur un plan graphique en deux dimensions, la régression linéaire multiple se projette sur un graphique à plusieurs dimensions. C’est cela qui permettra de modéliser les différentes variables explicatives.

Pourquoi utiliser la régression linéaire multidimensionnelle ?

Réaliser des prédictions

En identifiant des liens de corrélation entre un résultat (la variable dépendante) et plusieurs variables explicatives et indépendantes, la régression linéaire multiple permet de réaliser des prédictions et de dégager des insights. 

C’est pourquoi, cette méthode mathématique est utilisée dans de nombreux domaines. Découvrons quelques cas d’usages : 

  • Les performances commerciales : les entreprises peuvent prédire les ventes d’un produit en utilisant les différentes caractéristiques de l’acheteur type, comme son âge, son niveau de salaire, sa localisation géographique, etc. 
  • Les prévisions météorologiques : les météorologues peuvent prédire le temps qu’il fera dans la semaine en fonction de la température de l’air, le degré d’hygrométrie, la pression atmosphérique, etc. 
  • La médecine : les professionnels de santé peuvent anticiper la propagation d’un virus dans une région selon le nombre de personnes infectées, la rapidité de la contamination, la consommation de tel ou tel aliment, les conditions météorologiques, etc.
  • La bourse : les analystes financiers peuvent prédire le cours d’une action selon la santé financière de l’entreprise, son actualité, la conjoncture économique, etc.

Limiter la confusion entre des variables explicatives

Outre la réalisation de prédiction, la régression linéaire multiple permet également de pallier les limites de la régression linéaire simple. En effet, dans certains cas, il peut y avoir un lien apparent entre une variable à expliquer et une variable explicative. Pour autant, ce lien ne semble pas logique. 

Par exemple, il y a une forte corrélation entre la consommation de bonbons à la menthe et les capacités respiratoires. Ainsi, les capacités respiratoires diminuent à mesure que la consommation de bonbons à la menthe augmente. Cela signifie-t-il que la consommation de bonbons à la menthe explique ces faiblesses respiratoires ? Non, il y a un autre facteur. 

Là encore, on constate qu’il y a une corrélation nette entre la consommation de bonbons à la menthe et le tabagisme. Mais également entre le tabagisme et les capacités respiratoires. 

Dans cette hypothèse, la variable consommation de bonbons à la menthe est liée à la fois à la variable réponse (capacité respiratoire) et à la variable explicative (tabagisme). Elle devient alors facteur de confusion. 

Pour déceler cette confusion, l’utilisation de la régression linéaire simple s’avère insuffisante. À la place, il convient d’utiliser la régression linéaire multiple. Cette dernière permet ainsi de déterminer la relation entre la variable et les variables explicatives. Et ce, en tenant compte de toutes ces variables explicatives.

Régression linéaire et Machine Learning

En plus d’expliquer une variable en fonction de plusieurs données indépendantes les unes des autres, la régression linéaire multiple est aussi capable d’assimiler de nouvelles règles par elle-même. À ce titre, cet outil mathématique est un incontournable de l’intelligence artificielle. L’idée est alors de commencer par une phase d’apprentissage avec des nuages de points d’entraînement. Ce qui permet d’obtenir un modèle de machine learning performant capable d’établir avec précision les relations entre une variable à expliquer et d’autres variables explicatives.

Mais pour développer ces modèles et interpréter les résultats obtenus, il est nécessaire de suivre une formation approfondie. C’est justement possible avec DataScientest. À travers notre formation en science des données, vous apprendrez tout ce qu’il faut savoir sur la régression linéaire multiple et tous les autres outils de Machine Learning. Rejoignez-nous !

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?