Parmi les concepts statistiques à maîtriser absolument pour concevoir des analyses prédictives et des modèles d’apprentissage automatique, il y a la régression linéaire.
S’il s’agit d’une des bases mathématiques à connaître, son calcul peut s’avérer plus ou moins complexe. Heureusement, il existe différents outils permettant de rendre vos prédictions beaucoup plus fiables. C’est notamment le cas du calcul de la régression linéaire avec Excel. Alors comment faire ? DataScientest vous explique toutes les étapes à suivre.
C’est quoi la régression linéaire ?
Avant de voir comment fonctionne la régression linéaire avec Excel, il convient de comprendre la régression linéaire. Un petit rappel s’impose !
Concrètement, la régression linéaire permet d’analyser la relation entre une variable indépendante (ou variable explicative) et une variable dépendante (ou variable recherchée). Cette technique statistique se manifeste comme suit :
Y = aX + b
où :
- Y= la variable dépendante que vous essayez de prédire.
- X= la variable indépendante permettant d’expliquer Y.
- a = le coefficient de pente qui représente la façon dont Y change en fonction de X.
- b = l’ordonnée à l’origine, qui est la valeur de Y lorsque X est égal à zéro.
L’objectif est de créer un modèle pouvant être utilisé afin de faire des prédictions sur la variable dépendante en fonction des valeurs de la variable explicative.
Si la régression linéaire permet toujours d’expliquer une variable dépendante, elle peut utiliser une seule variable indépendante (c’est la régression linéaire simple) ou plusieurs variables indépendantes (c’est la régression linéaire multiple).
Comment utiliser la régression linéaire avec Excel ?
Il existe plusieurs fonctions pour calculer une régression linéaire dans Excel. Elles vous permettent de calculer soit la régression multiple, soit la régression simple, soit les deux.
La fonction DroiteReg
La fonction matricielle DroiteReg (ou Linest en anglais) peut être utilisée pour calculer à la fois la régression linéaire simple ou la régression linéaire multiple sur Excel.
Voici la démarche à suivre :
- Identifiez vos valeurs dépendantes Y et vos valeurs indépendantes X. Celles-ci doivent se trouver dans deux colonnes distinctes.
- Cliquez sur la cellule où vous souhaitez afficher les résultats de la régression linéaire avec Excel. Il peut s’agir d’une nouvelle feuille de calcul ou d’une plage de cellules vides.
- Entrez la formule « =DroiteReg(Y, X) » où « Y » correspond à la plage de cellules contenant les valeurs de la variable dépendante (par exemple, les lignes 2 à 17 de la colonne A) et « X » correspond à la plage de cellules contenant les valeurs de la variable indépendante (par exemple, les lignes 2 à 17 de la colonne B). Pour reprendre l’exemple, vous devrez taper la formule « =DroiteReg(A2:A17, B2:B17) »
- Cliquez sur « Entrée ».
Excel calcule automatiquement la régression linéaire et affiche les résultats dans les cellules sélectionnées. Vous verrez alors deux valeurs apparaître : le coefficient de régression (la pente) et l’ordonnée à l’origine (intercept).
Si vous souhaitez calculer une régression linéaire multiple avec Excel, vous pouvez également utiliser cette formule. Dans ce cas, il suffira d’ajouter les autres colonnes contenant les valeurs de la variable dépendante en les séparant par des virgules. Par exemple, si votre plage de cellules A peut s’expliquer à travers les valeurs contenues dans les colonnes B, C et D, votre formule ressemblera à ceci : « =DroiteReg(A2:A17,B2:B17,C2:C17,D2:D17) ».
La fonction Tendance
La fonction Tendance (ou Trend en anglais) peut être utilisée pour calculer uniquement la régression linéaire simple sur Excel. Dans ce cas, la manipulation est similaire à la fonction DroiteReg. À savoir :
- Cliquez sur la cellule où vous souhaitez afficher les résultats de la régression linéaire avec Excel.
- Entrez la formule « =Tendance(A2:A17, B2:B17) »
- Cliquez sur « Entrée ».
Bien que la formule soit quasi identique à la précédente, le résultat est différent. En effet, la fonction tendance n’isole pas les paramètres de pente et d’ordonnée à l’origine.
L’option de régression
L’option Analyse de Données disponible dans votre feuille de calcul Excel, vous permet d’obtenir des informations complètes pour la régression linéaire. Voici les étapes à suivre :
- Rendez-vous dans l’onglet « Données » ;
- Cliquez sur « Analyse de données » dans le groupe « Analyse ».
- Sélectionnez la régression linéaire.
- Une boîte de dialogue « Analyse de données » apparaît. Ici, choisissez « Régression » parmi les outils disponibles et renseignez les paramètres requis :
- Dans la zone « Variable dépendante », indiquez la cellule contenant votre variable dépendante (Y).
- Dans la zone « Variable(s) indépendante(s) », indiquez les cellules contenant vos variables indépendantes (X). Si vous avez plusieurs variables indépendantes, séparez-les par des virgules.
- Cochez la case « Sortie de régression » pour obtenir des informations supplémentaires sur l’analyse, comme les résidus, les statistiques de l’ajustement, etc.
- Cliquez sur OK.
Excel effectue alors l’analyse de régression linéaire et affiche les résultats dans la feuille de calcul ou la plage de cellules spécifiées. À travers cette option, vous verrez apparaître plusieurs informations supplémentaires, telles que les coefficients de régression, les valeurs de pente et d’ordonnée à l’origine, les statistiques de l’ajustement, les valeurs de t, de p, etc.
La représentation graphique de la régression linéaire avec Excel
Il est aussi possible de représenter le modèle linéaire graphiquement avec Excel. Voici les étapes à suivre :
- Sélectionnez l’ensemble de vos données ;
- Cliquez sur « Insertion », puis « Graphique » ;
- Sur le graphique en nuage de points, cliquez sur « outils de graphique », puis « ajouter un élément au graphique » afin de faire apparaître les titres des axes, le titre du graphique et une légende.
- Pour tracer la droite linéaire, faites un clic droit sur la courbe et cliquez sur « ajouter une courbe de tendance ».
- Sélectionner « linéaire », puis cocher « afficher l’équation », puis « afficher le coefficient de détermination ».
Le saviez-vous ?
Maîtrisez Excel avec DataScientest
Pour analyser des données, Microsoft Excel est l’outil à connaître absolument. Il vous permet de réaliser différents calculs, tels que la régression linéaire simple ou multiple…
DataScientest vous propose justement sa formation pour maîtriser Excel.
Et si vous souhaitez développer des modèles de Machine Learning complexes, vous aurez aussi besoin de maîtriser les langages de programmation, comme R, Python… Et justement, à travers notre formation en data science, vous pourrez maîtriser tous les outils indispensables à l’analyse de données prédictive et à l’apprentissage automatique.