Coefficient de détermination : qu’est ce que c’est et comment s’en servir ?

-
2
 m de lecture
-

Calculé par les logiciels de statistiques, le coefficient de détermination permet de comprendre combien de variables d’un facteur peuvent être expliquées par sa relation avec un autre facteur.

Définition du coefficient de détermination

Dans une régression linéaire, l’objectif est de déterminer une relation linéaire entre deux jeux de données. Lorsque l’on parle de coefficient de détermination, également appelé « R carré », celui-ci intervient lorsque l’on cherche, dans cette régression linéaire, la force d’adéquation entre le modèle de cette régression et les données collectées. On parle alors de « qualité d’ajustement ».

Pourquoi se servir du coefficient de détermination ?

Concrètement, le coefficient de détermination est un indice de la qualité de la prédiction de la régression linéaire. Le coefficient de détermination se situe entre 0 et 1. Plus il est proche de 1, plus la régression linéaire est en adéquation avec les données collectées. 1 est égal à 100% donc dans ce cas, la corrélation entre les variables est totale. À l’inverse, si l’indice est proche de zéro, il signale la quasi-absence de données corrélées. Le coefficient de détermination est utile pour prévoir des événements futurs en fonction de la probabilité que fournit le résultat de son calcul. Il est donc nécessaire d’avoir le plus de données possibles afin que le résultat soit le plus précis possible.

Comment calculer le coefficient de détermination ?

Le coefficient de détermination est égal au coefficient de corrélation (R) au carré. Le coefficient de corrélation mesure la force de la relation entre deux variables : la variable dépendante (x) et la variable prédictive (y). Cette force est comprise entre -1 et 1. Ainsi, en ayant R, il est possible de calculer R². En revanche, ce calcul ne permet pas de déterminer l’effet qui a mené à l’adéquation ou non des données avec la régression linéaire. Une autre méthode se fonde sur la qualité des données ; parmi la totalité des données enregistrées (TSS), on compte celles qui ne constituent que des variantes résiduelles (RSS). Le calcul suivant permet donc de trouver un coefficient de détermination plus adapté et précis : 

R² = 1 – RSS / TSS

R² ou R² ajusté ?

La limite du coefficient de détermination réside dans l’ajout de variables à une régression linéaire. Lorsque l’on en ajoute un trop grand nombre, cela tend à augmenter la valeur de R², de manière injustifiée. Dans ce cas, il est utile de se référer au « R² ajusté » qui va déterminer la fiabilité de la corrélation et si elle est déterminée par l’ajout de variables. 

De manière générale, le coefficient de détermination est un bon outil pour estimer le lien entre la régression linéaire et les variables. Mais son utilisation reste limitée puisqu’il ne mesure que partiellement l’utilité d’une régression linéaire et l’ajustement des points avec le modèle de la régression.

Vous savez maintenant tout sur le coefficient de détermination. DataScientest vous offre la possibilité d’aller plus loin en apprenant à maîtriser la gestion d’un projet data de A à Z. Découvrez nos formations, n’hésitez plus !

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?