Si l’erreur est humaine, elle n’est pas exclusive à l’Homme. Les algorithmes d’apprentissage automatique peuvent aussi faire des erreurs. Mais à la différence de nous, pauvres humains, il est possible de minimiser. Notamment en utilisant la fonction de coût qui permet d’évaluer la performance d’un modèle de machine learning. Alors de quoi s’agit-il exactement? Et comment l’utiliser ? Data Scientest répond à vos questions.
C’est quoi la fonction de coût ?
Également appelée fonction d’erreur, fonction-objectif ou fonction de perte, la fonction de coût mesure l’écart entre les prédictions d’un modèle et les valeurs réelles. Plus cet écart est faible, plus le modèle est performant. Cette formule mathématique joue ainsi un rôle de boussole ; elle indique si le modèle est sur la bonne voie ou s’il doit être ajusté.
Pour les data scientists, l’objectif est simple : minimiser la fonction de coût pour améliorer la précision des prédictions.
Bon à savoir : si la fonction de perte est très utilisée pour l’entraînement des modèles de machine learning, celle-ci a d’autres applications. Par exemple, l’industrie (pour minimiser les coûts de production), l’économie (pour maximiser les rendements), la gestion des ressources humaines (pour choisir le bon candidat via une analyse coût-bénéfice), etc.
Comment utiliser la fonction de coût ?
Il n’existe pas une fonction erreur, mais plusieurs. Chacune répondant à un type de problème spécifique et aux caractéristiques des données du modèle d’apprentissage automatique. Voyons les principales.
La moyenne des erreurs quadratique (Mean Squared Error - MSE)
C’est la fonction coût la plus populaire en machine learning (notamment pour les problèmes de régression). Cette méthode des moindres carrés pénalise fortement les grandes erreurs en les élevant au carré. Elle est particulièrement utile pour des prédictions où les écarts importants sont critiques.
Alors comment l’utiliser ?
Voici la formule mathématique :
Et ses paramètres :
- J(θ) : la valeur de la fonction de coût (ou « erreur moyenne quadratique ») pour un ensemble donné de paramètres θ
- m : le nombre total d’exemples dans le dataset.
- hθ(x(i)) : la prédiction du modèle pour l’exemple i, souvent appelée « hypothèse ».
- y(i) : la valeur réelle attendue pour l’exemple i.
- (hθ(x(i))−y(i))2 : le carré de l’erreur entre la prédiction et la vraie valeur pour l’exemple i.
Par exemple, imaginons que l’on souhaite entraîner un modèle pour prédire le prix d’une maison en fonction de caractéristiques comme la superficie, le nombre de chambres, l’année de construction, etc. Ici, le modèle de régression linéaire permettra d’établir une relation entre ces caractéristiques (les entrées = x) et le prix de la maison (la sortie attendue = y).
À partir de ces informations, il faudra réaliser différentes hypothèses avec x et y, jusqu’à trouver les modèles présentant la fonction coût la plus faible possible. Autrement dit, réduire les écarts pour que les prédictions soient les plus proches possibles des valeurs réelles.
L’erreur absolue moyenne (Mean Absolute Error - MAE)
Il s’agit d’une autre formule pour les modèles de régression linéaire. Mais à la différence de la précédente, cette fonction de coût mesure la moyenne des erreurs absolues entre les valeurs réelles et les prédictions d’un modèle. Et comme la MAE n’élève pas les erreurs au carré, elle est beaucoup plus robuste face aux valeurs aberrantes.
Voici la formule mathématique :
- n est le nombre total d’exemples,
- yi est la valeur réelle pour l’exemple i,
- ŷi est la valeur prédite par le modèle pour cet exemple,
- |yi – ŷi| est l’erreur absolue pour cet exemple.
Pour reprendre notre exemple avec les prix de l’immobilier, cette fonction de coût nous permet d’identifier la moyenne des écarts entre les prix prédits et les prix réels. Et ce, en valeur absolue.
Log Loss (ou logarithme de la perte)
Cette fonction de coût est utilisée pour évaluer les modèles de classification probabiliste, notamment dans les problèmes de classification binaire ou multiclasses. Concrètement, elle mesure la « distance » entre les distributions des probabilités prédites et les vraies classes.
Voici la formule mathématique :
Et ses paramètres :
- n est le nombre total d’exemples dans le jeu de données,
- yi est la classe réelle de l’exemple i (0 ou 1),
- ŷi est la probabilité prédite pour que yi=1
- log est le logarithme naturel.
Si le modèle prédit des probabilités proches des classes réelles (par exemple, 0.9 pour une classe 1), la log loss est faible. En revanche, si le modèle est très éloigné des probabilités correctes (0.1 pour une classe 1), la log loss est élevée. Là encore, l’objectif est d’avoir une fonction de coût la plus faible possible, à travers différentes hypothèses et itérations.
Réduisez les erreurs des modèles d’IA
Vous l’aurez compris, la fonction coût est incontournable pour concevoir des modèles de machine learning performants. Mais elle est aussi complexe. Afin de bien comprendre ses différents cas d’application (modèles de régression, de classification, réseaux neuronaux, apprentissage par renforcement, …), il est primordial de s’y former. Et pour cela, il y a DataScientest. Découvrez nos programmes en science de données.