Qu'est-ce qu'une fonction de coût en apprentissage automatique ?

La fonction de coût est une mesure utilisée en apprentissage automatique pour évaluer la différence entre les prédictions d'un modèle et les valeurs réelles. Elle guide l'optimisation du modèle en minimisant cette différence.

Pourquoi utilise-t-on une fonction de coût ?

La fonction de coût est utilisée pour quantifier les erreurs d'un modèle. En minimisant cette fonction, on améliore la précision des prédictions, ce qui permet d'obtenir un modèle plus performant.

Quelles sont les fonctions de coût courantes ?

Les fonctions de coût courantes incluent l'erreur quadratique moyenne (MSE), l'erreur absolue moyenne (MAE) pour les problèmes de régression, et l'entropie croisée pour les problèmes de classification.

Comment choisir la bonne fonction de coût ?

Le choix de la fonction de coût dépend du type de problème : pour la régression, on privilégie MSE ou MAE, tandis que pour la classification, on utilise généralement l'entropie croisée ou des variantes adaptées aux classes déséquilibrées.

Retour aux articles

La fonction de coût en IA : Tout ce qu’il faut savoir

14 Jan 2025

m de lecture

Intelligence Artificielle

Raphael Kassel

Si l’erreur est humaine, elle n’est pas exclusive à l’Homme. Les algorithmes d’apprentissage automatique peuvent aussi faire des erreurs. Mais à la différence de nous, pauvres humains, il est possible de minimiser. Notamment en utilisant la fonction de coût qui permet d’évaluer la performance d’un modèle de machine learning. Alors de quoi s’agit-il exactement? Et comment l’utiliser ? Data Scientest répond à vos questions.

C’est quoi la fonction de coût ?

Également appelée fonction d’erreur, fonction-objectif ou fonction de perte, la fonction de coût mesure l’écart entre les prédictions d’un modèle et les valeurs réelles. Plus cet écart est faible, plus le modèle est performant. Cette formule mathématique joue ainsi un rôle de boussole ; elle indique si le modèle est sur la bonne voie ou s’il doit être ajusté.

Pour les data scientists, l’objectif est simple : minimiser la fonction de coût pour améliorer la précision des prédictions.

Bon à savoir : si la fonction de perte est très utilisée pour l’entraînement des modèles de machine learning, celle-ci a d’autres applications. Par exemple, l’industrie (pour minimiser les coûts de production), l’économie (pour maximiser les rendements), la gestion des ressources humaines (pour choisir le bon candidat via une analyse coût-bénéfice), etc.

Comment utiliser la fonction de coût ?

Il n’existe pas une fonction erreur, mais plusieurs. Chacune répondant à un type de problème spécifique et aux caractéristiques des données du modèle d’apprentissage automatique. Voyons les principales.

La moyenne des erreurs quadratique (Mean Squared Error - MSE)

C’est la fonction coût la plus populaire en machine learning (notamment pour les problèmes de régression). Cette méthode des moindres carrés pénalise fortement les grandes erreurs en les élevant au carré. Elle est particulièrement utile pour des prédictions où les écarts importants sont critiques.

Alors comment l’utiliser ?

Voici la formule mathématique :

Et ses paramètres :

J(θ) : la valeur de la fonction de coût (ou « erreur moyenne quadratique ») pour un ensemble donné de paramètres θ
m : le nombre total d’exemples dans le dataset.
h_θ(x⁽ⁱ⁾) : la prédiction du modèle pour l’exemple i, souvent appelée « hypothèse ».
y⁽ⁱ⁾ : la valeur réelle attendue pour l’exemple i.
(h_θ(x⁽ⁱ⁾)−y⁽ⁱ⁾)² : le carré de l’erreur entre la prédiction et la vraie valeur pour l’exemple i.

Par exemple, imaginons que l’on souhaite entraîner un modèle pour prédire le prix d’une maison en fonction de caractéristiques comme la superficie, le nombre de chambres, l’année de construction, etc. Ici, le modèle de régression linéaire permettra d’établir une relation entre ces caractéristiques (les entrées = x) et le prix de la maison (la sortie attendue = y).

À partir de ces informations, il faudra réaliser différentes hypothèses avec x et y, jusqu’à trouver les modèles présentant la fonction coût la plus faible possible. Autrement dit, réduire les écarts pour que les prédictions soient les plus proches possibles des valeurs réelles.

L’erreur absolue moyenne (Mean Absolute Error - MAE)

Il s’agit d’une autre formule pour les modèles de régression linéaire. Mais à la différence de la précédente, cette fonction de coût mesure la moyenne des erreurs absolues entre les valeurs réelles et les prédictions d’un modèle. Et comme la MAE n’élève pas les erreurs au carré, elle est beaucoup plus robuste face aux valeurs aberrantes.

Voici la formule mathématique :

Et ses paramètres :

n est le nombre total d’exemples,
y_i est la valeur réelle pour l’exemple i,
ŷ_i est la valeur prédite par le modèle pour cet exemple,
|y_i – ŷ_i| est l’erreur absolue pour cet exemple.

Pour reprendre notre exemple avec les prix de l’immobilier, cette fonction de coût nous permet d’identifier la moyenne des écarts entre les prix prédits et les prix réels. Et ce, en valeur absolue.

Log Loss (ou logarithme de la perte)

Cette fonction de coût est utilisée pour évaluer les modèles de classification probabiliste, notamment dans les problèmes de classification binaire ou multiclasses. Concrètement, elle mesure la « distance » entre les distributions des probabilités prédites et les vraies classes.

Voici la formule mathématique :

Et ses paramètres :

n est le nombre total d’exemples dans le jeu de données,
y_i est la classe réelle de l’exemple i (0 ou 1),
ŷ_i est la probabilité prédite pour que y_i=1
log est le logarithme naturel.

Si le modèle prédit des probabilités proches des classes réelles (par exemple, 0.9 pour une classe 1), la log loss est faible. En revanche, si le modèle est très éloigné des probabilités correctes (0.1 pour une classe 1), la log loss est élevée. Là encore, l’objectif est d’avoir une fonction de coût la plus faible possible, à travers différentes hypothèses et itérations.

Réduisez les erreurs des modèles d’IA

Vous l’aurez compris, la fonction coût est incontournable pour concevoir des modèles de machine learning performants. Mais elle est aussi complexe. Afin de bien comprendre ses différents cas d’application (modèles de régression, de classification, réseaux neuronaux, apprentissage par renforcement, …), il est primordial de s’y former. Et pour cela, il y a DataScientest. Découvrez nos programmes en science de données.