Le domaine de l’apprentissage automatique (plus communément appelé Machine Learning) comprend des problématiques d’apprentissage supervisé, non supervisé et semi-supervisé. Si vous souhaitez en savoir plus sur le Machine Learning, notre dossier est fait pour ça. Dans cet article nous allons nous intéresser à l’une des étapes initiales du Machine Learning: l’apprentissage supervisé.
Qu’est ce que l’apprentissage supervisé ? Définition
Lorsqu’on apprend à faire du machine learning, on débute souvent par de l’apprentissage supervisé qui est beaucoup plus accessible.
L’apprentissage supervisé consiste en l’entraînement d’une machine en utilisant des données labellisées. C’est-à-dire des données qui ont déjà été étiquetées avec le bon label (classe, valeur continue…).
Cet apprentissage sur des données ayant déjà la ‘’réponse correcte’’ permet de prédire par la suite le label de données nouvelles non étiquetées.
Quels sont les modèles d’apprentissage supervisé ?
Plusieurs modèles que l’on peut implémenter sous forme d’algorithmes (mathématiques puis informatiques) existent en apprentissage supervisé et diffèrent par leur manière d’aborder l’entraînement sur les données mais aussi le type de label à prédire (valeur continue, classe…).
La régression linéaire est l’une des techniques d’apprentissage supervisé les plus populaires dans la prédiction d’une valeur continue.
Par exemple, on peut utiliser ce modèle pour prédire le prix d’une maison sachant sa taille, le nombre de chambres et le lieu où elle se trouve.
Si le modèle est très fort pour capturer des relations linéaires entre variables explicatives et variable à expliquer, surtout grâce à ses variantes (version avec régularisation pour éviter le sur-apprentissage), il reste incapable de performer quand il y a des relations plus complexes qu’une simple linéarité entre les variables.
Dans d’autres tâches supervisées telles que la classification, on peut retrouver plusieurs modèles tels que ceux basés sur les arbres de décision (comme RandomForest), des variantes de la régression telle que la régression logistique des machines à vecteurs de support SVM.
L’apprentissage supervisé ne se restreint pas à ces algorithmes même s’ils constituent un état-de-l’art en machine learning classique.
En effet le Deep Learning basé sur les réseaux de neurones profonds est aussi très utilisé pour faire de l’apprentissage supervisé dans le cadre de problématiques complexes telles que la classification de données non structurées (image, son, vidéo), ou même pour obtenir de meilleurs résultats sur des problématiques de Machine Learning classique.
Cheat Sheet Apprentissage Supervisé
Quelles sont les étapes élémentaires lors de l’apprentissage supervisé ?
- Collecte des données et leur labellisation. (Une tâche qui n’est pas forcément accomplie par le Data Scientist).
- Nettoyage des données (Valeurs manquantes, redondance, variables inutiles…).
- Prétraitement des données (Identification des variables explicatives et de la sortie cible, séparation en données d’entraînement et données de validation, normalisation des données…)
- Instanciation des modèles selon la problématique (modèle de régression ou de classification …).
- Entraînement des modèles et recherche des hyperparamètres optimaux.
- Validation du modèle sur les données de test.
Quels sont les avantages de l’apprentissage supervisé ?
- Plusieurs problématiques peuvent être traitées à l’aide de l’apprentissage supervisé.
- Entraînement facile et efficace des différents modèles grâce à des données déjà étiquetées.
- Les labels permettent de valider le modèle en le testant sur des données étiquetées et en comparant les résultats prédits et les sorties réelles.
Pourquoi l’apprentissage supervisé est de moins en moins populaire ?
- Difficultés pour étiqueter les données, surtout quand elles sont en grande quantité. (Certaines problématiques nécessitent l’intervention manuelle d’un opérateur humain).
- Problème de sur-apprentissage si le modèle rencontre des données anormales (problème très fréquent si le jeu de données d’entraînement est de petite taille).
- On ne sait pas labelliser les données de certaines problématiques et on aimerait que l’algorithme fasse ce travail (Des problématiques telles que des tâches de clustering).
Conclusion
L’apprentissage supervisé n’est pas parfait mais reste l’un des meilleurs moyens de résoudre des problématiques complexes dans divers domaines de la finance à la santé.
Il s’avère ainsi fondamental pour générer une énorme plus-value sur les données qu’on collecte, et qui justifie l’intérêt d’obtenir ces données.
Vous souhaitez en apprendre davantage sur l’apprentissage supervisé et sur les techniques de Machine Learning ? Découvrez nos formations au Machine Learning et démarrez votre apprentissage prochainement !