Retour aux articles

Reinforcement Learning : Définition et application

Q: Quels les principaux challenges du Reinforcement Learning ?

Le choix de l’algorithme le plus approprié représente un défi important étant donné la grande variété d’approches existantes. Celles-ci reposent sur des méthodes différentes et utilisent de nombreux hyper-paramètres. Dans ce contexte, il est essentiel de définir les bonnes mesures pour évaluer ses performances et de choisir avec soin ses hyper-paramètres.

31 Juil 2020

m de lecture

Data Science

Jérémy Robert

Le Reinforcement Learning, ou apprentissage par renforcement en français, suscite depuis quelques années un très grand intérêt. On se souvient encore de ce moment historique où AlphaGo, une machine d’Intelligence Artificielle, a réussi à vaincre un champion humain incontesté !

Depuis, le Reinforcement Learning a réalisé d’importants progrès, surpassant les méthodes bien établies. Néanmoins, l’utilisation du Reinforcement Learning dans le monde professionnel est loin d’être généralisée. Malgré des performances prometteuses, très peu d’entreprises ont réussi à identifier des cas d’applications concrets et l’implémenter pour améliorer leurs process.

Sur quels principes repose le Reinforcement Learning ? Comment se distingue-t-il des autres modes d’apprentissage ? Quels sont les domaines d’application auxquels il s’applique ? Cet article vous dit tout sur le potentiel de l’apprentissage par renforcement.

Qu'est ce que le Reinforcement Learning ?

Le Reinforcement Learning désigne l’ensemble des méthodes qui permettent à un agent d’apprendre à choisir quelle action prendre, et ceci de manière autonome.

Plongé dans un environnement donné, il apprend en recevant des récompenses ou des pénalités en fonction de ses actions. Au travers de son expérience, l’agent cherche à trouver la stratégie décisionnelle optimale qui puisse lui permettre de maximiser les récompenses accumulées au cours du temps.

Comment formuler un problème de Reinforcement learning ?

L’apprentissage par renforcement nécessite d’introduire un certain nombre de concepts et de métriques, dont les principaux sont les suivants :

Agent : système ou robot qui interagit et agit dans l’environnement ;
Action a : une action parmi l’ensemble des actions possible ;
État s : situation particulière dans laquelle l’agent se trouve ;
Politique π : stratégie qui définit le comportement l’agent

Dans le cas d’une politique déterministe, l’action a est définie par : a= π(a|s)

Dans le cas d’une politique stochastique, la probabilité de l’action a est définie par :p(a|s)= π(a|s)

Récompense r(s,a) : Gain positif ou négatif collecté en effectuant l’action a à l’état s. L’objectif est de maximiser les bénéfices totaux d’une politique.
Épisode : il peut être défini comme la suite des actions menées jusqu’à l’état final ou une durée d’action prédéfinie.
Fonction de valeur V(s) : La fonction de valeur d’un état s est le montant total des récompenses qu’un agent s’attend à pouvoir collecter de cet état jusqu’à la fin de l’épisode.
Fonction action-valeur Q(s, a) : La fonction de valeur d’action a à l’état s est le montant total des récompenses attendues en prenant l’action a à l’état s jusqu’à la fin de l’épisode.

Prenons l’exemple du jeu de Pac-Man. Le but de l’agent (Pac-Man) est de manger la nourriture dans la grille tout en évitant les fantômes sur son chemin. Le monde de la grille est l’environnement interactif de l’agent. Pac-Man reçoit une récompense pour avoir mangé de la nourriture et une punition s’il est tué par le fantôme (il perd le jeu). Les états correspondent à l’emplacement de Pac-Man dans le monde de la grille et la récompense totale cumulée est la victoire de Pac-Man dans le jeu.

En quoi le Reinforcement Learning est différent des autres méthodes d’apprentissage ?

De manière générale, l’apprentissage automatique correspond à l’apprentissage réalisé par des algorithmes à partir de données en vue de réaliser des prédictions ou de prendre des décisions.

En ce sens, l’apprentissage par renforcement représente l’un des trois paradigmes d’apprentissage automatique aux côtés de l’apprentissage supervisé et l’apprentissage non-supervisé.

Dans le cadre de l’apprentissage supervisé, les données sont labellisées : chaque observation en entrée est associée à une variable de sortie. L’objectif de l’algorithme est donc d’apprendre à associer observations et labels à partir de ces données.
En ce qui concerne l’apprentissage non supervisé, les données ne sont pas labellisées. L’algorithme a alors pour but d’identifier des caractéristiques communes au sein des données et donc de découvrir des structures sous-jacentes.

En revanche, dans le cas de l’apprentissage par renforcement, les observations reçues par l’algorithme sont associées à des retours évaluatifs fournis par l’environnement et non pas des labels.

	Apprentissage supervisé	Apprentissage non-supervisé	Apprentissage par renforcement
Définition	L'algorithme apprend à partir de données labellisées	L'algorithme est entrainé à partir de données non labellisées sans indications particulières	L'algorithme interagit avec son environnement en réalisant des actions et en apprenant de ses erreurs et succès
Types de problèmes	Régression et classification	Association et clustering	Basé sur un système de récompense
Type de données	Données labellisées	Données non labellisées	Pas de données fournies au préalable
Approche	Etudie les relations sous-jacentes qui lient les données en entrée aux labels	Découvre les motifs communs au sein des données d'entrée	Apprend une stratégie de comportement en fonction d'expériences passées et des récompenses perçues

Comparaison entre les différents types d’apprentissage, adapté de [4]

Quels les principaux challenges du Reinforcement Learning ?

Le dilemme entre l’exploration et l’exploitation

Lorsque l’agent est plongé dans un environnement inconnu, il doit concilier entre :

La nécessité d’explorer afin d’acquérir une meilleure connaissance de son environnement
L’exploitation de ses connaissances pour maximiser ses gains

Cet équilibre entre exploitation et exploration représente un enjeu essentiel dans la phase d’apprentissage. À titre d’exemple, dans le cas de PacMan, l’agent est confronté au dilemme d’explorer de nouveaux états en parcourant la grille ou de maximiser les récompenses accumulées en limitant ses déplacements pour éviter les fantômes.

Choisir l'algorithme approprié et en régler les paramètres

Le choix de l’algorithme le plus approprié représente un défi important étant donné la grande variété d’approches existantes. Celles-ci reposent sur des méthodes différentes et utilisent de nombreux hyper-paramètres. Dans ce contexte, il est essentiel de définir les bonnes mesures pour évaluer ses performances et de choisir avec soin ses hyper-paramètres.

Faire face aux problématiques de généralisation

Comme dans tout autre domaine de l’apprentissage machine, les algorithmes d’apprentissage par renforcement sont confrontés à des problèmes de généralisation. Plus précisément, le concept de généralisation renvoie à deux critères :

Atteindre des performances élevées dans un environnement où les données recueillies sont limitées
Obtenir des performances élevées dans un environnement aux caractéristiques similaires

Pour mesurer la performance de la généralisation d’une méthode dans le premier cas, le comportement de l’agent est observé dans un environnement de test identique à celui sur lequel il a été formé. En revanche, dans le second cas, le comportement de l’agent est observé dans un environnement de test qui a des caractéristiques communes avec l’environnement de formation mais qui peut différer en termes de dynamique et de récompenses.

Ces deux critères sont importants pour évaluer et comparer les performances relatives des méthodes d’apprentissage par renforcement.

Quels domaines d’application de l'apprentissage par renforcement ?

Grâce à son fort potentiel, le Reinforcement Learning peut bouleverser la manière dont les entreprises gèrent leurs activités opérationnelles. À titre d’exemple, Google, aurait réduit sa consommation d’énergie d’environ 50 % après avoir mis en œuvre les technologies intelligentes développées par Deep Mind. De même, des start-up innovantes exploitent l’apprentissage par renforcement pour optimiser l’utilisation des machines et des équipements.

Si le Reinforcement learning est largement connu pour ses exploits en jeux vidéo, il existe une multitude de domaines d’application auquel il peut apporter un véritable plus-value.

La robotique

En robotique et en automatisation industrielle, le Reinforcement Learning est utilisé pour permettre au robot de créer un système de contrôle adaptatif efficace pour lui-même qui apprend de sa propre expérience et de son comportement.

La fouille de texte

Les domaines d’applications du Reinforcement Learning comprennent également la fouille de texte ou Text mining. À titre d’exemple, les chercheurs de Salesforce, une entreprise renommée de cloud computing, ont combiné le Reinforcement Learning avec un modèle avancé de génération de texte contextuel pour développer un système capable de produire des résumés de textes longs. Pour découvrir une application du Text Mining version DataScientest, découvrez cet article !

La finance

Si les grandes entreprises du secteur financier utilisent déjà les algorithmes de Machine Learning pour améliorer leurs activités de trading et d’investissement en capitaux propres, certaines d’entre elles ont déjà jeté leur dévolu sur le Reinforcement learning.

Par exemple, JP Morgan a annoncé en 2017 qu’elle commencerait à automatiser l’exécution de gros ordres de trading. Leur modèle, formé sur des milliards de transactions historiques, permettrait d’exécuter la transaction rapidement, à des prix optimaux.

La santé

Des articles récents suggèrent de multiples applications du Reinforcement Learning dans le secteur des soins de santé. Parmi elles, on peut citer le dosage des médicaments, l’optimisation des politiques de traitement pour les personnes souffrant de maladies chroniques, les essais cliniques, etc.

Références

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Poursuivre la lecture

Microsoft investit 9,7 milliards de dollars dans l’infrastructure d’IA — un accord qui va redéfinir l’échiquier technologique mondial

Elena MLYNARCZYK novembre 3, 2025

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !