Qu’est ce que le Reinforcement Learning ?

reinforcement learning
Temps de lecture : 5 minutes
Share on facebook
Share on twitter
Share on linkedin
Share on email

Le Reinforcement Learning, ou apprentissage par renforcement en français, suscite depuis quelques années un très grand intérêt. On se souvient encore de ce moment historique où AlphaGo, une machine d’Intelligence Artificielle, a réussi à vaincre un champion humain incontesté !
Depuis, le Reinforcement Learning a réalisé d’importants progrès, surpassant les méthodes bien établies.
Néanmoins, l’utilisation du Reinforcement Learning dans le monde professionnel est loin d’être généralisée. Malgré des performances prometteuses, très peu d’entreprises ont réussi à identifier des cas d’applications concrets et l’implémenter pour améliorer leurs process.

Sur quels principes repose le Reinforcement Learning ? Comment se distingue-t-il des autres modes d’apprentissage ? Quels sont les domaines d’application auxquels il s’applique ? Cet article vous dit tout sur le potentiel du Reinforcement Learning.

Reinforcement Learning : définition

Le Reinforcement Learning désigne l’ensemble des méthodes qui permettent à un agent d’apprendre à choisir quelle action prendre, et ceci de manière autonome

Plongé dans un environnement donné, il apprend en recevant des récompenses ou des pénalités en fonction de ses actions. Au travers de son expérience, l’agent cherche à trouver la stratégie décisionnelle optimale qui puisse lui permettre de maximiser les récompenses accumulées au cours du temps.


reinforcement learning schéma
Schéma d’apprentissage par renforcement, adapté de [5]

Comment formuler un problème de Reinforcement learning ?

Le Reinforcement learning nécessite d’introduire un certain nombre de concepts et de métriques, dont les principaux sont les suivants :  

  • Agent : système ou robot qui interagit et agit dans l’environnement ;
  • Action a : une action parmi l’ensemble des actions possible ;
  • État s : situation particulière dans laquelle l’agent se trouve ;
  • Politique π : stratégie qui définit le comportement l’agent

Dans le cas d’une politique déterministe, l’action a est définie par : a= π(a|s)

Dans le cas d’une politique stochastique, la probabilité de l’action a est définie par :p(a|s)= π(a|s)

  • Récompense r(s,a) : Gain positif ou négatif collecté en effectuant l’action a à l’état s. L’objectif est de maximiser les bénéfices totaux d’une politique. 
  • Épisode : il peut être défini comme la suite des actions menées jusqu’à l’état final ou une durée d’action prédéfinie. 
  • Fonction de valeur V(s): La fonction de valeur d’un état s est le montant total des récompenses qu’un agent s’attend à pouvoir collecter de cet état jusqu’à la fin de l’épisode.
  • Fonction action-valeur Q(s, a): La fonction de valeur d’action a à l’état s est le montant total des récompenses attendues en prenant l’action a à l’état s jusqu’à la fin de l’épisode.

Prenons l’exemple du jeu de Pac-Man. Le but de l’agent (Pac-Man) est de manger la nourriture dans la grille tout en évitant les fantômes sur son chemin. Le monde de la grille est l’environnement interactif de l’agent. Pac-Man reçoit une récompense pour avoir mangé de la nourriture et une punition s’il est tué par le fantôme (il perd le jeu). Les états correspondent à l’emplacement de Pac-Man dans le monde de la grille et la récompense totale cumulée est la victoire de Pac-Man dans le jeu.

En quoi le Reinforcement Learning est différent des autres méthodes d’apprentissage ?

De manière générale, l’apprentissage automatique correspond à l’apprentissage réalisé par des algorithmes à partir de données en vue de réaliser des prédictions ou de prendre des décisions. 

En ce sens, l’apprentissage par renforcement représente l’un des trois paradigmes d’apprentissage automatique aux côtés de l’apprentissage supervisé et l’apprentissage non-supervisé.

  • Dans le cadre de l’apprentissage supervisé, les données sont labellisées : chaque observation en entrée est associée à une variable de sortie. L’objectif de l’algorithme est donc d’apprendre à associer observations et labels à partir de ces données.
  • En ce qui concerne l’apprentissage non supervisé, les données ne sont pas labellisées. L’algorithme a alors pour but d’identifier des caractéristiques communes au sein des données et donc de découvrir des structures sous-jacentes.

En revanche, dans le cas de l’apprentissage par renforcement, les observations reçues par l’algorithme sont associées à des retours évaluatifs fournis par l’environnement et non pas des labels.

Apprentissage par renforcement
Comparaison entre les différents types d’apprentissage, adapté de [4]

Quels les principaux challenges du Reinforcement Learning ?

Le dilemme entre l’exploration et l’exploitation

Lorsque l’agent est plongé dans un environnement inconnu, il doit concilier entre :

  1. La nécessité d’explorer afin d’acquérir une meilleure connaissance de son environnement 
  2. L’exploitation de ses connaissances pour maximiser ses gains

Cet équilibre entre exploitation et exploration représente un enjeu essentiel dans la phase d’apprentissage. À titre d’exemple, dans le cas de PacMan, l’agent est confronté au dilemme d’explorer de nouveaux états en parcourant la grille ou de maximiser les récompenses accumulées en limitant ses déplacements pour éviter les fantômes. 

Choisir l’algorithme approprié et en régler les paramètres

Le choix de l’algorithme le plus approprié représente un défi important étant donné la grande variété d’approches existantes. Celles-ci reposent sur des méthodes différentes et utilisent de nombreux hyper-paramètres. Dans ce contexte, il est essentiel de définir les bonnes mesures pour évaluer ses performances et de choisir avec soin ses hyper-paramètres.

Faire face aux problématiques de généralisation  

Comme dans tout autre domaine de l’apprentissage machine, les algorithmes d’apprentissage par renforcement sont confrontés à des problèmes de généralisation. Plus précisément, le concept de généralisation renvoie à deux critères : 

  • Atteindre des performances élevées dans un environnement où les données recueillies sont limitées
  • Obtenir des performances élevées dans un environnement aux caractéristiques similaires

Pour mesurer la performance de la généralisation d’une méthode dans le premier cas, le comportement de l’agent est observé dans un environnement de test identique à celui sur lequel il a été formé. En revanche, dans le second cas, le comportement de l’agent est observé dans un environnement de test qui a des caractéristiques communes avec l’environnement de formation mais qui peut différer en termes de dynamique et de récompenses.

Ces deux critères sont importants pour évaluer et comparer les performances relatives des méthodes d’apprentissage par renforcement.

Quels domaines d’application de l’apprentissage par renforcement ?

Grâce à son fort potentiel, le Reinforcement Learning peut bouleverser la manière dont les entreprises gèrent leurs activités opérationnelles. À titre d’exemple, Google, aurait réduit sa consommation d’énergie d’environ 50 % après avoir mis en œuvre les technologies intelligentes développées par Deep Mind. De même, des start-up innovantes exploitent le Reinforcement Learning pour optimiser l’utilisation des machines et des équipements.

Si le Reinforcement learning est largement connu pour ses exploits en jeux vidéo, il existe une multitude de domaines d’application auquel il peut apporter un véritable plus-value.  

La robotique

En robotique et en automatisation industrielle, le Reinforcement Learning est utilisé pour permettre au robot de créer un système de contrôle adaptatif efficace pour lui-même qui apprend de sa propre expérience et de son comportement.

La fouille de texte

Les domaines d’applications du Reinforcement Learning comprennent également la fouille de texte ou Text mining. À titre d’exemple, les chercheurs de Salesforce, une entreprise renommée de cloud computing, ont combiné le Reinforcement Learning avec un modèle avancé de génération de texte contextuel pour développer un système capable de produire des résumés de textes longs. Pour découvrir une application du Text Mining version DataScientest , découvrez cet article ! 

La finance

Si les grandes entreprises du secteur financier utilisent déjà les algorithmes de Machine Learning pour améliorer leurs activités de trading et d’investissement en capitaux propres, certaines d’entre elles ont déjà jeté leur dévolu sur le Reinforcement learning. 

Par exemple, JP Morgan a annoncé en 2017 qu’elle commencerait à automatiser l’exécution de gros ordres de trading. Leur modèle, formé sur des milliards de transactions historiques, permettrait d’exécuter la transaction rapidement, à des prix optimaux.

La santé

Des articles récents suggèrent de multiples applications du Reinforcement Learning dans le secteur des soins de santé. Parmi elles, on peut citer le dosage des médicaments, l’optimisation des politiques de traitement pour les personnes souffrant de maladies chroniques, les essais cliniques, etc.

La figure ci-dessous détaille davantage le large éventail de domaines d’application du Reinforcement Learning : 

reinforcement learning apprentissage
Exemples de domaines d’applications du Reinforcement Learning Source : [1]

Références

  1. Y. Li, Reinforcement Learning Applications, Août 2019
  2. M. Kovtun, Reinforcement Learning Applications: A Brief Guide on How to Get Business Value from RL
  3. J. Hui, RL — Reinforcement Learning Terms, Septembre 2017
  4. Supervised Learning vs. Unsupervised Learning vs Reinforcement Learning, IntelliPaat, Decembre 2019
  5. Reinforcement Learning, Wikipedia
S’abonner
Notifier de
guest
0 Commentaires
Inline Feedbacks
View all comments
text mining de gaulle
📂 Actu et Buzz

Text Mining – Appel du 18 Juin

Qui d’entre vous n’a jamais rêvé d’une analyse de textes automatisée ? Avec le Machine Learning, certaines perspectives auparavant de l’ordre de l’imaginaire sont désormais

Lire plus »
job data science
📂 Business et Data Science

Devenir Data Scientist en 11 semaines

Avec l’émergence des métiers liés à la Data Science et à l’intelligence artificielle, la diversification des postes dans ces domaines rend parfois difficile la compréhension

Lire plus »
Fermer le menu