Proximal Policy Optimization : tout sur l’algorithme créé par OpenAI

-
6
 m de lecture
-

Proximal Policy Optimization est un algorithme de Reinforcement Learning créé par OpenAI, idéal pour les environnements complexes tels que les jeux vidéo ou la robotique. Découvrez tout ce qu’il faut savoir sur son histoire, son fonctionnement et son utilisation !

Dans le domaine du Machine Learning, le Reinforcement Learning ou apprentissage par renforcement connaît une effervescence remarquable depuis plusieurs années en raison de son potentiel à résoudre des problèmes complexes.

Inspirée du concept d’apprentissage par essais et erreurs de l’être humain, cette approche implique la création d’agents capables d’apprendre à travers l’interaction avec leur environnement pour atteindre des objectifs spécifiques.

Ces agents doivent élaborer des politiques, à savoir des stratégies, pour maximiser une récompense cumulative au fil du temps. Ils effectuent des actions et reçoivent des récompenses ou des pénalités en retour, et ajustent leurs politiques pour maximiser la récompense.

Cependant, parvenir à optimiser ces politiques tout en maintenant la stabilité de l’apprentissage représente un défi majeur. Afin de le relever, l’entreprise OpenAI à qui l’on doit notamment ChatGPT a créé un algorithme novateur : le PPO, ou Proximal Policy Optimization.

Qu’est-ce que c’est ?

C’est en 2017 que l’article « Proximal Policy Optimization Algorithms » a été publié par les chercheurs John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford et Oleg Klimov d’OpenAI.

Leur objectif était de surmonter les limites des algorithmes de Reinforcement Learning existants, notamment en termes de stabilité de l’entraînement et de gestion des espaces d’action complexes.

Lors de l’optimisation des politiques dans le Reinforcement Learning, les mises à jour trop agressives peuvent en effet compromettre l’entraînement.

Or, le PPO introduit une nouvelle notion dans ce processus : la proximité. Ceci permet de s’assurer que les mises à jour ne soient pas trop éloignées des politiques précédentes.

Cette approche s’inspire du concept de « clipping » visant à limiter l’étendue des mises à jour pour éviter les changements abrupts. La convergence s’en trouve plus stable, et les performances d’apprentissage améliorées.

Comprendre l’architecture et le fonctionnement du PPO

L’algorithme se distingue par son architecture combinant des éléments clés pour permettre l’apprentissage stable et efficace dans des environnements dynamiques.

Il suit une approche de type itérative : l’agent interagit avec l’environnement, collecte des données d’entraînement, met à jour ses politiques en respectant le principe de proximité, puis répète le processus pour améliorer les performances au fil du temps.

Cette itération constante est essentielle pour permettre à l’agent de s’adapter à des environnements aussi complexes que changeants.

L’un des composants clés est la fonction de valeur, souvent mise en œuvre sous la forme d’une fonction de valeur d’état (V) ou d’une fonction de valeur d’avantage (A) pour évaluer la qualité des actions effectuées par l’agent.

L’avantage représente la différence entre la récompense réelle obtenue par l’agent et la valeur prédite. Cette évaluation permet de quantifier la pertinence des politiques actuelles et guide les mises à jour ultérieures.

Les politiques des agents sont généralement stochastiques : elles génèrent une distribution de probabilités sur les actions possibles. Ainsi, l’agent peut introduire de l’exploration dans son processus d’apprentissage pour mieux découvrir les stratégies optimales.

Comment se déroule le processus d’optimisation ?

Tout commence par l’interaction de l’agent avec l’environnement. Il effectue des actions en fonction de sa politique actuelle, observe l’état résultant de l’environnement, et reçoit une récompense ou une pénalité.

Ces interactions génèrent des trajectoires de données, qui sont ensuite utilisées pour mettre à jour la politique de l’agent. Une fois les trajectoires de données collectées, l’agent calcule les avantages via une mesure de la performance relative de chaque action par rapport à la valeur prédite.

Cette étape lui permet de déterminer quelles actions ont contribué positivement ou négativement à la récompense obtenue par l’agent. Selon le résultat, la politique est mise à jour à l’aide d’algorithmes comme la descente de gradient stochastique.

Le but est de maximiser la probabilité des actions les plus avantageuses. Toutefois, la contrainte de proximité limite les changements de politiques à un certain seuil.

Le processus itératif est répété plusieurs fois, permettant à l’agent de s’ajuster progressivement à son environnement et d’apprendre des politiques plus efficaces au fil du temps.

Quels sont les avantages de PPO ?

L’utilisation de cet algorithme apporte plusieurs avantages majeurs. Tout d’abord, comme évoqué précédemment, la contrainte de proximité contribue significativement à la stabilité de l’entraînement.

Elle évite les changements brusques qui risqueraient de compromettre la convergence de l’algorithme. De plus, PPO excelle dans la gestion d’espaces étendus et permet aux agents de traiter des environnements complexes avec des actions nombreuses et diversifiées.

Sa flexibilité le rend également adaptable à une large variété de tâches de Reinforcement Learning et de secteurs d’application. Pour mieux illustrer ses avantages, comparons-le maintenant avec d’autres algorithmes.

Le PPO comparé aux autres algorithmes RL

Le paysage du Reinforcement Learning est riche de nombreux algorithmes. Une comparaison permet de mieux comprendre les avantages distinctifs de PPO et son positionnement au sein de cette sphère.

L’un des plus connus est le DDPG (Deep Deterministic Policy Gradients) qui se distingue en abordant des problèmes d’espaces d’action continus où les actions possibles forment un ensemble infini.

Contrairement à PPO qui excelle dans la gestion d’espaces d’action stochastiques, DDPG utilise une politique déterministe. Cela signifie qu’à un état donné, elle attribue une action spécifique plutôt qu’une distribution de probabilités.

De son côté, TRPO (Trust Region Policy Optimization) partage avec PPO l’idée de maintenir la stabilité lors de l’optimisation des politiques. Cependant, il utilise une approche basée sur une région de confiance pour limiter les changements de politique.

C’est donc une différence avec PPO qui opte pour une contrainte de proximité. Cette simplicité le rend souvent plus facile à implémenter et moins sensible aux hyperparamètres.

Autre algorithme : SAC ou Soft Actor-Critic. Il se concentre sur l’efficacité d’apprentissage dans des environnements d’exploration intensive. Son entropie maximisation encourage l’exploration, et le distingue de PPO. Cependant, SAC peut être plus sensible au choix d’hyperparamètres et nécessiter un ajustement fin pour des performances optimales.

De manière générale, PPO brille par sa simplicité conceptuelle et sa facilité d’implémentation tout en maintenant de solides performances. Son approche itérative avec contrainte de proximité se révèle particulièrement bénéfique dans des applications pratiques, comme nous allons le voir à présent.

Quelles sont les principales applications ?

Le PPO a démontré des performances exceptionnelles dans des jeux vidéo complexes. En guise d’exemple notable, on peut citer l’IA AlphaGO. L’algorithme a été utilisé pour entraîner des agents capables de surpasser les champions humains du jeu de Go.

Il a aussi été appliqué avec succès pour permettre à des robots d’apprendre des tâches complexes telles que la manipulation d’objets variés dans des environnements dynamiques. C’est donc l’un des algorithmes au cœur de la révolution des robots humanoïdes qui s’annonce, avec notamment le Tesla Optimus.

Dans le domaine financier, PPO est exploité pour optimiser les stratégies de trading automatisé. Sa stabilité et son adaptation aux conditions de marché changeantes en font un choix attractif pour ces applications sensibles.

Et dans le secteur de la santé, il est utilisé pour concevoir des politiques de traitement personnalisées. Il aide par exemple à ajuster dynamiquement les protocoles de traitement en fonction de la réponse individuelle du patient.

Cette large diversité des champs d’application en font un algorithme clé de la nouvelle vague d’intelligences artificielles qui s’invitent dans tous les domaines. Et ce n’est qu’un début : de nombreuses évolutions se profilent à l’horizon…

PPO2 et les futures évolutions de l’algorithme

Une seconde implémentation « GPU-enabled » appelée PPO2 a aussi été relaxée par OpenAI. Elle s’exécute trois fois plus rapidement que la baseline sur Atari.

En outre, la firme américaine a également lancé une implémentation de l’algorithme ACER (Actor Critic with Experience Replay) qui utilise un tampon de relecture et une Q-Function entraînée avec Retrace.

Plusieurs variantes ont émergé pour résoudre des problèmes plus spécifiques. Certaines d’entre elles introduisent des mécanismes d’exploration plus sophistiqués, tandis que d’autres se concentrent sur des stratégies d’optimisation plus avancées.

Les recherches ont exploré l’adaptation dynamique des hyperparamètres pour un ajustement automatique aux caractéristiques changeantes de l’environnement ou de la tâche.

L’algorithme s’intègre de plus en plus aux approches d’apprentissage par imitation, où l’agent apprend à partir de démonstrations humaines. Cette intégration facilite l’acquisition rapide de politiques performantes.

Les chercheurs se penchent aussi sur le potentiel du transfert d’apprentissage avec PPO, pour permettre aux agents d’appliquer des connaissances acquises dans un domaine à des tâches connexes et d’accélérer l’apprentissage dans de nouveaux contextes.

À l’avenir, on peut s’attendre à des mécanismes d’exploration plus efficaces, une meilleure gestion d’espaces d’action de grande dimension pour une application à des tâches encore plus complexes, et une interprétabilité renforcée des politiques apprises pour rendre les décisions des agents plus compréhensibles.

Conclusion : Proximal Policy Optimization, un équilibre entre stabilité et efficacité du RL

Grâce à la notion de proximité évitant les mises à jour de politiques trop agressives, PPO évite les oscillations indésirables dans l’apprentissage par renforcement. Cet équilibre parfait entre stabilité et efficacité lui permet de s’adapter à une plus grande diversité de tâches.

Au fil des années, l’algorithme a gagné en popularité en raison de sa capacité à traiter des environnements complexes tels que les jeux vidéo, la robotique, la finance et la santé. C’est devenu un point de référence pour de nombreuses applications.

Afin de devenir expert en Machine Learning, Reinforcement Learning et intelligence artificielle, vous pouvez vous tourner vers DataScientest. Nos formations à distance vous permettent d’acquérir une véritable maîtrise en un temps record !

À travers le cursus Data Scientist, vous découvrirez notamment la programmation en Python, la DataViz, les techniques de machine learning et de deep learning, le Data Engineering et le MLOPS.

Le module dédié aux modèles complexes aborde le Reinforcement Learning, mais aussi les systèmes de recommandation et la théorie des graphes. À la fin du parcours, vous aurez acquis toutes les compétences requises pour devenir Data Scientist.

Vous recevrez une certification « Chef de projet en intelligence artificielle » du Collège de Paris, un certificat des Mines ParisTech PSL Executive Education et une certification AWS Cloud Practitioner.

Pour aller plus loin, nous vous proposons aussi une formation Machine Learning Engineer. Celle-ci combine le programme du cursus Data Scientist avec des modules dédiés au développement et au déploiement de systèmes d’intelligence artificielle.

À l’heure du boom des outils d’IA générative comme ChatGPT et DALL-E, notre formation Prompt Engineering & Generative AI vous permettra quant à elle d’apprendre à maîtriser ces nouveaux outils en devenant maître dans l’art de formuler des prompts.

Vous pouvez compléter nos différents cursus en BootCamp intensif, à temps plein ou à temps partiel. En ce qui concerne le financement, notre organisme reconnu par l’État est éligible au CPF ! Découvrez DataScientest !

Vous savez tout sur l’algorithme Proximal Policy Optimisation. Pour aller plus loin sur le même sujet, découvrez notre dossier complet dédié au Reinforcement Learning et notre dossier sur les principaux algorithmes de Machine Learning !

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?