Le Temporal Difference Learning permet à un agent d’apprendre à partir d’un environnement sans avoir besoin d’un modèle. Il produit néanmoins des algorithmes adaptatifs et robustes.
L’apprentissage par différence temporelle (TD Learning) est une méthode d’apprentissage par renforcement. Sa particularité vient de ce qu’il s’agit d’une technique d’apprentissage non supervisé : l’agent apprend par lui-même à prédire la valeur attendue d’une variable.
Naissance du TD Learning
Une autre méthode de résolution de problèmes avait été introduite dans les années 1950 par Richard Bellman : la programmation dynamique. Elle repose sur la décomposition de problèmes complexes en sous-problèmes plus simples avec des solutions intermédiaires.C’est en combinant certains aspects des méthodes de Monte Carlo et de celles de la programmation dynamique qu’il a été possible à Richard Sutton de développer le TD learning…
Le TD Learning a été proposé dans les années 1980 par Richard Sutton et il a permis une avancée importante dans l’apprentissage par renforcement.Auparavant, l’approche principale avait été celle des méthodes de Monte Carlo, une famille de techniques développées dans les années 1940. Elles reposaient sur des trajectoires complètes (de l’état initial jusqu’à un état terminal). Il était nécessaire d’attendre la fin d’un épisode avant de pouvoir mettre à jour les valeurs.
Qu'est-ce que le Temporal Difference Learning ?
Le TD Learning a pour objectif de parvenir à une récompense prévisible (predicted reward) de façon progressive. La valeur à long terme d’un comportement est calculée en se fondant sur une série de récompenses intermédiaires. Les estimations sont mises à jour en fonction de la différence entre les valeurs estimées de deux états successifs (d’où l’appellation “différence temporelle »).
Sutton a proposé comme exemple d’essayer de prédire à partir du début de la semaine le temps qu’il fera samedi. Le TD Learning va utiliser des informations intermédiaires et affiner son algorithme au fur et à mesure. L’hypothèse est que les prédictions concernant une valeur future “ne sont pas confirmées ou infirmées d’un coup, mais plutôt petit à petit” à mesure que de nouvelles observations sont effectuées.
Une avancée majeure
Le TD Learning a marqué une avancée dans la résolution des problèmes de prédiction de récompenses. Là où les systèmes de raisonnement qui ont précédé reposaient sur des processus d’apprentissage complexes, il a ouvert une approche plus progressive.
Sa force vient de ce qu’il s’agit d’un algorithme de prédiction sans modèle, qui apprend en s’appuyant sur une estimation actuelle. Son principe consiste à opérer ladite estimation sur la base d’une combinaison :
- une récompense immédiate,
- la prédiction d’une récompense pour l’instant suivant.
Quand l’instant suivant survient, l’algorithme compare la nouvelle prédiction à l’estimation qui vient d’être effectuée. En cas de décalage, l’ancienne prédiction est ajustée. De cette façon, l’algorithme améliore progressivement sa précision.
Les paramètres mis en œuvre dans le TD Learning
Les paramètres sont au nombre de trois.
1. Alpha (α) : le taux d'apprentissage
Détermine dans quelle mesure les estimations doivent être ajustées en fonction de l’erreur.
2. Gamma (γ) : le taux d'actualisation
L’importance accordée aux récompenses futures.
3. e : probabilité d’exploration
Indique la probabilité d’explorer de nouvelles options (e) ou de rester avec la meilleure option actuelle (valeur 1-e).
Comment fonctionne le TD Learning ?
Le TD Learning suit ces étapes :
- Une action est effectuée selon une règle donnée.
- On observe la récompense et l’on estime l’état suivant.
- La valeur de l’état courant est mise à jour en fonction de la récompense observée et de la valeur estimée de l’état suivant.
Les avantages du TD Learning
- L’apprentissage se fait à chaque étape
- Le TD Learning est capable d’apprendre même dans des environnements où il n’y a pas d’état final bien défini.
- Les estimations faites par le TD Learning sont stables et consistantes d’un épisode à l’autre, alors que celles de la méthode Monte Carlo peuvent fortement varier.
- Il exploite la propriété de Markov – qui stipule que l’état actuel contient toute l’information nécessaire pour prédire le futur – et cela le rend efficace.
Quelles applications pour le TD Learning ?
Étant donné que le TD Learning établit un cadre de fiabilité élevée pour l’apprentissage au sein d’environnements dynamiques et incertains, de nombreuses applications sont apparues au sein de systèmes décisionnels complexes. L’apprentissage efficace qu’il peut développer dans des environnements à récompenses différées en fait un instrument de choix pour l’apprentissage en temps réel en IA, en robotique ou dans certains types de jeux vidéo comme les échecs mais aussi dans la finance. Le TD Learning est également approprié à l’optimisation de ressources dans des chaînes d’approvisionnement.
Là n’est pas tout. Dans les années 1980-1990, il a été observé que les neurones contrôlant la dopamine semblent gérer des « erreurs de prédiction des récompenses ». Quand une récompense inattendue survient, ils augmentent leur activité, et inversement celle-ci diminue en cas de récompense inférieure aux prévisions. Il en a été déduit qu’il y aurait là une approche similaire au TD Learning, ce qui a favorisé son usage dans les neurosciences.