Dans le domaine de l’IA, il existe les modèles spécialisées et générales. Les spécialisées sont créées pour répondre à une seule tâche, et les générales s’exécutent sur plusieurs missions différentes. Cependant, les IA généralisées, utilisant un algorithme de renforcement pour apprendre de nouvelles tâches, ont besoin de beaucoup de données. Afin d’améliorer l’efficacité de ces algorithmes, Deepmind, met au point DreamerV3, un algorithme de renforcement apprenant grâce au jeu-vidéo Minecraft.
Qu’est-ce que DreamerV3 ?
DreamerV3 est un algorithme d’apprentissage par renforcement qui est capable de maîtriser un large éventail de tâches avec un ensemble fixe d’hyperparamètres, qui ne nécessite pas de réglages selon la tâche à exécuter. Ainsi, le retrait du besoin de réglage réduit la quantité de connaissances et de données nécessaires pour appliquer le reinforcement learning.
De plus, l’utilisation de modèles plus grands, qui fournissent donc plus d’instructions, augmente ses performances en fonction du nombre de données qu’il utilise. Il a d’ailleurs était testé sur un ensemble de tâches DMLab, et a dépassé l’algorithme IMPALA tout en utilisant moins de données.
UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !
Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ? Découvrez nos formations en Data Science.
Participer à votre première formation data gratuitement !
Assistez aux cours dispensés en live par nos formateurs pour démarrer sur Python, SQL, Power BI…
UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !
Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ?
Participer à votre première formation data gratuitement !
Comment s’entraîne-t-il sur Minecraft ?
DreamerV3 utilise le système de Reinforcement Learning pour s’entraîner. De cette manière, le programme explore l’environnement de Minecraft en effectuant des actions telles que se déplacer, creuser, sauter, etc. En définitive, son objectif est de collecter des diamants, qui sont marqués comme récompense par son programme. Après de nombreux essaie et apprentissage, DreamerV3 a réussi à collecter son premier diamant après 17 jours de jeu, soit 30 millions d’actions effectuées.
À noter que, DreamerV3 a dépassé IMPALA en utilisant 130 fois moins d’actions. Cette performance démontre que le système de Deepmind dépasse les algorithmes actuels, tout en réduisant les besoins en données.
Les algorithmes de machine ou de reinforcement learning deviennent plus performants à mesure qu’il s’exerce et apprenne de leurs erreurs. De nombreux exemples d’IA utilisant ces algorithmes existent. Notamment, ChatGPT et son système de renforcement par l’échange, mais également le détecteur de deepfake d’Intel FakeCatcher. Si cet article vous a plu et si vous envisagez une carrière dans la Data Science, n’hésitez pas à découvrir nos offres de formations sur DataScientest.
Source : danijar.com