Une intelligence artificielle est elle capable de percevoir et de comprendre le monde à la manière d'un être humain ? C'est ce que laisse penser un modèle de Machine Learning créé par le MIT, capable d'associer entre eux des concepts abstraits en visionnant des vidéos.
À mesure que les événements du quotidien se déroulent, nous raisonnons à leur sujet de manière abstraite. C’est l’une des caractéristiques qui définit l’intelligence humaine et la distingue de l’intelligence artificielle.
Instinctivement, nous savons par exemple que pleurer ou écrire sont des moyens de communication. Nous savons aussi qu’un animal qui tombe d’un arbre ou qu’un avion qui atterrit sont des variations de l’action de descendre.
Néanmoins, ce mode de raisonnement consistant à organiser le monde en catégories abstraites échappe aux ordinateurs. C’est la raison pour laquelle de nombreux chercheurs entraînent des modèles de Machine Learning à partir de mots et d’images comportant des informations structurelles sur le monde et les relations entre les objets, les animaux et les actions.
À présent, une équipe de chercheurs du MIT a franchi un nouveau cap dans cette direction en créant un modèle de Machine Learning hybride entre langage et vision. Ce modèle est capable de comparer des événements capturés en vidéo pour identifier les concepts qui les connectent entre eux.
Ce modèle est capable d’égaler voire même de surpasser l’humain sur deux types de tâches de raisonnement visuel. Il est parvenu à choisir la vidéo qui complète le mieux les vidéos en termes de concept, et de choisir la vidéo qui n’y correspond pas. Par exemple, pour compléter des vidéos d’un chien qui aboie et d’un homme qui crie, le modèle a choisi une vidéo d’un bébé qui pleure.
Pour apprendre à reconnaître les actions, l’IA a été entraînée sur deux ensembles de données : « Multi-Moments in Time » du MIT et « Kinetics » de DeepMind. En utilisant la base de données « WordNet » regroupant des définitions de mots, les chercheurs ont pu cartographier la relation entre chaque étiquette de catégorie d’action et les autres étiquettes dans ces deux datasets.
Réussir à raisonner sur ce qu’ils voient et comprendre l’abstraction représente la prochaine étape pour les réseaux de neurones artificiels, après la reconnaissance d’objets et d’actions sur des images. C’est ce qui permettra aux modèles visuels d’intégrer les informations contextuelles apprises à partir de bases de données textuelles. Par exemple, les mots « courir » et « boxer » pourront être associés au concept d’exercice physique.
En visionnant une vidéo, le modèle identifie les mots correspondant aux actions présentées dans la vidéo. Un module d’abstraction se charge ensuite de combiner les représentations générées pour chaque vidéo afin d’identifier les abstractions partagées par toutes les vidéos d’un ensemble.
L'IA du MIT peut raisonner de façon abstraite, à la manière d'un humain
Pour comparer les performances de leur IA avec celles d’un humain, les chercheurs ont ensuite demandé à des humains d’effectuer les mêmes tâches de raisonnement visuel. À leur grande surprise, le modèle s’est révélé tout aussi performant que les humains dans de nombreux cas.
Les résultats s’avèrent même surprenants sur certains concepts. Par exemple, après avoir visionné une vidéo d’une personne emballant un cadeau et couvrant un objet de scotch, le modèle a suggéré une vidéo d’une personne enterrant un ami dans le sable sur une plage. Le point commun est l’action de « couvrir », mais les caractéristiques visuelles sont très différentes au point que peu d’humains y auraient songé.
Cette étude démontre qu’il est possible d’intégrer l’abstraction dans une intelligence artificielle pour lui permettre de raisonner visuellement comme un être humain. Or, un modèle capable de reconnaître des événements abstraits pourra offrir des prédictions plus précises et logiques pour permettre de meilleures prises de décisions.
Plus important encore, l’abstraction pave le chemin vers un mode de raisonnement proche de celui de l’être humain. Cette nouvelle réussite du MIT représente donc un pas de plus vers une intelligence artificielle comparable à l’intelligence humaine.
Parmi les chercheurs à l’origine de cette étude, on compte Aude Oliva et Allen Lee du MIT, mais aussi Rogerio Feris d’IBM et Carl Vondrick de la Colombia University. Cette étude vient d’être présentée dans le cadre de la European Conference on Computer Vision.
En conclusion, les travaux du MIT nous rapprochent encore un peu plus d’une IA généraliste. Pour en savoir plus, consultez notre dossier complet sur le Deep Learning, mais découvrez aussi quels sont les dangers liés à l’IA.