Dans la course à l’intelligence artificielle, le géant du web figure parmi les principaux challengers. Son arme redoutable, c’est LaMDA. Un outil d’IA générative capable d’engager des conversations sur une infinité de sujets. Et ce, tout en fluidité. Découvrez cette solution développée par Google, sa genèse et ses challenges.
LaMDA, un pas de plus vers le traitement du langage naturel
LaMDA (ou Language Model for Dialogue Applications) est un programme informatique utilisant l’intelligence artificielle pour générer de réelles conversations, comme s’il s’agissait d’un humain. Un peu comme tout agent conversationnel moderne (les chatbots). Mais à la différence des chatbots “classiques”, LaMDA est basé sur des modèles linguistiques les plus avancés. C’est-à-dire qu’il imite la parole en ingérant des trillions de mots provenant d’internet.
Ainsi, LaMDA est capable de s’engager sur une infinité de sujets (et non pas seulement des thématiques prédéfinies). Comme avec un ami, vous pourriez très bien commencer la conversation par un film (par exemple Le Seigneur des anneaux), puis enchaîner sur une scène épique (le discours d’Aragorn) et terminer par votre volonté d’apprendre à parler en public. L’objectif de LaMDA est justement de suivre la conversation avec fluidité, sans jamais perdre le fil (même si cela sort un peu du cadre prédéfini en amont). L’outil d’intelligence artificielle se rapproche ainsi toujours plus des modes d’interactions naturels entre deux êtres humains.
La genèse de LaMDA, un travail de longue haleine
Depuis sa création, Google s’intéresse de près ou de loin aux langues et langages. À ses débuts, le géant d’internet s’est lancé comme mission de traduire le web. Mais avec le développement des nouvelles technologies, et de la concurrence, la maîtrise des techniques d’apprentissage automatique s’est imposée pour mieux saisir l’intention des requêtes de recherche des internautes.
Ainsi, Google a affiné ses compétences en traitement et analyse de quantités exponentielles d’informations. Notamment à travers les derniers modèles de langage, comme BERT et GPT-3. Pour cela, le géant du web a conçu Transformer, une architecture de réseau neuronal open source. Comme pour de nombreux chatbots, ce modèle est entraîné à lire plusieurs mots, à faire le lien entre eux et à prédire les mots qui viendront ensuite.
Cette innovation permet à Google d’aller encore plus loin dans la maîtrise de toutes les subtilités et les nuances du langage humain (qu’il soit littéral ou figuré, fleuri ou simple, inventif ou informatif, ….). C’est ainsi que le projet LaMDA est né. Contrairement à la plupart des modèles de langage, cette IA a été entraînée au dialogue. Il est donc capable de développer une conversation ouverte et d’en saisir toutes les nuances.
Des challenges multiples pour LaMDA
La pertinence des réponses
Pour que les réponses apportées par LaMDA soient les plus naturelles possibles, il faut d’abord qu’elles aient du sens pour l’internaute. Mais cette aptitude est insuffisante à elle seule. Et pour cause, des réponses comme « c’est bien », « je ne sais pas »… peuvent s’adapter à une grande variété de situations, tout en restant cohérentes la plupart du temps. Mais des êtres humains qui parlent uniquement avec des phrases généralistes ne sont pas très intéressants. Or, l’objectif de Google est justement de susciter l’intérêt des internautes pour qu’ils continuent à utiliser encore et encore son intelligence artificielle.
Ainsi, les réponses fournies par LaMDA doivent aussi être :
- Spécifiques : il ne s’agit pas seulement de fournir une réponse bateau, mais une réponse qui s’adapte parfaitement (et presque uniquement) à la requête de l’internaute.
- Intéressantes : cela se manifeste à travers des réponses perspicaces, inattendues ou pleines d’esprit.
- Factuelles : les réponses de LaMDA doivent être à la fois convaincantes, et correctes.
En fournissant ce type de réponses, les outils d’IA sont presque sur le point d’atteindre la conscience. Et ça peut poser un autre problème en termes d’éthique.
Les principes de l’IA
Même s’il est possible de contrôler les modèles d’apprentissage automatique, des biais injustes peuvent toujours s’y développer ; favorisant ainsi les discours toxiques (avec notamment des propos haineux ou des informations trompeuses). D’ailleurs, c’est ce qu’a rapporté l’un des anciens collaborateurs de Google, Blake Lemoine dans le Washington Post. En testant l’utilisation de discours de haine ou discriminatoire par l’IA, il a pu constater que celle-ci parlait de ses droits et de sa personnalité. LaMDA a même été capable de le faire changer d’avis sur la troisième loi de la robotique d’Isaac Asimov. LaMDA serait donc une IA dotée d’une sensibilité propre, pouvant aller à l’encontre des principes éthiques définis par son créateur.
Google doit donc trouver la juste mesure entre une machine intelligente capable de simplifier la vie des êtres humains et une machine intelligente dotée de sa propre “conscience”. Pour cela, le géant du web met à disposition de ses chercheurs plusieurs ressources open source pour analyser les modèles et les données, il continue d’examiner minutieusement LaMDA à chaque étape de son développement et surtout, il définit une réglementation de l’IA.
Si le développement d’une conscience autonome de l’IA est effrayant, il convient de rappeler que les grands réseaux neuronaux produisent des résultats proches de la parole et de la créativité humaine, grâce aux progrès réalisés en matière d’architecture, de technique et de volume de données. En aucun cas, ce n’est le fruit de leur esprit ou intention.
La transparence des données et la sécurité
Au vu des nombreux doutes qui subsistent, il semble plus que nécessaire de renforcer la transparence quant à l’utilisation de LaMDA et son fonctionnement. C’est-à-dire publier les données utilisées pour retracer la production à l’entrée : notamment pour identifier les biais et les comportements de l’IA, mais aussi pour limiter la désinformation.
Par ailleurs, il faut également renforcer la sécurité quant à l’utilisation de l’IA. D’autant plus que LaMDA semble passer le test de Turing. Autrement dit, cette intelligence artificielle est capable de se passer pour un être humain. Dans ce contexte, des internautes pourraient facilement partager leurs données personnelles à ces agents conversationnels.
La maîtrise de la Science des données pour comprendre LaMDA
Avec le développement massif des outils d’IA conversationnel, les connaissances en science de la donnée, machine learning et deep learning sont de plus en plus valorisées par les organisations. C’est justement pour cette raison que datascientest propose ses formations d’avenir. En suivant le parcours pour devenir Data Scientist, vous apprendrez à maîtriser LaMDA et tout autre modèle d’apprentissage automatique.