Bien que les prouesses de ChatGPT ou des autres LLM impressionnent les gens. Ces derniers restent en réalité limités à ne répondre qu’aux questions textuelles. Microsoft, de son côté, affirme avoir créé un modèle multimodal (MLLM), Kosmos-1, capable d’analyser des images, des vidéos ou des audios pour répondre à des questions.
Pourquoi créer un modèle multimodal ?
Dans un article intitulé “Language Is Not All You Need : Aligning Perception with Language Models« , les chercheurs en IA de Microsoft indiquent que leur objectif est d’intégrer la perception dans les MLLM, afin qu’ils puissent voir, entendre et parler. De plus, l’article suggère que la perception multimodale est le premier pas vers une intelligence artificielle générale. Ainsi, le système serait capable de réfléchir comme un humain.
LANCEZ VOTRE CARRIÈRE :
DEVENEZ DATA SCIENTIST !
Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ? Découvrez notre formation de Data Scientist.
LANCEZ VOTRE CARRIÈRE :
DEVENEZ DATA SCIENTIST !
Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ?
Est-ce que Kosmos-1 est un modèle multimodal ?
Microsoft affirme que son MLLM Kosmos-1 peut recevoir de multiples entrées d’informations, suivre des instructions et apprendre selon un contexte. Pour illustrer ses capacités, l’article présente une discussion autour d’une photo de chaton et une personne tenant un papier avec un sourire dessiné. On questionne alors Kosmos-1 sur le côté humoristique de l’image, et le modèle explique que l’image est drôle car le chat porte un masque qui lui donne un sourire. D’autres exemples montrent que Kosmos-1 peut accomplir diverses tâches, comme expliquer comment redémarrer un ordinateur sous Windows 10, lire une page Web pour effectuer une recherche, interpréter les données de santé d’un appareil ou sous-titrer des images. Cependant, ces différents algorithmes ne lui offrent pas de capacités d’analyse vidéo.
Mais ce qui intéresse le plus les scientifiques, c’est son potentiel sur la réponse aux questions des pages Web. Car ce que Microsoft souhaite, c’est utiliser des modèles de langage pour améliorer la pertinence de Bing par rapport à Google.
Grâce aux MLLM les instituts de recherche se rapprochent un peu plus d’une IA généralisée. En espérant que Skynet reste une fiction et ne devienne pas réel. Dans tous les cas, si cet article vous a plu, et si la Data Science vous intéresse ou si vous envisagez une carrière dans ce domaine, ou si vous voulez tout simplement empêcher Skynet de naître, n’hésitez plus et venez découvrir nos offres de formations ou nos articles sur DataScientest.
Source : zdnet.com