Kosmos-1 l’outil de Microsoft qui a réponse à tout !

-
2
 m de lecture
-
Robot Kosmos-1

Bien que les prouesses de ChatGPT ou des autres LLM impressionnent les gens. Ces derniers restent en réalité limités à ne répondre qu’aux questions textuelles. Microsoft, de son côté, affirme avoir créé un modèle multimodal (MLLM), Kosmos-1, capable d’analyser des images, des vidéos ou des audios pour répondre à des questions.

Pourquoi créer un modèle multimodal ?

Dans un article intitulé “Language Is Not All You Need : Aligning Perception with Language Models« , les chercheurs en IA de Microsoft indiquent que leur objectif est d’intégrer la perception dans les MLLM, afin qu’ils puissent voir, entendre et parler. De plus, l’article suggère que la perception multimodale est le premier pas vers une intelligence artificielle générale. Ainsi, le système serait capable de réfléchir comme un humain.

Résultat de réponse Kosmos-1

LANCEZ VOTRE CARRIÈRE :
DEVENEZ DATA SCIENTIST !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ? Découvrez notre formation de Data Scientist.

LANCEZ VOTRE CARRIÈRE :
DEVENEZ DATA SCIENTIST !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ?

Découvrez notre formation de Data Scientist

Est-ce que Kosmos-1 est un modèle multimodal ?

Microsoft affirme que son MLLM Kosmos-1 peut recevoir de multiples entrées d’informations, suivre des instructions et apprendre selon un contexte. Pour illustrer ses capacités, l’article présente une discussion autour d’une photo de chaton et une personne tenant un papier avec un sourire dessiné. On questionne alors Kosmos-1 sur le côté humoristique de l’image, et le modèle explique que l’image est drôle car le chat porte un masque qui lui donne un sourire. D’autres exemples montrent que Kosmos-1 peut accomplir diverses tâches, comme expliquer comment redémarrer un ordinateur sous Windows 10, lire une page Web pour effectuer une recherche, interpréter les données de santé d’un appareil ou sous-titrer des images. Cependant, ces différents algorithmes ne lui offrent pas de capacités d’analyse vidéo. 

Mais ce qui intéresse le plus les scientifiques, c’est son potentiel sur la réponse aux questions des pages Web. Car ce que Microsoft souhaite, c’est utiliser des modèles de langage pour améliorer la pertinence de Bing par rapport à Google.

Résultat de réponse de Kosmos-1

Grâce aux MLLM les instituts de recherche se rapprochent un peu plus d’une IA généralisée. En espérant que Skynet reste une fiction et ne devienne pas réel. Dans tous les cas, si cet article vous a plu, et si la Data Science vous intéresse ou si vous envisagez une carrière dans ce domaine, ou si vous voulez tout simplement empêcher Skynet de naître, n’hésitez plus et venez découvrir nos offres de formations ou nos articles sur DataScientest.

Source : zdnet.com

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?