Le Multimodal Learning est une évolution du Machine Learning, consistant à utiliser simultanément plusieurs sources de données comme le texte, l’image et l’audio pour résoudre des tâches beaucoup plus complexes. Découvrez tout ce qu’il faut savoir sur cette nouvelle technique qui va permettre de repousser les frontières de l’IA !
Au cours des dernières années, l’intelligence artificielle a connu des progrès impressionnants. Son évolution est notamment liée à l’apprentissage automatique (machine learning) et aux réseaux de neurones profonds.
Toutefois, ces avancées ont été principalement réalisées dans des tâches « unimodales ». Ce terme signifie que l’accent est mis sur un seul type de sources de données, par exemple le texte ou l’image.Or, dans le monde réel, les informations proviennent de multiples sources sensorielles et combinent le texte, l’image, l’audio ou même la vidéo.
Ainsi, le prochain cap de l’IA est d’exploiter simultanément et de manière intégrée ces multiples modalités pour une compréhension plus riche et plus complète. Pour y parvenir, les chercheurs utilisent la technique du « multimodal learning ».
Qu'est ce que le Multimodal Learning ? Quelles données exploite-t'il ?
Lorsque vous passez la tête par la fenêtre, vous recevez immédiatement de nombreuses informations. Ceci est lié à la combinaison de nos 5 sens : l’ouïe, la vue, l’odorat, le goût et le toucher qui nous permettent de percevoir à la fois les sons, les images, les textures et les parfums.
Le Multimodal Learning vise à appliquer cette idée d’exploitation simultanée de différentes données dans le domaine de l’IA. Voyons tout d’abord les différents types de sources.
Le texte est l’une des modalités les plus couramment utilisées dans le Machine Learning. Les données textuelles contiennent des informations riches et structurées, et le traitement naturel du langage (NLP) permet d’en extraire facilement des connaissances.
Ces données peuvent provenir de documents, d’articles de presse, de messages sur les réseaux sociaux ou tout autre type de texte. Les techniques de NLP utilisées pour les traiter incluent la tokenisation, la lemmatisation, l’analyse syntaxique, la détection d’entités nommées, ou encore la classification de texte.
De leur côté, les images sont une source d’informations visuelles essentielle dans le Multimodal Learning. Grâce à la popularité croissante des réseaux de neurones convolutifs (CNN), d’importantes avancées ont pu être effectuées dans la compréhension des images.
Les techniques de vision par ordinateur permettent de les analyser et de les interpréter pour en extraire des connaissances. On peut citer pour exemples la détection d’objets, la reconnaissance faciale, ou encore la segmentation d’images.
La modalité audio quant à elle regroupe les informations provenant d’enregistrements vocaux, de fichiers de sons ou de flux en direct. On les analyse avec des techniques de traitement audio pour en extraire des caractéristiques acoustiques et linguistiques.
Parmi les méthodes les plus utilisées, on compte la reconnaissance vocale, la détection d’événements sonores, la séparation de source ou encore la classification.
Enfin, la vidéo est une puissance source de données multimodales puisqu’elle combine les informations visuelles et audio. Les techniques de vision par ordinateur et de traitement audio permettent là encore d’extraire des connaissances à partir d’une séquence.
C’est ce qui permet la détection d’objets en mouvement, l’analyse de l’activité humaine, ou même la reconnaissance des gestes. Cette fusion des modalités visuelles et audio permet aux machines de mieux comprendre les scènes et les événements.
Avec l’essor des caméras de smartphones et des réseaux sociaux dédiés au partage de vidéos comme TikTok et YouTube, les IA ont désormais accès à un vaste réservoir de ressources sur lesquelles s’entraîner.
Dans le futur, avec l’émergence des robots humanoïdes dotés de capteurs tactiles sur leurs doigts, les intelligences artificielles pour également recevoir le sens du toucher et s’en servir pour apprendre…
Comment est utilisé le Multimodal Learning ?
Le Multimodal Learning est appliqué de façons diverses et variées dans de nombreux domaines de l’intelligence artificielle.
L’un des principaux cas d’usage est la reconnaissance et la compréhension des scènes. En combinant les informations visuelles, audio et vidéo, il est possible d’analyser et d’interpréter les scènes complexes de manière plus précise et détaillée.
Il s’agit par exemple de détecter et de suivre les objets en mouvement dans une vidéo, tels que les personnes dans les vidéos de surveillance.
La combinaison entre informations visuelles et audio aide à détecter automatiquement des événements suspects tels que des comportements agressifs, des intrusions ou des situations d’urgence sur les images des caméras de sécurité. C’est donc un précieux atout pour la surveillance.
Il est également possible de reconnaître et comprendre les activités humaines dans les vidéos grâce aux informations visuelles et audio. Par exemple, dans une vidéo enregistrée lors d’un événement sportif, la détection des gestes et la compréhension des interactions sociales aident l’IA à reconnaître un sport.
Un autre champ d’application du Multimodal Learning est la traduction. Cette approche permet notamment de traduire simultanément le discours et les images lors d’une présentation orale accompagnée de diapositives visuelles. Ceci facilite la compréhension pour un public multilingue.
De même, les instructions textuelles peuvent être automatiquement traduites en instructions visuelles. Le but peut être par exemple de guider un robot dans l’exécution de ses tâches.
Il existe également des générateurs de légendes pour les images, basés sur le Multimodal Learning. Ceci est très utile pour les personnes atteintes de troubles de la vision ou pour automatiser le processus de sous-titrage.
Grâce à une interface conversationnelle basée sur le Multimodal Learning, un assistant virtuel peut interagir avec les utilisateurs en utilisant la voix, le texte et l’image. L’expérience est donc plus naturelle et immersive, puisqu’il devient possible d’exprimer ses intentions et besoins de façons diverses.
Multimodal Learning et IA générative
L’intelligence artificielle générative repose également sur le Multimodal Learning. Ce type d’IA utilise les réseaux neuronaux pour générer du nouveau contenu : images, vidéos, textes…
Par exemple, les chatbots IA comme ChatGPT sont basés sur l’IA générative pour produire du texte à partir de prompts. En intégrant les différentes modalités, ils sont capables d’interagir de façon plus riche et plus naturelle avec les utilisateurs.
Les systèmes de dialogue les plus avancés comme GPT-4 d’OpenAI intègrent à la fois le texte, la parole et l’image pour comprendre et répondre aux requêtes de manière contextuelle et personnalisée.
De même, l’IA DALL-E crée des images à partir de prompts textuels. Elle a été entraînée à la fois sur du texte et des images pour apprendre à les associer.
L’IA générative peut permettre des interactions humain-machine plus personnalisées, créer des images et vidéos 3D réalistes pour les films ou les jeux vidéo, ou même de nouveaux designs de produits.
Les différentes approches et techniques
Le Multimodal Learning est une discipline complexe, reposant sur un vaste ensemble de techniques. Voici les plus utilisées.
Tout d’abord, les modèles de fusion jouent un rôle clé pour combiner les informations. Les réseaux de neurones multimodaux permettent d’apprendre des représentations intégrées, grâce à l’extraction des caractéristiques communes à partir des données multimodales.Ces Neural Networks peuvent être construits en utilisant des couches de fusion spécifiques prenant en compte les caractéristiques de chaque modalité et combinant les informations de manière appropriée.
Une autre méthode est l’apprentissage par transfert, permettant de transférer des connaissances apprises à partir d’une modalité à une autre.Ceci peut s’avérer très utile lorsque les données sont limitées dans une modalité spécifique. Par exemple, les modèles pré-entraînés sur des tâches de vision par ordinateur peuvent être transférés à des tâches de compréhension d’images dans d’autres domaines.
Il est également possible d’utiliser des modèles pré-entraînés sur de grandes quantités de données en guise de point de départ pour accélérer l’apprentissage multimodal.
Un modèle de langage pré-entraîné peut être utilisé pour extraire des caractéristiques textuelles dans une tâche multimodale, afin d’exploiter ses connaissances déjà acquises lors de l’entraînement initial sur un vaste ensemble de données.
Enfin, la représentation des données multimodales est une étape cruciale puisqu’elle influence la capacité du modèle à comprendre et exploiter les diverses modalités.
Par exemple, l’apprentissage de représentations communes vise à trouver des espaces de représentations partagés entre les différentes modalités.
Ceci permet d’extraire des caractéristiques communes capturant les informations partagées et facilitant la compréhension globale des données multimodales.
Pour apprendre ces représentations communes, on utilise notamment les techniques de co-apprentissage ou d’apprentissage adversarial.
Une alternative est l’utilisation des réseaux de neurones auto-encodeurs : des architectures qui apprennent à reconstruire les données d’entrée en passant par une représentation latente.
On peut les utiliser pour extraire des caractéristiques multimodales pertinentes, qui seront ensuite exploitées pour la fusion et l’apprentissage des modèles multimodaux.
Les défis du Multimodal Learning
Cet apprentissage multimodal présente plusieurs défis à relever, et requiert une attention particulière pour utiliser efficacement les différents types de données.
L’une des principales problématiques est l’alignement des modalités. Les données issues de sources diverses doivent être alignées de manière à ce qu’elles soient cohérentes et interprétables.Par exemple, lors de l’analyse d’une vidéo comportant une piste audio, les informations visuelles et sonores doivent impérativement être alignées temporairement pour que la scène soit compréhensible dans sa globalité. Afin de respecter cette contrainte, on utilise diverses techniques de synchronisation.
De même, la fusion des informations provenant de modalités différentes peut être une tâche complexe. Il existe plusieurs méthodes pour combiner efficacement les informations textuelles, visuelles, audio et vidéo comme la concaténation ou l’utilisation de réseaux de neurones multimodaux pour apprendre des représentations intégrées.
Quelle que soit l’approche employée, la fusion doit permettre de capturer les interactions et les dépendances pour offrir une compréhension globale et une vue d’ensemble.
Autre challenge : représenter les données de manière à capturer les informations pertinentes de chaque modalité pour une utilisation efficace lors de l’apprentissage.
En général, on utilise les techniques de Deep Learning pour extraire des caractéristiques significatives. Par exemple, les réseaux de neurones encodeurs peuvent être utilisés pour capturer les informations partagées entre les modalités.
Exemples de systèmes de Multimodal Learning
Grâce aux avancées scientifiques dans le domaine du Multimodal Learning, plusieurs systèmes ont vu le jour et certains sont utilisés par de nombreuses personnes. Voici quelques exemples.
L’entreprise américaine OpenAI a développé DALL-E, un système IA pour convertir le texte en image. Il s’agit d’un réseau de neurones composé de 12 milliards de paramètres.
La firme a également créé CLIP. Ce système multimodal permet d’effectuer une large variété de tâches de reconnaissance visuelle, et peut classifier des images par catégories sans avoir besoin de données d’exemple.
De son côté, Google a créé ALIGN : un modèle IA entraîné sur un jeu de données regroupant de nombreuses paires image-texte. Selon plusieurs benchmarks, il s’agit du modèle de ce type le plus performant.
Le géant californien a aussi créé l’IA MURAL pour l’association image-texte et la traduction linguistique. Ce modèle utilise l’apprentissage multi-tâches appliqué aux paires image-texte en association avec leur traduction dans plus de 100 langages.
Un autre projet de Google est VATT : une IA multimodale Video-Audio-Text. Elle peut faire des prédictions à partir de données brutes, générer des descriptions d’événements en vidéo ou même créer des vidéos à partir d’un prompt.
Les chercheurs de Microsoft ont créé NUWA pour produire de nouvelles images et vidéos ou modifier les images existantes. Ce modèle est entraîné sur des images, des vidéos et du texte. Il a appris à prédire la prochaine trame d’une vidéo ou à remplir les images incomplètes.
Un autre projet Microsoft Resarch est Florence, capable de modéliser l’espace, le temps et la modalité. Enfin, FLAVA est entraîné par Meta sur des images et 35 langages différents et se révèle performant pour une large variété de tâches multimodales.
Conclusion : le Multimodal Learning, prochaine frontière de l’IA
En permettant aux systèmes d’IA d’apprendre à partir de plusieurs types de données simultanément, le Multimodal Learning rapproche les machines du cerveau humain et de sa perception multisensorielle.
Ainsi, dans un avenir proche, cette approche pourrait bel et bien permettre à l’intelligence artificielle de continuer à s’approcher de l’intelligence humaine voire même de la surpasser…
Afin de maîtriser le Machine Learning et toutes ses techniques, vous pouvez choisir DataScientest. Nos formations de Data Science comportent toutes un ou plusieurs modules dédiés au Machine Learning, au Deep Learning et à l’IA.
Parmi les notions abordées, vous pourrez notamment découvrir les techniques de classification, régression, clustering avec scikit-learn, les méthodes de Text Mining et d’analyse de séries temporelles, mais aussi les réseaux de neurones CNN et RNN avec Keras, TensorFlow et PyTorch.
Nos différents cursus s’effectuent entièrement à distance, et permettent d’acquérir toutes les compétences requises pour exercer les professions de Data Scientist, Data Analyst, Data Engineer, ML Engineer, ou encore les nouveaux métiers de l’IA comme Prompt Engineer.
Notre organisme est éligible au CPF, reconnu par l’Etat, et vous pourrez recevoir un diplôme délivré par MINES Paris Executive Education et un certificat cloud de nos partenaires AWS et Microsoft Azure. Découvrez DataScientest !
Vous savez tout sur le Multimodal Learning. Pour plus d’informations sur le même sujet, découvrez notre dossier complet sur le Machine Learning et notre dossier sur le Reinforcement Learning.