Pour préserver les milliers de langues menacées de disparition, Meta met au point un nouveau modèle d’IA capable d’écrire et de parler plus de 1100 langues.
Comment fonctionne ce nouveau modèle ?
Dans un article de blog, Meta décrit la création et l’utilisation possible de ces nouveaux modèles MMS (Massively Multilingual Speech). Ces outils étendent la synthèse vocale et la transformation de la parole en texte à plus de 1 100 langues. En ce qui concerne la reconnaissance, les chercheurs estiment que leurs modèles peuvent distinguer plus de 4 000 langues différentes. Les nouveaux modèles de Meta sont alors 100 fois plus performants que les modèles de langue déjà existants.
Toutefois, pour les mettre au point, les équipes de Meta ont dû avoir recours à des ressources inattendues. Lors de la création d’un modèle de langues, la première étape consiste à récolter les données des langues que l’on souhaite inculquer à son IA. Ce qui fut la première difficulté pour le groupe qui n’a trouvé que des datasets qui répertorient 100 langues maximum. Pour élaborer une solution, les chercheurs de Meta se sont tournés vers les textes religieux. La Bible ayant été largement publiée et étudiée, ils n’eurent aucun mal à trouver des traductions dans diverses langues. À cela s’ajoutent des enregistrements audio de ces textes, récités par différents locuteurs. Grâce à ces données, l’équipe de Meta a créé un nouveau dataset, nommé “Nouveau Testament”, qui comporte 1 100 langues avec en moyenne 32 heures de lectures auditives par langue.
Avec les différentes variations de langues, d’argots ou d’accents présentes dans le dataset, les modèles poussent le chiffre de langues reconnues à 4 000.
Pourquoi conserver toutes ces langues ?
Cette suite d’outils en open source permettra aux développeurs de créer de nouveaux outils dans plus de mille langues différentes. Les utilisateurs pourront alors choisir leur langue favorite. Les systèmes d’assistance vocale pourront également s’adresser à leurs usagers dans la langue de leur choix.
Meta espère qu’avec cet accès en open source les chercheurs et développeurs pourront concevoir de nouveaux outils qui aideront à la conservation des langues menacées de disparition. D’autres outils de Meta, récemment mis en ligne, peuvent également aider les développeurs grâce à une intégration à 6 modalités. Si cet article vous a plu et si vous envisagez une carrière dans la Data Science, n’hésitez pas à découvrir nos articles ou nos offres de formations sur DataScientest.
Source : ai.facebook.com