VALL-E : l’outil de Microsoft qui imite votre voix

-
2
 m de lecture
-
Onde sonore bleu

À une époque où les deepfakes en image et vidéo prolifèrent sur internet. De nouvelles applications servant à les reconnaître et à les cataloguer font leur apparition. Cependant, un nouvel adversaire pourrait bientôt faire son entrée, les deepfakes audio. En effet, Microsoft a récemment publié une démo de son nouvel outil VALL-E, un chatbot audio capable de synthétiser votre voix avec un simple échantillon de trois secondes.

Comment fonctionne VALL-E ?

VALL-E est un modèle de synthèse vocale basé sur le machine learning, qui utilise EnCodec, une technologie de compression audio. Grâce à cela, il peut analyser un échantillon audio de trois secondes, afin de décomposer les informations de la voix en tokens. Ensuite, son système de machine learning fait correspondre les données enregistrées avec ce qu’il a appris à partir de 60 000 heures de discours

Cette bibliothèque d’enregistrement provient de LibriLight et regroupe des discours de 7 000 locuteurs provenant de livres audio. Afin que VALL-E génère un résultat pertinent, l’échantillon qu’il cherche à reproduire doit correspondre étroitement à une voix dans les données d’apprentissage.

VALL-E : l’outil de Microsoft qui imite votre voix

LANCEZ VOTRE CARRIÈRE :
DEVENEZ DATA SCIENTIST !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ? Découvrez notre formation de Data Scientist.

LANCEZ VOTRE CARRIÈRE :
DEVENEZ DATA SCIENTIST !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ?

Découvrez notre formation de Data Scientist

Quels sont les risques d’utilisation ?

L’imitation de la voix de VALL-E est bluffante et Microsoft propose des dizaines d’exemples pour illustrer son propos. Malgré ça, des internautes s’interrogent sur l’utilisation malveillante de cette technologie. L’entreprise se veut rassurante, répondant être au courant des risques liés comme l’usurpation d’identité, la création de deepfake audio ou encore le phising

Elle affirme que le code source de VALL-E ne sera pas disponible aux utilisateurs. De plus, pour atténuer ces risques, le géant de l’informatique compte développer un modèle de détection pour discerner si un clip audio a été synthétisé par VALL-E.

Personne masqué en train de pirater la carte de crédit de quelqu'un

Avec une popularité grandissante pour les technologies comme ChatGPT ou les modèles génératifs comme DALL-E ou Stable Diffusion, il n’est pas étonnant d’y voir des utilisations malveillantes. C’est pourquoi des régulations ou des outils de reconnaissances doivent être développés et mis en place pour garder une bonne utilisation de ces systèmes. Si cet article vous a plu, et si vous envisagez une carrière dans les métiers de la Data Science, découvrez nos offres de formations sur Datascientest.

Source : valle-demo.github.io

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?