Les innovations concernant l’intelligence artificielle ne s’arrêtent plus. Deux anciens développeurs de TikTok ont mis au point l’intelligence artificielle, HeyGen, qui permet de traduire une vidéo en plusieurs langues en respectant votre intonation et la synchronisation labiale.
Parler plusieurs langues ?
Mis au point par deux data engineer, anciens employés chez TikTok, HeyGen peut faire parler à n’importe qui un peu moins d’une dizaine de langues, en conservant l’intonation et l’accent du locuteur. HeyGen peut vous faire parler 9 langues, dont deux formes d’anglais : anglais (accent américain), anglais (accent du pays du locuteur), italien, français, hindi, espagnol, allemand, polonais ou portugais.
Un aspect supplémentaire qui explique le succès de l’application est sa capacité à modifier la vidéo d’origine pour synchroniser les lèvres de l’acteur avec la langue parlée, fini les problèmes de synchronisation et les sous-titres !
Testing out @HeyGen_Official translation on French and German. I don’t speak either language so let me know if it sounds natural if you do.
— Jon Finger (@mrjonfinger) September 11, 2023
I hope if you pay you can turn off the color correction.
It didn’t work on my phone so I had to upload on my pc.https://t.co/FMJp9sJEBI pic.twitter.com/iF5eONAQ3c
Comment fonctionne HeyGen ?
Pour convertir correctement chaque vidéo, HeyGen modifie trois points grâce à son modèle LLM. En premier, la traduction, qui convertit le texte de la vidéo en texte de la langue voulu. On parle ici d’une capacité text-to-text, un fonctionnement similaire à celui de ChatGPT.
Ensuite le logiciel effectue une transcription text-to-audio du nouveau texte, comme le ferait Voicemaker ou l’application VALL-E de Microsoft.
Et enfin, HeyGen applique une transformation sur la vidéo pour associer le son au mouvement des lèvres grâce à un ensemble de données vidéo. Point noir de cette option, les experts remarque qu’elle provoque une consommation excessive de bande passante et de stockage, un traitement qui coûte cher en énergie, pas très écologique par les temps qui court.
Si le résultat peut être bluffant, il n’est pas pour autant parfait. Les traductions françaises comportent notamment un accent qui rappelle celui du Québec, un problème dû aux bases de données utilisées pour entraîner le modèle. Un autre point mis en avant est le blanchiment de la peau lors de la reconstruction labiale. Un défaut technique qui devra être réglé rapidement sous peine de voir apparaître des vidéos discriminatoires, comme ce fut le cas pour les algorithmes de reconnaissances lors des premiers essais de X, anciennement Twitter.
Malgré tout, HeyGen reste une révolution dans le domaine de la création visuelle. Ne reste plus qu’à espérer que les concepteurs de ce système trouveront une méthode plus économique pour pallier cette surconsommation d’énergie. Autre point inquiétant, l’utilisation d’HeyGen pourrait permettre la création de Deep Fakes d’une qualité jamais vue auparavant. Un avertissement qui rappelle l’importance de toujours vérifier ses sources sur internet. Si cet article vous a plu et que l’actualité data vous intéresse ou que vous envisagez une formation en Data Science, n’hésitez pas à découvrir nos articles ou nos offres de formations sur DataScientest.
Source : heygen.com