Google frappe un grand coup sur le marché de l’intelligence artificielle avec le lancement de Veo 2, un modèle avancé de génération de vidéos IA capable de produire des résolutions jusqu’à 4K. Conçu par Google DeepMind, cet outil surclasse son prédécesseur et s’impose comme un concurrent direct à Sora, l’offre vidéo IA d’OpenAI.
Veo 2 : un modèle vidéo IA avec une résolution 4K
Avec Veo 2, Google introduit une qualité visuelle inédite dans le domaine de la génération vidéo par intelligence artificielle. Contrairement à son prédécesseur limité au 1080p, Veo 2 peut produire des clips en 4K, offrant une précision exceptionnelle dans les détails visuels et les mouvements complexes. Ces améliorations se manifestent notamment dans la gestion des gestes humains, des ombres et des fluides, qui apparaissent plus naturels et réalistes.
En plus de la qualité d’image, Veo 2 propose des outils avancés pour le contrôle de la caméra. Il est ainsi possible de demander un plan rapproché, un large panorama ou encore un effet de profondeur de champ pour des rendus cinématographiques. Ces fonctionnalités s’adressent à des créateurs souhaitant obtenir des résultats professionnels sans recourir à des équipements coûteux.
Cependant, une question reste en suspens : quelles données Google utilise-t-il pour entraîner son modèle ? Bien que la firme reste discrète, certains observateurs suspectent que des vidéos issues de YouTube ont contribué à l’entraînement de Veo 2. Cette pratique soulève des débats sur l’utilisation de contenus protégés par des droits d’auteur. Pour contrer les risques de désinformation, Google a intégré un filigrane invisible via la technologie SynthID, garantissant l’authenticité des vidéos générées.
Veo 2 vs Sora : Google prend l’avantage sur OpenAI
Dans un marché où la concurrence est rude, Veo 2 semble prendre une longueur d’avance sur Sora, le modèle vidéo IA d’OpenAI. Alors que les vidéos de Sora sont limitées à une résolution de 1080p et à une durée maximale de 20 secondes, Veo 2 permet de générer des clips en 4K pouvant atteindre plus de deux minutes.
Lors de tests internes menés par Google, 59 % des utilisateurs ont préféré les rendus de Veo 2 contre seulement 27 % pour ceux de Sora Turbo, une version optimisée du modèle d’OpenAI.
Mais malgré ces avancées, Veo 2 n’est pas exempt de critiques. Comme pour la plupart des générateurs IA, des problèmes persistent dans la cohérence des mouvements complexes ou des petits détails, comme les mains ou les visages. Ces défis représentent encore un obstacle à surmonter pour atteindre un réalisme parfait.
Améliorations de Imagen 3
En parallèle du lancement de Veo 2, Google annonce des mises à jour pour Imagen 3, son modèle de génération d’images. Imagen 3 est désormais capable de produire des visuels plus nets et fidèles aux descriptions fournies, qu’il s’agisse de photoréalisme ou de styles artistiques variés comme l’animation.
Ces améliorations sont déployées via l’outil ImageFX, déjà disponible dans plus de 100 pays. Cette stratégie montre la volonté de Google d’offrir des solutions complètes et adaptées à un large éventail d’usages, du marketing au divertissement en passant par l’éducation.
Avec Veo 2 et les progrès d’Imagen 3, Google DeepMind consolide sa position en tant que leader de l’IA générative. Cependant, l’avenir de ces outils dépendra largement de leur acceptation par les utilisateurs et de la manière dont les entreprises répondront aux enjeux éthiques et aux débats sur les droits d’auteur. L’écosystème de l’IA vidéo est en pleine mutation, et les prochaines étapes de cette compétition s’annoncent décisives.
Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.
Source : deepmind.google