Google Labs innove avec Whisk, un nouvel outil de génération d’images qui brise les codes traditionnels. Contrairement aux solutions populaires comme DALL-E ou MidJourney, Whisk n’a pas besoin de prompts textuels pour créer des visuels uniques. Ce générateur, alimenté par l’intelligence artificielle Gemini, utilise des images comme base pour produire des œuvres visuelles personnalisées.
Whisk réinvente la génération d’images avec l’IA Gemini
Au cœur de Whisk se trouve une idée simple mais puissante : permettre aux utilisateurs de créer des images à partir d’autres images. Trois éléments principaux sont nécessaires pour chaque création :
- Un sujet (par exemple, un portrait ou un objet).
- Une scène (comme un paysage ou un environnement spécifique).
- Un style graphique (par exemple, réaliste, cartoon, ou minimaliste).
L’utilisateur télécharge ces visuels directement dans Whisk, qui se charge de les analyser. Le traitement est assuré par Gemini, le modèle IA de Google, qui décompose chaque image en une description textuelle détaillée. Une fois les trois descriptions fusionnées, Whisk génère une image unique via Imagen 3, le moteur de génération d’images le plus récent de Google.
Les utilisateurs peuvent également affiner leur rendu final en ajoutant des précisions textuelles après la génération initiale, permettant des modifications ciblées et illimitées.
Une révolution technique et éthique pour la création visuelle
L’un des grands défis de la génération d’images par IA concerne le respect des droits d’auteur. Consciente des controverses entourant les outils IA, Google adopte une approche responsable. Whisk ne copie pas les images d’origine, mais en extrait uniquement des caractéristiques essentielles pour créer des visuels originaux. Cette méthodologie réduit le risque de reproductions non autorisées et garantit une utilisation éthique de l’outil.
Cependant, cette approche a ses limites. En se concentrant sur des traits jugés pertinents, Whisk peut produire des résultats inattendus. Par exemple, le sujet généré pourrait différer en termes de coiffure, de taille ou même de teinte de peau. Ces imprécisions sont dues à l’extraction sélective de données visuelles par Gemini, qui priorise la créativité sur la fidélité.
En termes d’accessibilité, Whisk est actuellement en phase de preview restreinte aux États-Unis. Google espère recueillir des retours pour affiner l’outil avant un lancement mondial. Néanmoins, des passionnés ont déjà trouvé des moyens de tester Whisk en utilisant des VPN et en configurant leur compte Google en anglais américain.
Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.
Source : blog.google