Stable Diffusion : tout savoir sur ce modèle de Machine Learning

-
3
 m de lecture
-

La startup londonienne stability.ai a réussi l’exploit d’imposer une IA générative d’images face à deux mastodontes américains. L’application s’appelle Stable Diffusion et elle a bien des atouts…

Si l’on questionne le grand public sur l’intelligence artificielle (IA), deux noms surgissent spontanément. Le premier est bien évidemment ChatGPT, lequel domine très largement le marché de l’IA. Toutefois, il n’est pas rare d’entendre également la mention de Midjourney. Bien que la prise en main de cette IA générative d’images ne soit pas aisée, Midjourney a attiré des millions d’utilisateurs.

Midjourney dispose toutefois de deux concurrents principaux :

  • Dall.e 3 de OpenAI, créateur de ChatGPT qui a l’avantage d’être accessible depuis la version payante de ChatGPT mais aussi depuis le moteur de recherche Bing de Microsoft.
  • Stable Diffusion, une œuvre du  londonien, Stability.ai…

Comment ça marche une IA générative d’images ?

Pour générer une image, il faut partir d’un prompt, comme dans ChatGPT. Si l’on manque d’inspiration, on peut s’inspirer de créations déjà réalisées en copiant leur prompt. Ainsi, Stable Diffusion produit des images d’une qualité digne d’un graphiste ou un photographe professionnel.

Le résultat correspond rarement à ce que l’on attendait et donc on prend l’habitude de spécifier aussi des « negatives prompts », en clair, d’indiquer aussi ce que l’on ne souhaite pas voir apparaître dans l’image : pas de chien, pas de moustache, etc.

Autres capacités

Stable Diffusion n’est pas juste bon à créer des images. Il peut également partir d’une image existante et proposer des variations de celle-ci. Nous pouvons aussi lui confier d’autres tâches telles que l’inpainting (reconstruction d’images détériorées), l’outpainting (étendre une image en inventant les parties manquantes), etc.

Comment fonctionne une IA générative ?

L’IA générative repose sur deux technologies essentielles : le machine learning, et le deep learning, lequel repose sur des modèles mathématiques plus élaborés. Dans les deux cas de figure, l’application analyse de dizaines de millions d’images au sein desquelles, l’IA est entraînée à identifier des éléments : personnes, chiens et chats, bâtiments, plantes, appareils…

Un peu d’histoire

Emad Mostaque, fondateur de Stability AI a fondé sa société à Londres en fin d’année 2020, et donc deux ans avant l’explosion de ChatGPT. Autant dire qu’il a été visionnaire.

Le développement de Stable Diffusion a impliqué des chercheurs d’un groupe de l’Université Ludwig Maximilian et des données d’entraînement qui, à en croire Mostaque, auraient été fournies par des organisations à but non lucratif. Nous verrons plus loin que cette affirmation a été contestée.

Stable Diffusion n’a pas été la 1ère IA générative d’image proposée au public. Dès janvier 2021, OpenAI a été en mesure de présenter la première application concrète de ses recherches : Dall-e.  Il a fallu attendre avril 2022 pour que Dall-e 2 apparaisse, et offre des capacités de génération d’image abouties.

Le 12 juillet 2022, une autre IA générative est entrée sur le marché (en version beta) : Midjourney. Elle a frappé les esprits par la qualité de ses créations photo réalistes.

Stable Diffusion, pour sa part, est apparu en août 2022 et s’est fait également remarquer par sa capacité à générer des images sophistiquées. Dès le 17 octobre 2022, la startup a levé 101 millions de dollars, événement célébré lors d’une soirée mémorable à San Francisco.

Jusqu’au milieu de l’été 2023, Midjourney se montrait largement supérieur à Stable Diffusion. A la toute fin juillet, Stable Diffusion XL 1.0 a vu le jour. Dans les jours qui ont suivi, les forums ont clamé un même message : le nouveau Stable Diffusion aurait égalé ou dépassé Midjourney !

Stable Diffusion XL

Stable Diffusion XL 1.0 (SDXL 1.0) a affirmé son excellence dans un grand nombre de représentations : cartoon, art numérique, fantastique… Il se distingue par la qualité de contraste des couleurs, la gestion des ombres et lumières, la capacité à produire des effets audacieux

Comment accéder à Stable Diffusion ?

Stable Diffusion est accessible depuis un grand nombre de sites, notamment

Si un grand nombre de formules sont gratuites, d’autres nécessitent d’acheter des crédits à un tarif raisonnable.

De nombreux créatifs apprécient le fait qu’il soit possible d’installer Stable Diffusion en version locale sur un ordinateur doté d’une bonne carte graphique. De fait, son code, qui est open source, peut fonctionner sur la plupart des matériels équipés d’un GPU avec au moins 4 Go de VRAM.

Les déboires de Stability AI

Hélas, l’année 2023 a été difficile pour Stability AI qui a vu sa trésorerie fondre comme neige au soleil en raison des coûts d’exploitation de Stable Diffusion et de nombreux recrutements. La startup londonienne a cherché à lever 400 millions de dollars, mais en vain. Stability AI est par ailleurs ciblé par deux procédures judiciaires. Des collectifs d’artistes, mais aussi par Getty Images prétendent que Stabilité AI aurait utilisé leurs œuvres sans consentement pour entraîner son d’IA. La situation est devenue telle que l’un de ses principaux investisseurs a demandé la démission de Mostaque.

Stable Diffusion 3

Stable Diffusion devrait toutefois rebondir avec sa version 3 annoncée fin février 2024 et qui améliore notablement la qualité de l’image, et produire précisément du texte dans une image, ce qui demeure un point faible de ses concurrents.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?