La startup londinense stability.ai ha logrado la hazaña de imponer una IA generativa de imágenes frente a dos gigantes estadounidenses. La aplicación se llama Stable Diffusion y tiene muchos atractivos…
Si se le pregunta al gran público sobre la inteligencia artificial (IA), dos nombres surgen espontáneamente. El primero es, por supuesto, ChatGPT, que domina ampliamente el mercado de la IA. Sin embargo, no es raro escuchar también la mención de Midjourney. Aunque el manejo de esta IA generativa de imágenes no es sencillo, Midjourney ha atraído millones de usuarios.
Midjourney tiene, sin embargo, dos principales competidores:
- Dall.e 3 de OpenAI, creador de ChatGPT que tiene la ventaja de ser accesible desde la versión de pago de ChatGPT pero también desde el motor de búsqueda Bing de Microsoft.
- Stable Diffusion, una obra del londinense Stability.ai…
¿Cómo funciona una IA generativa de imágenes?
Para generar una imagen, se parte de un prompt, como en ChatGPT. Si falta inspiración, se puede tomar inspiración de creaciones ya realizadas copiando su prompt. Así, Stable Diffusion produce imágenes de una calidad digna de un diseñador gráfico o un fotógrafo profesional.
El resultado rara vez coincide con lo que se esperaba y, por lo tanto, se toma la costumbre de especificar también «negatives prompts», es decir, de indicar también lo que no se desea ver aparecer en la imagen: sin perros, sin bigotes, etc.
Otras capacidades
Stable Diffusion no es sólo bueno para crear imágenes. También puede partir de una imagen existente y proponer variaciones de la misma. Además, si quieres aprender a visualizar datos con herramientas modernas, es posible aplicar técnicas de IA para obtener representaciones gráficas avanzadas. También podemos confiarle otras tareas como el inpainting (reconstrucción de imágenes deterioradas), el outpainting (extender una imagen inventando las partes que faltan), etc.
¿Cómo funciona una IA generativa?
La IA generativa se basa en dos tecnologías esenciales: el machine learning y el deep learning, que se basa en modelos matemáticos más elaborados. En ambos casos, la aplicación analiza decenas de millones de imágenes dentro de las cuales, la IA está entrenada para identificar elementos: personas, perros y gatos, edificios, plantas, aparatos…
Un poco de historia
Emad Mostaque, fundador de Stability AI, fundó su empresa en Londres a finales del año 2020, y por lo tanto dos años antes de la explosión de ChatGPT. Basta decir que fue visionario.
El desarrollo de Stable Diffusion involucró a investigadores de un grupo de la Universidad Ludwig Maximilian y a datos de entrenamiento que, según Mostaque, habrían sido proporcionados por organizaciones sin ánimo de lucro. Veremos más adelante que esta afirmación ha sido cuestionada.
Stable Diffusion no fue la primera IA generativa de imágenes ofrecida al público. En enero de 2021, OpenAI pudo presentar la primera aplicación concreta de sus investigaciones: Dall-e. Hubo que esperar hasta abril de 2022 para que apareciera Dall-e 2, y ofreciera capacidades de generación de imagen completas.
El 12 de julio de 2022, otra IA generativa entró en el mercado (en versión beta): Midjourney. Impactó por la calidad de sus creaciones fotorealistas.
Stable Diffusion, por su parte, apareció en agosto de 2022 y también se hizo notar por su capacidad para generar imágenes sofisticadas. Desde el 17 de octubre de 2022, la startup recaudó 101 millones de dólares, evento celebrado durante una noche memorable en San Francisco.
Hasta mediados del verano de 2023, Midjourney demostró ser ampliamente superior a Stable Diffusion. A finales de julio, Stable Diffusion XL 1.0 fue lanzado. En los días siguientes, los foros proclamaron un mismo mensaje: ¡el nuevo Stable Diffusion había igualado o superado a Midjourney!
Stable Diffusion XL
Stable Diffusion XL 1.0 (SDXL 1.0) ha demostrado su excelencia en una gran cantidad de representaciones: caricatura, arte digital, fantástico… Se distingue por la calidad del contraste de colores, el manejo de sombras y luces, la capacidad para producir efectos atrevidos…
¿Cómo acceder a Stable Diffusion?
Stable Diffusion es accesible desde un gran número de sitios, entre ellos
- clipdrop.co – accesible en francés
- dreamstudio.ai
- stablediffusionweb.com
- Night Cafe
- etc.
Si bien muchas fórmulas son gratuitas, otras requieren la compra de créditos a un precio razonable. Además, para aquellos interesados en automatizar sus tareas con scripts de Python, existen formas de integrar IA en estos procesos.
Muchos creativos aprecian el hecho de que es posible instalar Stable Diffusion en versión local en un ordenador equipado con una buena tarjeta gráfica. De hecho, su código, que es de código abierto, puede funcionar en la mayoría de los equipos equipados con una GPU con al menos 4 GB de VRAM.
Los contratiempos de Stability AI
Lamentablemente, el año 2023 ha sido difícil para Stability AI que ha visto su tesorería disminuir como la nieve al sol debido a los costes de explotación de Stable Diffusion y numerosos reclutamientos. La startup londinense ha intentado recaudar 400 millones de dólares, pero en vano. Stability AI también es objeto de dos procedimientos legales. Colectivos de artistas, así como Getty Images afirman que Stability AI habría utilizado sus obras sin consentimiento para entrenar su IA. La situación se ha vuelto tal que uno de sus principales inversores ha pedido la dimisión de Mostaque.
Stable Diffusion 3
Stable Diffusion debería sin embargo recuperarse con su versión 3 anunciada a finales de febrero de 2024 y que mejora notablemente la capacidad de generar textos precisos en una imagen, lo que sigue siendo un punto débil de sus competidores. Para obtener más información sobre cómo funcionan los algoritmos de machine learning como el KNN, que son fundamentales en el desarrollo de estas tecnologías IA, se puede explorar material educativo especializado.