Stable Diffusion es un modelo de aprendizaje automático desarrollado por Runway y LMU Múnich[1] para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural o estímulos (prompts, en inglés). El modelo se puede usar para diferentes tareas, como la generación de traducciones de imagen a imagen guiadas por mensajes de texto y la mejora de imágenes.
A diferencia de modelos de la competencia como DALL-E, Stable Diffusion es de código abierto[2] y no limita artificialmente las imágenes que produce.[3] Los críticos han expresado su preocupación por la ética de la IA, afirmando que el modelo se puede utilizar para crear deepfakes.[4] Puede ejecutarse en el hardware del usuario equipado con una tarjeta gráfica (GPU), es completamente gratis, se puede acceder a él en línea y fue elogiado por PC World como «la próxima aplicación revolucionaria para su PC».[5] Desde su lanzamiento inicial, más de 200.000 personas han descargado el código.[6] El modelo original fue liberado a través de la colaboración de las comunidades CompVis LMU, Runway, y Stability AI, con el apoyo de EleutherAI y LAION.
Arquitectura
Stable Diffusion utiliza una variante del modelo de difusión (DM), denominada modelo de difusión latente (LDM).[7] Introducidos en 2015, los modelos de difusión se entrenan con el objetivo de eliminar aplicaciones sucesivas de ruido gaussiano en las imágenes de entrenamiento, que pueden considerarse una secuencia de autocodificadores de eliminación de ruido. Stable Diffusion consta de tres partes: el autocodificador variacional (VAE), U-Net y un codificador de texto opcional.[8] El codificador VAE comprime la imagen desde el espacio de píxeles a un espacio latente de dimensiones más pequeñas, capturando un significado semántico más fundamental de la imagen.[9] El ruido gaussiano se aplica iterativamente a la representación latente comprimida durante la difusión directa[8] El bloque U-Net, compuesto por una columna vertebral ResNet, elimina el ruido de la salida de la difusión directa hacia atrás para obtener la representación latente. Por último, el descodificador VAE genera la imagen final convirtiendo la representación de nuevo al espacio de píxeles[8]. El paso de eliminación de ruido puede condicionarse de forma flexible a una cadena de texto, una imagen y otras modalidades. Los datos de condicionamiento codificados se exponen a las U-Nets de eliminación de ruido mediante un mecanismo de atención cruzada.[8] Para condicionar el texto, se utiliza el codificador de texto fijo y preentrenado CLIP ViT-L/14 para transformar las indicaciones de texto a un espacio de incrustación[1]. Los investigadores señalan la mayor eficiencia computacional para el entrenamiento y la generación como una ventaja de los LDM.[10][11]
Datos de entrenamiento
Stable Diffusion se entrenó con pares de imágenes y subtítulos extraídos de la base de datos LAION-5B, un conjunto de datos de acceso público derivado de los datos de Common Crawl extraídos de la web, en el que se clasificaron 5.000 millones de pares imagen-texto en función del idioma, se filtraron en conjuntos de datos separados por resolución, se predijo la probabilidad de que contuvieran una marca de agua y se predijo la puntuación "estética" (por ejemplo, la calidad visual subjetiva).[12][13] El conjunto de datos fue creado por LAION, una organización alemana sin ánimo de lucro que recibe financiación de Stability AI.[12][13] El modelo Stable Diffusion se entrenó con tres subconjuntos de LAION-5B: laion2B-es, laion-high-resolution y laion-aesthetics v2 5+. Un análisis de terceros de los datos de entrenamiento del modelo identificó que de un subconjunto más pequeño de 12 millones de imágenes tomadas del conjunto de datos original más amplio utilizado, aproximadamente el 47 % del tamaño de la muestra de imágenes procedía de 100 dominios diferentes, de los cuales Pinterest ocupaba el 8,5 % del subconjunto, seguido de sitios web como WordPress, Blogspot, Flickr, DeviantArt y Wikimedia Commons.[14]
Procedimientos de entrenamiento
El modelo se entrenó inicialmente con los subconjuntos laion2B-es y laion-high-resolution, y las últimas rondas de entrenamiento se realizaron con LAION-Aesthetics v2 5+, un subconjunto de 600 millones de imágenes subtituladas a las que LAION-Aesthetics Predictor V2 predijo que los humanos darían, de media, una puntuación de al menos 5 sobre 10 cuando se les pidiera que valoraran cuánto les gustaban.[15][16] El subconjunto LAION-Aesthetics v2 5+ también excluía las imágenes de baja resolución y las imágenes que LAION-5B-WatermarkDetection identificaba como portadoras de una marca de agua con una probabilidad superior al 80 %.[12] En las rondas finales de entrenamiento se eliminó además un 10 % de condicionamiento de texto para mejorar la orientación de difusión sin clasificador.[17]
El código y pesos ('pretrained weights') del modelo de Stable Diffusion son de dominio público, y puede ejecutarse en la mayoría del hardware de consumo equipado con una GPU con al menos 8 GB de VRAM.
Versiones
Las versiones iniciales del modelo se entrenaron en un conjunto de datos que consta de imágenes de resolución 512 × 512, lo que significa que la calidad de las imágenes generadas se degrada notablemente cuando las especificaciones del usuario se desvían de su resolución "esperada" de 512 × 512.[21] El 20 de octubre de 2022 actualizaron a su versión 1.5 con algunas mejoras menores e incluyendo inpainting (hasta ese momento podía ser usado solo a través de software de terceros).[cita requerida]
La actualización de la versión 2.0,[22] liberada el 24 de noviembre, introdujo posteriormente la capacidad de generar imágenes de forma nativa con una resolución de 768×768.[23] Además, se introdujo la capacidad de utilizar estímulos negativos auxiliares y mapas de profundidad (depth maps), lo cual aumentó la versatilidad y capacidades del sistema. No obstante dicha actualización atrajo críticas[24][25] debido a que (sin el uso de promptsnegativos) las figuras humanas aparecían deformes y la excesiva censura de los datos de entrenamiento.[26] El 7 de diciembre de 2022 ya habían publicado su versión 2.1[27] con algunas correcciones.
Limitaciones y controversias
Las comunidades detrás de Stable Diffusion no reclaman ningún derecho sobre las imágenes generadas y otorga libremente a los usuarios los derechos de uso de su modelo, siempre que el contenido de la imagen no sea ilegal o dañino para las personas. La libertad otorgada a los usuarios sobre el uso de imágenes ha causado controversia sobre la ética de la propiedad, ya que los modelos generativos se entrenan a partir de imágenes, algunas con derechos de autor, sin el consentimiento expreso del propietario.[28]
Las primeras versiones de Stable Diffusion es notablemente más permisiva en los tipos de contenido que los usuarios pueden generar que sus competidoras (imágenes violentas o sexualmente explícitas).[29] Al abordar las preocupaciones de que el modelo puede usarse con fines abusivos, el director ejecutivo de Stability AI, Emad Mostaque, explica que "[es] la responsabilidad de las personas en cuanto a si son éticos, morales y legales en la forma en que operan esta tecnología" y que poner las capacidades de Stable Diffusion en manos del público daría como resultado que la tecnología proporcione un beneficio mucho mayor, que las posibles consecuencias negativas.[30]
Además, dado que los estilos visuales y las composiciones no están sujetos a derechos de autor, a menudo se interpreta que no se debe considerar que los usuarios de Stable Diffusion que generan imágenes de obras de arte infringen los derechos de autor de obras visualmente similares.[cita requerida] Sin embargo, las personas representadas en las imágenes generadas pueden estar protegidas por derechos de personalidad si se usa su imagen, y la propiedad intelectual, como los logotipos de marcas reconocibles, aún permanecen protegidas por derechos de autor. No obstante, los artistas visuales han expresado su preocupación de que el uso generalizado de software de síntesis de imágenes como Stable Diffusion pueda finalmente llevar a los artistas humanos, junto con fotógrafos, modelos, directores de fotografía y actores, a perder gradualmente la viabilidad comercial frente a los competidores basados en IA.[29]
En enero de 2023, tres artistas: Sarah Andersen, Kelly McKernan y Karla Ortiz presentaron una infracción de derechos de autor contra Stability AI, Midjourney y DeviantArt, alegando que estos las empresas han infringido los derechos de millones de artistas al entrenar herramientas de inteligencia artificial en cinco mil millones de imágenes extraídas de la web sin el consentimiento de los artistas originales.[31]
Stability AI también fue demandada por Getty Images por usar sus imágenes en los datos de entrenamiento.[32] Actualmente existen denuncias similares de parte de cientos de artistas [cita requerida].
↑Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. arXiv:2112.10752.