El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo vídeo generado que conservan con precisión los personajes y el estilo visual. El modelo comprende no solo lo que el usuario ha pedido en la solicitud, sino también cómo existen esas cosas en el mundo físico, según la empresa.[3]
Inicialmente, la herramienta estará disponible para «un número limitado de creadores», escribió el director ejecutivo de OpenAI, Sam Altman, en una publicación en X (conocida como Twitter). OpenAI también otorgará acceso a un equipo de expertos encargado de evaluar la seguridad de Sora antes de incorporarlo a los productos de la empresa.[4]
Funcionamiento
OpenAI entrenó el modelo utilizando vídeos disponibles públicamente, así como vídeos con derechos de autor con licencia para este propósito, pero no reveló el número ni la fuente exacta de los vídeos.[5]
Sora es un modelo generalista de datos visuales: puede generar vídeos e imágenes que abarcan diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta definición. El funcionamiento de Sora se basa en un método de difusión.[6] A partir de un vídeo inicial borroso y ruidoso, Sora aplica un proceso de refinamiento gradual hasta obtener un resultado final de alta calidad que se ajusta finalmente al texto de entrada.[2]
Convertir datos visuales en parches
Los modelos de lenguaje de gran tamaño (LLM) han demostrado ser herramientas formidables para el procesamiento del lenguaje natural gracias a su uso de tokens que agrupan información de forma eficiente. Estos tokens permiten que los LLM manejen diferentes tipos de texto, como código, matemáticas y lenguajes naturales. Sora introduce un concepto similar para la generación de videos: los parches visuales.
Al igual que los tokens de texto en los LLM, los parches visuales de Sora agrupan información visual en unidades discretas. Estos parches se extraen de una gran cantidad y diversidad de datos visuales, incluyendo videos, imágenes y animaciones. Posteriormente, se convierten en la base para el entrenamiento de un modelo de tipo transformer, similar al utilizado en el procesamiento del lenguaje natural.
De esta manera, se logra unificar la representación de texto y vídeo. Los parches visuales permiten que Sora interprete y genere contenido visual de la misma manera que los tokens de texto permiten a los LLM procesar y generar lenguaje.[2]
Red de comprensión de vídeo
Se utiliza una red para disminuir la dimensión de los datos visuales. Esta red recibe el vídeo original como entrada y produce una representación latente que se reduce en el tiempo y el espacio. Sora se entrena y luego crea vídeos dentro de este espacio latente reducido. Además, se entrena un modelo de decodificador asociado que mapea los latentes creados al espacio de píxeles.
Parches latentes del espacio-tiempo
A partir de un vídeo comprimido de entrada, se obtiene una secuencia de parches de espacio-tiempo que funcionan como tokens de transformador. Este método también se aplica a las imágenes, ya que las imágenes son vídeos de un solo cuadro. La representación basada en parches le permite a Sora entrenarse en videos e imágenes con diferentes resoluciones, duraciones y proporciones. Al momento de inferir, se puede ajustar el tamaño de los vídeos generados al organizar parches aleatorios en una rejilla del tamaño deseado.
Comprensión del idioma
Para entrenar este sistema, se necesita una gran cantidad de vídeos con sus subtítulos de texto correspondientes. Una técnica que se utiliza para obtener estos subtítulos es el re-subtitulado, que consiste en generar nuevos subtítulos a partir de los existentes. Esta técnica fue introducida en Dall-e 3, una herramienta que crea imágenes a partir de texto. Para aplicar el re-subtitulado, se entrena un modelo que produce subtítulos muy descriptivos y se usa para generar nuevos subtítulos para todos los vídeos del conjunto de entrenamiento. Además, OpenAI utiliza sus modelos de lenguaje, como GPT 3 o 4 para convertir indicaciones cortas del usuario en subtítulos más largos y detallados que se envían al sistema de generación de texto a vídeo.[2]
Duración y resolución de los vídeos
Los vídeos generados por Sora pueden tener diferentes resoluciones, duraciones y relaciones de aspecto. Sin embargo, el límite máximo de duración es de 60 segundos,[7] lo que es notablemente superior a la mayoría de los modelos generativos desarrollados por otras compañías.
La resolución de los vídeos generados por Sora puede variar desde 64x64 hasta 512x512 píxeles.[cita requerida] Según OpenAI, «Sora puede muestrear vídeos panorámicos de 1920x1080p, vídeos verticales de 1080x1920 y todo lo demás. Esto permite a Sora crear contenido para diferentes dispositivos directamente en sus relaciones de aspecto nativas».[2]
Limitaciones
Tras su lanzamiento, OpenAI reconoció algunas de las deficiencias de Sora, incluida su lucha por simular una física compleja, comprender la causalidad y diferenciar la izquierda de la derecha.[8] OpenAI también declaró que, en cumplimiento de las prácticas de seguridad existentes de la compañía, Sora restringirá las indicaciones de texto para imágenes sexuales, violentas, de odio o de celebridades, así como el contenido con propiedad intelectual preexistente.[9] Tim Brooks, un investigador de Sora, declaró que el modelo descubrió cómo crea gráficos 3D solo a partir de su conjunto de datos, mientras que Bill Peebles, también investigador de Sora, dijo que el modelo creaba automáticamente diferentes ángulos de video sin que se le solicitara.[10] Según OpenAI, los vídeos generados por Sora se etiquetan con metadatos C2PA para indicar que fueron generados por IA.[9]
Seguridad
Debido a que esta tecnología podría tener riesgos e impactos negativos si se usa de forma maliciosa, OpenAI está tomando algunas medidas de protección antes de hacerla pública. Algunas de estas medidas son:[11][12][13]
Compartir solo con un grupo selecto de investigadores externos, que evalúan sus posibles usos y abusos.
Colaborar con artistas visuales, diseñadores y cineastas, para recopilar comentarios y mejorar la utilidad de Sora para los creadores de contenido.
Aplicar filtros y restricciones a las indicaciones de texto que se pueden enviar a Sora, para evitar generar vídeos ofensivos, ilegales o dañinos.
Añadir marcas de agua o señales visuales a los vídeos generados por Sora, para distinguirlos de los vídeos reales y evitar la desinformación o el engaño.