OpenAI
OpenAI presenta Sora, nuevo modelo de IA que crea escenas de video mediante instrucciones de texto
Para la creación de estos videos, los usuarios deberán escribir indicaciones detallando qué caracterÃsticas tiene que incluir la escena, como los personajes y las acciones que llevarán a cabo, el entorno, el clima y los movimientos de cámara que se deban recrear.MADRID (Portaltic/EP).– OpenAI presentó Sora, su nuevo modelo impulsado por Inteligencia Artificial (IA) generativa capaz de crear escenas realistas de video de hasta 60 segundos a partir de instrucciones de texto, con un resultado detallado, un movimiento de cámara complejo y múltiples personajes con emociones.
La tecnológica estadunidense pretende continuar avanzando en las capacidades de la IA, en concreto, entrenando modelos que ayuden a las personas a resolver problemas que requieran interacción con el mundo real. Para ello, trabaja en formas de enseñar a la IA a comprender y simular el mundo fÃsico en movimiento.
Como resultado, OpenAI presenta Sora, su nuevo modelo de IA de texto a video, con el que permite la creación de videos realistas de hasta un minuto de duración a partir de las indicaciones de texto que aporte el usuario.
AsÃ, tal y como detalla la compañÃa en su web y comparte a través de una publicación en X (antigua Twitter), Sora permite la creación de videos con escenas "altamente detalladas", asà como con un movimiento de cámara "complejo" y la integración de múltiples personajes que, incluso, muestran emociones.
Para la creación de estos videos, los usuarios tan solo deberán escribir una serie de indicaciones detallando qué caracterÃsticas tiene que incluir la escena, como los personajes y las acciones que llevarán a cabo, el entorno, el clima, y los movimientos de cámara que se deban recrear.
Por ejemplo, uno de los videos de muestra que ha compartido OpenAI tiene las siguientes indicaciones: primer plano del parpadeo del ojo de una mujer de 24 años, de pie en Marrakech durante el atardecer, pelÃcula cinematográfica rodada en 70mm, profundidad de campo, colores vivos, cinematográfico.
En concreto, la compañÃa dirigida por Sam Altman subrayó que el modelo puede llevar a cabo escenas tan precisas porque no solo comprende lo que el usuario solicita en sus indicaciones de texto, sino que también es capaz de comprender cómo existen esas cosas en el mundo fÃsico.
Siguiendo esta lÃnea, se ha de tener en cuenta su amplio conocimiento del lenguaje, lo que permite que Sora interprete todas las indicaciones de texto con "precisión", por ejemplo, creando personajes realistas que expresan "emociones vibrantes".
Incluso, Sora es capaz de generar un video a partir de una imagen fija existente, animando el contenido de la imagen con precisión y sin perder detalle. De la misma forma, también permite alargar la duración de un vÃdeo existente o completar algunos fotogramas.
En cuanto a su funcionamiento, Sora genera un vÃdeo a partir de otros videos que, según OpenAI, parecen "ruido estático". De esta manera, el modelo lo transforma gradualmente eliminando el ruido en muchos pasos, hasta llegar a la visualización de las imágenes realistas.
Asimismo, al igual que los modelos GPT, utiliza una "arquitectura de transformador" con la que, según la compañÃa, se desbloquea un rendimiento de escalado superior. Concretamente, las imágenes del vÃdeo se representan como "colecciones de unidades de datos más pequeñas", a las que se refiere como parches. AsÃ, cada parche es el equivalente a un token en GPT.
Por el momento, el uso del nuevo modelo solo está disponible para los miembros del equipo rojo de OpenAI, el equipo dedicado a la investigación del servicio, de cara a ponerlo a prueba y comprobar qué fallos presenta y cuáles son sus posibles riesgos.
Igualmente, Sora también es probado por un grupo de artistas visuales, diseñadores y cineastas, de cara a conocer las posibles mejoras del modelo y hacer que sea lo más útil posible para los profesionales creativos, según ha explicado la compañÃa.
De hecho, tal y como comparte OpenAI, el modelo todavÃa presenta algunas dificultades para representar cuestiones relacionadas con el espacio, la fÃsica o las acciones de causa y efecto. Por ejemplo, si se detalla que en el vÃdeo debe aparecer una persona mordiendo una galleta, es posible que la galleta aparezca posteriormente en otra escena sin el mordisco.
De la misma forma, también pueden surgir errores como que el modelo mezcle la izquierda con la derecha, o que no sea capaz de seguir una trayectoria de cámara especÃfica.
Medidas de seguridad frente a contenido engañoso o dañino
Con todo ello, OpenAI subrayó que están tomando varias medidas de seguridad que implementarán en Sora antes de que el modelo esté disponible de forma general para más usuarios. Para ello, trabaja junto al equipo rojo, que también dispone de expertos en áreas de desinformación, contenido que incita al odio y perjuicios.
Por otra parte, la compañÃa de Altman desarrolla herramientas para detectar contenido engañoso. Se trata de una serie de funciones que permitirán clasificar los videos generados por Sora, para identificarlos frente a otro tipo de videos o videos reales. Una de estas funciones es la implementación de metadatos de C2PA, un estándar que verifica el origen del contenido y la información relacionada.
Además de todo ello, actualmente también utilizan los métodos de seguridad que ya utilizan otros productos de la tecnológica impulsados por DALL·E 3 que, según ha dicho, también son aplicables a Sora.
Estos métodos de seguridad verifican y rechazan las solicitudes de ingreso de texto que infrinjan las polÃticas de uso, como es el caso de cuestiones relacionadas con violencia extrema, contenido sexual, imágenes de odio o imágenes personales. Igualmente, también disponen de clasificadores de imágenes que revisan los fotogramas de cada vÃdeo para garantizar que se cumplan las polÃticas de la compañÃa, antes de mostrarlo al usuario.