Música
Madonna es una de las primeras en aventurarse con IA generadora de video
La leyenda del pop utilizó una rama poco explorada de la inteligencia artificial generativa: la herramienta de texto a vÃdeo.Cada vez que Madonna canta el éxito de la década de 1980 "La Isla Bonita" en su gira de conciertos, imágenes en movimiento de nubes arremolinadas, teñidas de atardecer, se reproducen en pantallas gigantes detrás de ella.
Para conseguir ese aspecto etéreo, la leyenda del pop utilizó una rama poco explorada de la inteligencia artificial (IA) generativa: la herramienta de texto a vÃdeo. En la cual se escriben algunas palabras, por ejemplo, "puesta de sol sobre una nube surrealista" o "cascada en la selva al amanecer", y se hace un video instantáneo.
Siguiendo los pasos de los chats de IA y los generadores de imágenes fijas, algunos entusiastas de los videos de IA dicen que la tecnologÃa emergente podrÃa algún dÃa cambiar el entretenimiento, permitiendo, por ejemplo, crear pelÃculas con historias y finales personalizables. Pero hay un largo camino por recorrer antes de que esto se pueda lograr, y muchos escollos éticos en el camino.
Para los primeros usuarios, como Madonna, que por décadas ha empujado los lÃmites del arte, fue más bien un experimento. La artista rechazó una versión anterior de las imágenes que habÃan propuesto para "La Isla Bonita" que usaba gráficos por computadora más convencionales para evocar un ambiente tropical.
"Probamos imágenes generadas por computadora. Se veÃa bastante insÃpido y cursi y a ella no le gustó", dijo Sasha Kasiuha, directora de contenido de la gira Celebration de Madonna, que continúa hasta finales de abril. "Y luego decidimos probar la IA".
OpenAI, fabricante de ChatGPT, ya dio una idea de cómo podrÃa ser la sofisticada tecnologÃa de texto a video cuando la compañÃa mostró recientemente Sora, una nueva herramienta que aún no está disponible al público. El equipo de Madonna probó un producto diferente de la empresa de reciente creación Runway, con sede en Nueva York, unas de las pioneras en la tecnologÃa que lanzó su primer modelo público de texto a video en marzo pasado. La compañÃa presentó una versión más avanzada "Gen-2" en junio.
El director general de Runway, Cristóbal Valenzuela, dijo que si bien algunos ven estas herramientas como un "dispositivo mágico en el que escribes una palabra y de alguna manera evoca exactamente lo que tenÃas en tu cabeza", los enfoques más efectivos son de profesionales creativos que buscan una actualización del software de edición digital de décadas de antigüedad que ya están usando.
Dijo que Runway aún no puede hacer un documental de larga duración. Pero podrÃa ayudar a completar un video de fondo, o un b-roll, es decir, las tomas y escenas secundarias que ayudan a contar la historia.
"Eso te ahorra tal vez una semana de trabajo", dijo Valenzuela. "El denominador común de muchos casos es que la gente lo emplea como una forma de aumentar o acelerar algo que podrÃan haber hecho antes".
Los clientes objetivo de Runway son "grandes empresas de streaming, productoras, empresas de postproducción, empresas de efectos visuales, equipos de marketing, empresas de publicidad. Mucha gente que hace contenido para ganarse la vida", dijo Valenzuela.
Los peligros aguardan
Sin salvaguardas efectivas, los generadores de video de IA podrÃan amenazar a la democracia con imágenes "deepfake" (vÃdeos, imágenes o sonidos manipulados mediante inteligencia artificial para parecer auténticos y reales), que podrÃan convencer de algo que nunca sucedió o, como ya es el caso de los generadores de imágenes de IA, inundar Internet con escenas pornográficas falsas que representan lo que parecen ser personas reales con rostros reconocibles. Bajo la presión de los reguladores, las principales empresas tecnológicas han prometido poner una marca de agua a los resultados generados por IA para ayudar a identificar lo que es real.
También podrÃan originarse disputas de derechos de autor sobre las colecciones de videos e imágenes con las que se están entrenando los sistemas de IA (ni Runway ni OpenAI revelan sus fuentes de datos) y hasta qué punto están replicando injustamente obras registradas. Y existe el temor de que, en algún momento, las máquinas de hacer videos puedan reemplazar los trabajos humanos y el arte.
Por ahora, los videos más largos generados por IA todavÃa se miden en segundos y pueden presentar movimientos espasmódicos y fallas reveladoras, como manos y dedos distorsionados. Arreglar eso es "solo una cuestión de más datos y más entrenamiento", y el poder de la computación del que depende ese entrenamiento, dijo Alexander Waibel, profesor de ciencias de la computación en la Universidad Carnegie Mellon que ha investigado la IA desde la década de 1970.
"Ahora puedo decir: 'Hazme un video de un conejo vestido de Napoleón caminando por la ciudad de Nueva York'", dijo Waibel. "Sabe cómo es la ciudad de Nueva York, cómo es un conejo, cómo es Napoleón".
Lo cual es impresionante, dijo, pero aún está lejos de crear una historia convincente.
Antes de lanzar su modelo de primera generación el año pasado, Runway se hizo famosa por la IA como codesarrolladar del generador de imágenes Stable Diffusion. Otra empresa, Stability AI, con sede en Londres, se ha hecho cargo del desarrollo de Stable Diffusion.
La tecnologÃa subyacente del "modelo de difusión" detrás de la mayorÃa de los principales generadores de imágenes y videos de IA funciona creando un mapa del ruido, o datos aleatorios, en las imágenes, destruyendo efectivamente una imagen original y luego prediciendo cómo deberÃa verse una nueva. Toma prestada una idea de la fÃsica que se puede utilizar para describir, por ejemplo, cómo se difunde el gas hacia el exterior.
"Lo que hacen los modelos de difusión es revertir ese proceso", dijo Phillip Isola, profesor asociado de ciencias de la computación en el Instituto de TecnologÃa de Massachusetts. "Toman la aleatoriedad y la congelan de nuevo en el volumen. Esa es la forma de pasar de la aleatoriedad al contenido. Y asà es como puedes hacer videos aleatorios".
La generación de video es más complicada que las imágenes fijas porque debe tener en cuenta la dinámica temporal, o cómo los elementos dentro del video cambian con el tiempo y a través de secuencias de fotogramas, dijo Daniela Rus, otra profesora del MIT que dirige su Laboratorio de Ciencias de la Computación e Inteligencia Artificial.
Rus dijo que los recursos informáticos requeridos son "significativamente más altos que para la generación de imágenes fijas" porque "implica procesar y generar múltiples fotogramas por cada segundo de video".
Eso no impide que algunas empresas tecnológicas adineradas intenten seguir superándose entre sà a la hora de mostrar la generación de vÃdeo con IA de mayor calidad durante más tiempo. Requerir descripciones escritas para hacer una imagen fue sólo el comienzo. Google demostró recientemente un nuevo proyecto llamado Genie al que se le puede pedir que transforme una fotografÃa o incluso un boceto en "una variedad infinita" de mundos de videojuegos explorables.
A corto plazo, es probable que los videos generados por IA aparezcan en contenido educativo y de marketing, proporcionando una alternativa más barata a la producción de imágenes originales u obtención de videos de archivo, dijo Aditi Singh, investigadora de la Universidad Estatal de Cleveland que ha estudiado el mercado de texto a video.
Cuando Madonna habló por primera vez con su equipo sobre la IA, la "intención principal no era: 'Oh, mira, es un video de IA'", dijo Kasiuha, el director creativo.
"Me preguntó: '¿Puedes usar una de esas herramientas de IA para hacer que la imagen sea más nÃtida, para asegurarte de que se vea actual y de alta resolución?'". Dijo Kasiuha. "Le encanta cuando traes contigo nueva tecnologÃa y nuevos tipos de elementos visuales".
Ya se están haciendo pelÃculas más largas generadas por IA. Runway organiza un festival anual de cine de IA para mostrar este tipo de trabajos. Pero queda por ver si eso es lo que el público humano elegirá ver.
"Sigo creyendo en los humanos", dijo Waibel, el profesor de Carnegie Mellon. "Sigo creyendo que terminará siendo una simbiosis en la que alguna IA proponga algo y un humano lo mejore o lo guÃe. O los humanos lo harán y la IA lo arreglará".