Nvidia

Nvidia hizo 'scraping' de contenidos de YouTube y Netflix para entrenar sus modelos de IA, según 404 Media

El 'scraping' o raspado de datos, es una técnica que permite extraer información de sitios web y de contenido en internet a través de programas de 'software', para utilizarla posteriormente para otros fines. Este método se utiliza habitualmente para el 'scraping' web.
martes, 6 de agosto de 2024 · 13:13

MADRID, (Portaltic/EP). - Nvidia hizo 'scraping' de contenidos ofrecidos por plataformas como YouTube y Netflix para entrenar sus modelos de Inteligencia Artificial (IA) con el objetivo de desarrollar distintos proyectos comerciales, según publicado recientemente 404 Media.

El 'scraping' o raspado de datos, es una técnica que permite extraer información de sitios web y de contenido en internet a través de programas de 'software', para utilizarla posteriormente para otros fines. Este método se utiliza habitualmente para el 'scraping' web.

Un avance reciente de 404 Media indicó que Nvidia ha estado utilizando contenido de plataformas como YouTube y Netflix, además de otros conjuntos de datos para entrenar sus modelos de IA y usarlos posteriormente en proyectos comerciales; unas acciones que habría llevado a cabo omitiendo las potenciales violaciones de derechos de autor en las que pueden incurrir al utilizar contenido de dichas plataformas.

Este medio, que ha tenido acceso a conversaciones de chats internos, correos electrónicos y documentos de la compañía, indicó que Nvidia se refiere a esta práctica como un proyecto interno denominado 'Cosmos', con el que pretende entrenar varios sistemas de IA. Entre ellos, el generador de mundos 3D Omiverse, sistemas de conducción autónoma de automóviles y proyectos de "humanos digitales".

Un exempleado de la tecnológica estadunidense ha dicho que Nvidia solicitó a los empleados que "rasparan" vídeos de Netflix, YouTube y otras fuentes -como la plataforma MovieNet, bibliotecas internas de secuencias de videojuegos y conjuntos de datos de vídeos de Github WebVid-, para entrenar sus modelos de IA. Esto, indicando que tenían autorización para utilizar este contenido.

Para ello, utilizaron métodos como un descargador de vídeos de YouTube de código abierto llamado 'yt-dlp', combinado con máquinas virtuales que actualizan direcciones IP para evitar ser bloqueados por la plataforma de contenidos que desarrolla Google.

Siguiendo esta línea, 404 Media también habría tenido acceso a conversaciones entre los directores del proyecto, en las que se evaluaba si utilizar 20 o 30 máquinas virtuales en Amazon Web Services para descargar el equivalente a 80 años de vídeos por día.

Así, según expresó el vicepresidente de investigación de Nvidia y líder del proyecto Cosmos, Ming-Yu Liu, en un correo electrónico en mayo, el objetivo del proyecto era construir un modelo de fundación de vídeo de última generación que tuviera los recursos informáticos necesarios para construir una fábrica de datos de vídeo que pueda producir "una experiencia visual de vida humana en datos de entrenamiento por día".

Los empleados de Nvidia manifestaron en distintas ocasiones sus dudas respecto a las cuestiones legales del proyecto Cosmos. Sin embargo, fueron desestimadas por los directores del proyecto, alegando que tenían autorización para usar ese contenido.

En este sentido, la firma ha señalado a 404 Media que respetan los derechos de todos los creadores de contenido y que confían en que sus modelos y sus esfuerzos de investigación "cumplen plenamente" con la ley de derechos de autor". Además, ha explicado que las leyes de propiedad intelectual protegen expresiones específicas pero no hechos, ideas, datos o información.

"Cualquiera es libre de aprender hechos, ideas, datos o información de otra fuente y utilizarlos para hacer sus propias expresiones. El uso justo también protege la capacidad de utilizar un trabajo para un propósito transformador, como el entrenamiento de modelos", ha sentenciado Nvidia.

Netflix, por su parte, ha dicho que que no tienen un acuerdo con Nvidia para la ingestión de contenidos y que los términos de servicio de la plataforma prohíben el ejecutar 'scraping' o raspado de datos.

YouTube también ha compartido su disconformidad con el uso del contenido de su plataforma, remitiéndose a las declaraciones que hizo el CEO de YouTube, Neal Mohan, en abril de este año. Estas hacen referencia al uso de sus vídeos por parte de OpenAI para refinar su generador de vídeo de IA Sora, cuando detalló que sería una "clara violación" de sus políticas.

Comentarios