Nvidia
Nvidia hizo 'scraping' de contenidos de YouTube y Netflix para entrenar sus modelos de IA, según 404 Media
El 'scraping' o raspado de datos, es una técnica que permite extraer información de sitios web y de contenido en internet a través de programas de 'software', para utilizarla posteriormente para otros fines. Este método se utiliza habitualmente para el 'scraping' web.MADRID, (Portaltic/EP). - Nvidia hizo 'scraping' de contenidos ofrecidos por plataformas como YouTube y Netflix para entrenar sus modelos de Inteligencia Artificial (IA) con el objetivo de desarrollar distintos proyectos comerciales, según publicado recientemente 404 Media.
El 'scraping' o raspado de datos, es una técnica que permite extraer información de sitios web y de contenido en internet a través de programas de 'software', para utilizarla posteriormente para otros fines. Este método se utiliza habitualmente para el 'scraping' web.
Un avance reciente de 404 Media indicó que Nvidia ha estado utilizando contenido de plataformas como YouTube y Netflix, además de otros conjuntos de datos para entrenar sus modelos de IA y usarlos posteriormente en proyectos comerciales; unas acciones que habrÃa llevado a cabo omitiendo las potenciales violaciones de derechos de autor en las que pueden incurrir al utilizar contenido de dichas plataformas.
Este medio, que ha tenido acceso a conversaciones de chats internos, correos electrónicos y documentos de la compañÃa, indicó que Nvidia se refiere a esta práctica como un proyecto interno denominado 'Cosmos', con el que pretende entrenar varios sistemas de IA. Entre ellos, el generador de mundos 3D Omiverse, sistemas de conducción autónoma de automóviles y proyectos de "humanos digitales".
Un exempleado de la tecnológica estadunidense ha dicho que Nvidia solicitó a los empleados que "rasparan" vÃdeos de Netflix, YouTube y otras fuentes -como la plataforma MovieNet, bibliotecas internas de secuencias de videojuegos y conjuntos de datos de vÃdeos de Github WebVid-, para entrenar sus modelos de IA. Esto, indicando que tenÃan autorización para utilizar este contenido.
Para ello, utilizaron métodos como un descargador de vÃdeos de YouTube de código abierto llamado 'yt-dlp', combinado con máquinas virtuales que actualizan direcciones IP para evitar ser bloqueados por la plataforma de contenidos que desarrolla Google.
Siguiendo esta lÃnea, 404 Media también habrÃa tenido acceso a conversaciones entre los directores del proyecto, en las que se evaluaba si utilizar 20 o 30 máquinas virtuales en Amazon Web Services para descargar el equivalente a 80 años de vÃdeos por dÃa.
AsÃ, según expresó el vicepresidente de investigación de Nvidia y lÃder del proyecto Cosmos, Ming-Yu Liu, en un correo electrónico en mayo, el objetivo del proyecto era construir un modelo de fundación de vÃdeo de última generación que tuviera los recursos informáticos necesarios para construir una fábrica de datos de vÃdeo que pueda producir "una experiencia visual de vida humana en datos de entrenamiento por dÃa".
Los empleados de Nvidia manifestaron en distintas ocasiones sus dudas respecto a las cuestiones legales del proyecto Cosmos. Sin embargo, fueron desestimadas por los directores del proyecto, alegando que tenÃan autorización para usar ese contenido.
En este sentido, la firma ha señalado a 404 Media que respetan los derechos de todos los creadores de contenido y que confÃan en que sus modelos y sus esfuerzos de investigación "cumplen plenamente" con la ley de derechos de autor". Además, ha explicado que las leyes de propiedad intelectual protegen expresiones especÃficas pero no hechos, ideas, datos o información.
"Cualquiera es libre de aprender hechos, ideas, datos o información de otra fuente y utilizarlos para hacer sus propias expresiones. El uso justo también protege la capacidad de utilizar un trabajo para un propósito transformador, como el entrenamiento de modelos", ha sentenciado Nvidia.
Netflix, por su parte, ha dicho que que no tienen un acuerdo con Nvidia para la ingestión de contenidos y que los términos de servicio de la plataforma prohÃben el ejecutar 'scraping' o raspado de datos.
YouTube también ha compartido su disconformidad con el uso del contenido de su plataforma, remitiéndose a las declaraciones que hizo el CEO de YouTube, Neal Mohan, en abril de este año. Estas hacen referencia al uso de sus vÃdeos por parte de OpenAI para refinar su generador de vÃdeo de IA Sora, cuando detalló que serÃa una "clara violación" de sus polÃticas.