Nvidia

Nvidia hizo 'scraping' de contenidos de YouTube y Netflix para entrenar sus modelos de IA, según 404 Media

El 'scraping' o raspado de datos, es una técnica que permite extraer información de sitios web y de contenido en internet a través de programas de 'software', para utilizarla posteriormente para otros fines. Este método se utiliza habitualmente para el 'scraping' web.

Ciencia y Tecnología

Por Portaltic / EP

martes, 6 de agosto de 2024 · 13:13

MADRID, (Portaltic/EP). - Nvidia hizo 'scraping' de contenidos ofrecidos por plataformas como YouTube y Netflix para entrenar sus modelos de Inteligencia Artificial (IA) con el objetivo de desarrollar distintos proyectos comerciales, según publicado recientemente 404 Media.

Un avance reciente de 404 Media indicó que Nvidia ha estado utilizando contenido de plataformas como YouTube y Netflix, además de otros conjuntos de datos para entrenar sus modelos de IA y usarlos posteriormente en proyectos comerciales; unas acciones que habría llevado a cabo omitiendo las potenciales violaciones de derechos de autor en las que pueden incurrir al utilizar contenido de dichas plataformas.

Este medio, que ha tenido acceso a conversaciones de chats internos, correos electrónicos y documentos de la compañía, indicó que Nvidia se refiere a esta práctica como un proyecto interno denominado 'Cosmos', con el que pretende entrenar varios sistemas de IA. Entre ellos, el generador de mundos 3D Omiverse, sistemas de conducción autónoma de automóviles y proyectos de "humanos digitales".

Un exempleado de la tecnológica estadunidense ha dicho que Nvidia solicitó a los empleados que "rasparan" vídeos de Netflix, YouTube y otras fuentes -como la plataforma MovieNet, bibliotecas internas de secuencias de videojuegos y conjuntos de datos de vídeos de Github WebVid-, para entrenar sus modelos de IA. Esto, indicando que tenían autorización para utilizar este contenido.

Para ello, utilizaron métodos como un descargador de vídeos de YouTube de código abierto llamado 'yt-dlp', combinado con máquinas virtuales que actualizan direcciones IP para evitar ser bloqueados por la plataforma de contenidos que desarrolla Google.

Siguiendo esta línea, 404 Media también habría tenido acceso a conversaciones entre los directores del proyecto, en las que se evaluaba si utilizar 20 o 30 máquinas virtuales en Amazon Web Services para descargar el equivalente a 80 años de vídeos por día.

Así, según expresó el vicepresidente de investigación de Nvidia y líder del proyecto Cosmos, Ming-Yu Liu, en un correo electrónico en mayo, el objetivo del proyecto era construir un modelo de fundación de vídeo de última generación que tuviera los recursos informáticos necesarios para construir una fábrica de datos de vídeo que pueda producir "una experiencia visual de vida humana en datos de entrenamiento por día".

Los empleados de Nvidia manifestaron en distintas ocasiones sus dudas respecto a las cuestiones legales del proyecto Cosmos. Sin embargo, fueron desestimadas por los directores del proyecto, alegando que tenían autorización para usar ese contenido.

En este sentido, la firma ha señalado a 404 Media que respetan los derechos de todos los creadores de contenido y que confían en que sus modelos y sus esfuerzos de investigación "cumplen plenamente" con la ley de derechos de autor". Además, ha explicado que las leyes de propiedad intelectual protegen expresiones específicas pero no hechos, ideas, datos o información.

"Cualquiera es libre de aprender hechos, ideas, datos o información de otra fuente y utilizarlos para hacer sus propias expresiones. El uso justo también protege la capacidad de utilizar un trabajo para un propósito transformador, como el entrenamiento de modelos", ha sentenciado Nvidia.

Netflix, por su parte, ha dicho que que no tienen un acuerdo con Nvidia para la ingestión de contenidos y que los términos de servicio de la plataforma prohíben el ejecutar 'scraping' o raspado de datos.

YouTube también ha compartido su disconformidad con el uso del contenido de su plataforma, remitiéndose a las declaraciones que hizo el CEO de YouTube, Neal Mohan, en abril de este año. Estas hacen referencia al uso de sus vídeos por parte de OpenAI para refinar su generador de vídeo de IA Sora, cuando detalló que sería una "clara violación" de sus políticas.

Ciencia y Tecnología

Buscar

Nvidia

Nvidia hizo 'scraping' de contenidos de YouTube y Netflix para entrenar sus modelos de IA, según 404 Media

Estados Unidos revoca permisos de viaje a aficionados de Escocia días antes de la Copa del Mundo

Maestros y jubilados reciben a Sheinbaum con protestas en Xalapa

Trump come tacos con Sheinbaum y baila en México y China en su nuevo video con IA (Video)

Asesinan en Costa Chica de Guerrero a Sael Silva Cisneros, investigador de la SCJN y activista

Sindicato de trabajadores del SoFi Stadium autoriza huelga a una semana del Mundial

Alexander Zverev gana el Abierto de Francia y finalmente consigue su primer título de Grand Slam

“Misión cumplida”: Sheinbaum presenta “Olinia”, el primer auto eléctrico mexicano (Video)

Alan Riding, histórico corresponsal de The New York Times, murió a los 82 años

Irán lanza varios proyectiles sobre territorio de Israel

Alertan riesgos para especies en peligro de extinción por perforación petrolera en Golfo de México

Otras Noticias

Alertan riesgos para especies en peligro de extinción por perforación petrolera en Golfo de México

Qué ocurre en Michoacán: UNAM explica el origen de las emisiones de lodo y vapor

Despertó sin poder mover los brazos: la enfermedad que dejó cuatro meses paralizado a un joven