Los modelos de inteligencia artificial (IA) necesitan muchos datos útiles para funcionar bien. Sin embargo, algunos de los desarrolladores de IA más grandes están usando videos de YouTube transcritos sin permiso de los creadores, lo cual viola las reglas de YouTube. Esto fue descubierto en una investigación por Proof News y Wired.
Las dos publicaciones revelaron que Apple, Nvidia, Anthropic y otras grandes empresas de IA han entrenado sus modelos con un conjunto de datos llamado YouTube Subtitles, que incluye transcripciones de casi 175,000 videos de 48,000 canales, todo sin que los creadores de los videos lo supieran.
El conjunto de datos YouTube Subtitles contiene el texto de los subtítulos de los videos, a menudo con traducciones a varios idiomas. Fue creado por EleutherAI, que describió su objetivo como reducir las barreras para el desarrollo de IA para aquellos fuera de las grandes empresas tecnológicas. Este conjunto de datos es solo una parte de un conjunto de datos mucho más grande llamado the Pile. Además de las transcripciones de YouTube, the Pile incluye artículos de Wikipedia, discursos del Parlamento Europeo e incluso correos electrónicos de Enron.
Sin embargo, the Pile tiene muchos seguidores entre las grandes empresas tecnológicas. Por ejemplo, Apple utilizó the Pile para entrenar su modelo de IA OpenELM, mientras que el modelo de IA de Salesforce lanzado hace dos años también se entrenó con the Pile y ha sido descargado más de 86,000 veces.
El conjunto de datos YouTube Subtitles abarca una variedad de canales populares de noticias, educación y entretenimiento. Esto incluye contenido de grandes estrellas de YouTube como MrBeast y Marques Brownlee. Todos ellos han visto sus videos utilizados para entrenar modelos de IA. Proof News creó una herramienta de búsqueda que permite ver si algún video o canal específico está en la colección. Incluso hay algunos videos de TechRadar en la colección.
El conjunto de datos YouTube Subtitles parece contradecir los términos de servicio de YouTube, que prohíben explícitamente la extracción automatizada de sus videos y datos asociados. Sin embargo, el conjunto de datos se basó en un script que descargaba subtítulos a través de la API de YouTube. La investigación informó que la descarga automatizada recopiló los videos con casi 500 términos de búsqueda.
El descubrimiento provocó mucha sorpresa y enojo entre los creadores de YouTube entrevistados por Proof y Wired. Las preocupaciones sobre el uso no autorizado de contenido son válidas, y algunos creadores estaban molestos por la idea de que su trabajo se utilizara sin pago o permiso en modelos de IA. Esto es especialmente cierto para aquellos que descubrieron que el conjunto de datos incluye transcripciones de videos eliminados y, en un caso, datos de un creador que ha eliminado toda su presencia en línea.
El informe no incluyó comentarios de EleutherAI. Sin embargo, señaló que la organización describe su misión como democratizar el acceso a tecnologías de IA al liberar modelos entrenados. Esto puede entrar en conflicto con los intereses de los creadores de contenido y las plataformas, si este conjunto de datos es un ejemplo. Las batallas legales y regulatorias sobre la IA ya eran complejas. Este tipo de revelación probablemente hará que el panorama ético y legal del desarrollo de IA sea más complicado. Es fácil sugerir un equilibrio entre la innovación y la responsabilidad ética para la IA, pero lograrlo será mucho más difícil.