"El uso de datos de entrenamiento de IA sin consentimiento plantea preocupaciones éticas y legales para las empresas tecnológicas"

July 20, 2024 / Pablo

“El uso de datos de entrenamiento de IA sin consentimiento plantea preocupaciones éticas y legales para las empresas tecnológicas”

Esta semana, nos enteramos de que grandes corporaciones tecnológicas como Apple, Nvidia y Anthropic supuestamente utilizan información como los subtítulos y transcripciones de videos de YouTube para entrenar sus modelos de inteligencia artificial (IA). Algunos creadores de estos videos reaccionaron con decepción y frustración al saber que su contenido se usó de esta manera, y es comprensible. Aunque aceptaron los términos de servicio de YouTube, que pueden incluir el acuerdo implícito de que su contenido podría ser utilizado de esta forma, invirtieron mucho trabajo en sus videos, y ahora se usa y posiblemente se vende sin que los creadores originales reciban compensación o crédito.

Desafortunadamente, no creo que este sea un incidente aislado. Más bien, parece ser una demostración de una regla no escrita de las empresas tecnológicas que están desarrollando modelos de IA. Un supervisor en Amazon supuestamente le dijo a una ex-empleada que ignorara posibles problemas relacionados con derechos de autor porque “todos lo están haciendo”.

Una mirada más crítica a los datos de entrenamiento

Irónicamente, hace unos meses elogié a Apple por parecer que estaba construyendo una IA teniendo en cuenta consideraciones éticas en el desarrollo de su software de IA. Me impresionó especialmente que Apple tomara este enfoque, considerando cómo los modelos de IA rivales, especialmente los grandes modelos de lenguaje (LLM), se entrenan utilizando material de personas que pueden no haber consentido en que su trabajo se use de esa manera.

En resumen, un aspecto importante del desarrollo de los LLM es introducir grandes cantidades de información (llamada datos de entrenamiento) de la que “aprenden” y mejoran para producir respuestas coherentes y convincentes similares a las humanas. Para obtener respuestas de mejor calidad, los desarrolladores de LLM introducen materiales escritos como libros, contenido de sitios web y publicaciones en redes sociales, muchos de los cuales están protegidos por derechos de autor.

En mi artículo sobre el enfoque ético de Apple, detallé las demandas presentadas por el New York Times y varios autores prominentes contra empresas como Microsoft, OpenAI, Meta y Alphabet (empresa matriz de Google) por posible infracción de derechos de autor. Los críticos de esta práctica dicen que podría considerarse una infracción de derechos de autor si estas empresas tecnológicas no han obtenido el consentimiento explícito de los respectivos titulares de derechos de autor o sus representantes legales.

Sin embargo, estas preocupaciones no desaniman a los líderes de la industria en productos de IA para consumidores, como OpenAI (la empresa detrás de ChatGPT). Un portavoz de la compañía escribió lo siguiente sobre el tema como parte de la evidencia presentada al comité de comunicaciones y digital de la Cámara de los Lores del Reino Unido, según informó el Telegraph:

“Dado que los derechos de autor cubren prácticamente todo tipo de expresión humana, sería imposible entrenar los modelos de IA líderes de hoy sin usar materiales protegidos por derechos de autor.”

El portavoz de OpenAI afirmó que la compañía cumple con todas las leyes de derechos de autor al usar material protegido en el entrenamiento de sus modelos de IA y que cree “que legalmente la ley de derechos de autor no prohíbe el entrenamiento.”

El informe sobre el uso de material de videos de YouTube proviene de Wired y Proof News, quienes alegan que usar este material sin el permiso de los creadores viola las reglas de YouTube. Este material es parte de un conjunto de datos llamado The Pile, construido por EleutherAI, un laboratorio de investigación sin fines de lucro que afirma querer reducir las barreras al desarrollo de IA.

Apple ha aclarado que utilizó datos de The Pile para entrenar sus modelos de investigación, incluido OpenELM, con el objetivo de aprender sobre LLM y no para entrenar Apple Intelligence (la IA desarrollada específicamente para su uso en productos Apple). Esto significa que si se rompieron las reglas de YouTube, fue EleutherAI quien las rompió y enfrentaría cualquier litigio relacionado. No sé si esto absuelve totalmente a las empresas tecnológicas que usan los datos extraídos de YouTube, pero demuestra lo complejas que pueden volverse rápidamente las ramificaciones éticas y legales de esta práctica.

A medida que la IA evoluciona rápidamente, ¿evolucionarán también la ética y las leyes?

“Si no estás pagando por ello, no eres el cliente; eres el producto que se vende.” Este sentimiento ha existido desde la década de 1970, pero la versión anterior fue dejada como un comentario sobre un artículo que discutía el sitio web de agregación de noticias, Digg, en 2010 y se ha repetido (o al menos parafraseado) a menudo al hablar de muchos productos digitales e internet desde entonces. En el hilo de Reddit sobre el artículo escrito por Wired y Proof, este es un sentimiento común.

No digo que esté de acuerdo con ello, y personalmente, me inclino del lado de las personas que sienten que es una infracción de derechos de autor, pero a las empresas (no solo a las tecnológicas) les encanta la nueva tecnología, lo que significa que pueden pagar menos por la mano de obra humana mientras continúan aumentando la producción y los ingresos. Además, muchos gobiernos y organismos reguladores suelen ser lentos en la adopción de nuevas regulaciones y marcos legales en los que puedan existir las tecnologías emergentes.

Podemos sentirnos tan negativamente al respecto como queramos, pero no creo que eso detenga a las empresas tecnológicas de continuar con esta práctica. Francamente, creo que esperan que sus productos se vuelvan tan arraigados en nuestras vidas que, incluso si las consideraciones éticas o legales los alcanzan, querremos seguir usándolos de todos modos.

Sé que sueno cínico, y tampoco tengo una bola de cristal funcional. Tal vez el sentimiento cambie; tal vez la tecnología de IA traiga tanto bien al mundo que supere los aspectos negativos. Tal vez, tal vez, tal vez… Tendremos que seguir observando cómo evoluciona la IA. Lo que puedo decir con cierta confianza es que la presencia de la IA se volverá cada vez más significativa en nuestras vidas, y probablemente habrá consecuencias no intencionadas, tanto positivas como negativas. Debido a esto, llegará un momento en que realmente tendremos que entender y abordar estas consecuencias de manera reflexiva y proactiva, pero no creo que hayamos llegado a ese punto todavía.

Pablo

"Strava se prepara para el futuro con nuevo CEO y estrategias de IA para impulsar su comunidad de 100 millones de usuarios"

"SoftBank adquiere Graphcore por $500 millones, fortaleciendo su posición en la carrera de la inteligencia artificial"

Categorías

Now Reading: “El uso de datos de entrenamiento de IA sin consentimiento plantea preocupaciones éticas y legales para las empresas tecnológicas”