Los abogados de los demandantes en una demanda por derechos de autor contra Meta afirman que el CEO de Meta, Mark Zuckerberg, autorizó al equipo detrás de los modelos de inteligencia artificial Llama a usar un conjunto de datos de libros electrónicos y artículos pirateados para su entrenamiento. Este caso, Kadrey contra Meta, es uno de muchos en contra de grandes empresas tecnológicas que están desarrollando inteligencia artificial y que acusan a estas compañías de entrenar sus modelos con obras protegidas por derechos de autor sin permiso.
La mayoría de los demandados, como Meta, sostienen que están protegidos por el concepto de “uso justo”, una doctrina legal en EE. UU. que permite el uso de obras con derechos de autor para crear algo nuevo, siempre que sea suficientemente transformador. Sin embargo, muchos creadores rechazan este argumento.
En documentos recientemente desclasificados presentados en el Tribunal de Distrito de EE. UU. para el Distrito Norte de California, los demandantes en Kadrey contra Meta, que incluyen a autores de bestsellers como Sarah Silverman y Ta-Nehisi Coates, relatan el testimonio de Meta de finales del año pasado, donde se reveló que Zuckerberg aprobó el uso de un conjunto de datos llamado LibGen para el entrenamiento relacionado con Llama. LibGen, que se describe a sí mismo como un “agregador de enlaces”, proporciona acceso a obras con derechos de autor de editoriales como Cengage Learning, Macmillan Learning, McGraw Hill y Pearson Education. LibGen ha sido demandado varias veces, obligado a cerrar y multado con decenas de millones de dólares por infracción de derechos de autor.
Según el testimonio de Meta, transmitido por los abogados de los demandantes, Zuckerberg autorizó el uso de LibGen para entrenar al menos uno de los modelos Llama de Meta, a pesar de las preocupaciones dentro del equipo ejecutivo de IA de Meta y otros en la empresa. El documento cita a empleados de Meta refiriéndose a LibGen como un “conjunto de datos que sabemos que es pirateado” y señalando que su uso “puede socavar la posición de negociación de Meta con los reguladores”.
El documento también menciona un memorando dirigido a los tomadores de decisiones de Meta AI que indica que después de “una escalada a MZ”, el equipo de IA de Meta “[fue] aprobado para usar LibGen”. (MZ es una abreviatura obvia de “Mark Zuckerberg”). Los detalles parecen coincidir con un informe del New York Times de abril pasado, que sugirió que Meta tomó atajos para reunir datos para su IA. En un momento, Meta estaba contratando a trabajadores en África para resumir libros y considerando comprar la editorial Simon & Schuster, según el Times. Sin embargo, los ejecutivos de la empresa determinaron que llevaría demasiado tiempo negociar licencias y razonaron que el uso justo era una defensa sólida.
La presentación del miércoles contiene nuevas acusaciones, como que Meta podría haber intentado ocultar su supuesta infracción al eliminar la atribución de los datos de LibGen. Según los abogados de los demandantes, el ingeniero de Meta Nikolay Bashlykov, que trabaja en el equipo de investigación de Llama, escribió un script para eliminar información de derechos de autor, incluyendo la palabra “copyright” y “reconocimientos”, de los libros electrónicos en LibGen. Por separado, Meta supuestamente eliminó marcadores de derechos de autor de artículos de revistas científicas y “metadatos de origen” en los datos de entrenamiento que utilizó para Llama.
“Este descubrimiento sugiere que Meta elimina [la información de derechos de autor] no solo para fines de entrenamiento”, dice el documento, “sino también para ocultar su infracción de derechos de autor, porque eliminar obras protegidas por derechos de autor… impide que Llama produzca información de derechos de autor que podría alertar a los usuarios de Llama y al público sobre la infracción de Meta”.
Según la última presentación, Meta también reveló durante los interrogatorios que utilizó torrents de LibGen, una acción que hizo que algunos ingenieros de investigación de Meta se detuvieran a pensar. Torrentear, una forma de distribuir archivos a través de la web, requiere que los que torrentan “seeden”, o suban, los archivos que están tratando de obtener. Los abogados de los demandantes alegan que Meta efectivamente participó en otra forma de infracción de derechos de autor al torrentear LibGen y, por lo tanto, ayudar a difundir su contenido. Meta también intentó ocultar sus actividades, según los abogados, minimizando la cantidad de archivos que subió. Según el documento, el jefe de IA generativa de Meta, Ahmad Ah-Dahle, “despejó el camino” para torrentear LibGen, ignorando las reservas de Bashlykov de que hacerlo “podría no ser legalmente correcto”.
“Si Meta hubiera comprado las obras de los demandantes en una librería o las hubiera tomado prestadas de una biblioteca y entrenado sus modelos Llama con ellas sin licencia, habría cometido infracción de derechos de autor”, escribieron los abogados de los demandantes en el documento. “La decisión de Meta de eludir métodos legales para adquirir libros y convertirse en un participante consciente en una red de torrenting ilegal… sirve como prueba de infracción de derechos de autor”.
El caso contra Meta aún no se ha decidido. Por ahora, solo se refiere a los primeros modelos Llama de Meta, no a sus lanzamientos recientes. Y el tribunal podría decidir a favor de Meta si se convence con el argumento de uso justo de la empresa. Sin embargo, las acusaciones no reflejan bien a Meta, como señaló el juez a cargo del caso, el juez Thomas Hixson, en una orden el miércoles rechazando la solicitud de Meta de redactar grandes partes de la presentación. “Está claro que la solicitud de sellado de Meta no está diseñada para proteger la divulgación de información empresarial sensible que los competidores podrían usar a su favor”, escribió Hixson. “Más bien, está diseñada para evitar publicidad negativa”. Hemos contactado a Meta para obtener comentarios y actualizaremos este artículo si recibimos respuesta.