En la era de la inteligencia artificial generativa, donde los chatbots pueden proporcionar respuestas detalladas a preguntas basadas en contenido extraído de internet, la línea entre el uso justo y el plagio, y entre la recolección rutinaria de datos web y la resumación poco ética, es muy delgada. Perplexity AI es una startup que combina un motor de búsqueda con un modelo de lenguaje grande que genera respuestas detalladas, en lugar de solo enlaces. A diferencia de ChatGPT de OpenAI y Claude de Anthropic, Perplexity no entrena sus propios modelos de IA fundamentales, sino que utiliza modelos abiertos o comerciales para tomar la información que recopila de internet y traducirla en respuestas.
Sin embargo, una serie de acusaciones en junio sugiere que el enfoque de la startup roza lo poco ético. Forbes acusó a Perplexity de plagiar uno de sus artículos de noticias en la función beta Perplexity Pages de la startup. Wired también acusó a Perplexity de extraer ilícitamente contenido de su sitio web y de otros sitios.
Perplexity, que en abril estaba trabajando para recaudar $250 millones con una valoración cercana a los $3 mil millones, sostiene que no ha hecho nada malo. La empresa, respaldada por Nvidia y Jeff Bezos, dice que ha respetado las solicitudes de los editores de no extraer contenido y que opera dentro de los límites de las leyes de derechos de autor de uso justo.
La situación es complicada. En su núcleo están dos conceptos. El primero es el Protocolo de Exclusión de Robots, un estándar utilizado por los sitios web para indicar que no quieren que su contenido sea accedido o utilizado por rastreadores web. El segundo es el uso justo en la ley de derechos de autor, que establece el marco legal para permitir el uso de material protegido por derechos de autor sin permiso o pago en ciertas circunstancias.
Wired afirmó que Perplexity ha ignorado el Protocolo de Exclusión de Robots para extraer subrepticiamente áreas de sitios web que los editores no quieren que los bots accedan. Wired informó que observó una máquina vinculada a Perplexity haciendo esto en su propio sitio de noticias, así como en otras publicaciones bajo su empresa matriz, Condé Nast.
Tanto los reporteros de Wired como el desarrollador Robb Knight probaron sus sospechas pidiendo a Perplexity que resumiera una serie de URL y luego observaron en el lado del servidor cómo una dirección IP asociada con Perplexity visitaba esos sitios. Perplexity luego “resumió” el texto de esas URL, aunque en el caso de un sitio web ficticio con contenido limitado que Wired creó para este propósito, devolvió el texto de la página literalmente.
Esto es donde entran en juego las sutilezas del Protocolo de Exclusión de Robots. La recolección de datos web es técnicamente cuando piezas automatizadas de software conocidas como rastreadores recorren la web para indexar y recopilar información de sitios web. Los motores de búsqueda como Google hacen esto para que las páginas web puedan incluirse en los resultados de búsqueda. Otras empresas e investigadores utilizan rastreadores para recopilar datos de internet para análisis de mercado, investigación académica y, como hemos aprendido, para entrenar modelos de aprendizaje automático.
Los recolectores de datos web que cumplen con este protocolo primero buscarán el archivo “robots.txt” en el código fuente de un sitio para ver qué está permitido y qué no. Hoy en día, lo que no está permitido suele ser la recolección de datos de un sitio de un editor para construir conjuntos de datos masivos de entrenamiento para IA. Los motores de búsqueda y las empresas de IA, incluida Perplexity, han declarado que cumplen con el protocolo, pero no están legalmente obligados a hacerlo.
El jefe de negocios de Perplexity, Dmitry Shevelenko, dijo a TechCrunch que resumir una URL no es lo mismo que rastrear. “Rastrear es cuando simplemente estás recorriendo y absorbiendo información y agregándola a tu índice”, dijo Shevelenko. Señaló que la IP de Perplexity podría aparecer como visitante de un sitio web que está “de otro modo prohibido por robots.txt” solo cuando un usuario pone una URL en su consulta, lo cual “no cumple con la definición de rastreo”.
“Simplemente estamos respondiendo a una solicitud directa y específica del usuario para ir a esa URL”, dijo Shevelenko. En otras palabras, si un usuario proporciona manualmente una URL a una IA, Perplexity dice que su IA no está actuando como un rastreador web, sino como una herramienta para ayudar al usuario a recuperar y procesar la información que solicitó.
Pero para Wired y muchos otros editores, esa es una distinción sin diferencia porque visitar una URL y extraer la información de ella para resumir el texto se parece mucho a la recolección de datos si se hace miles de veces al día. Wired también informó que Amazon Web Services, uno de los proveedores de servicios en la nube de Perplexity, está investigando a la startup por ignorar el protocolo robots.txt para extraer páginas web que los usuarios citaron en su solicitud. AWS dijo a TechCrunch que el informe de Wired es inexacto y que le dijo al medio que estaba procesando su consulta de medios como lo hace con cualquier otro informe que alega abuso del servicio.
Forbes también acusó a Perplexity de plagiar su exclusiva sobre el ex CEO de Google, Eric Schmidt, desarrollando drones de combate impulsados por IA. Wired y Forbes también han acusado a Perplexity de plagio. Irónicamente, Wired dice que Perplexity plagió el mismo artículo que llamó a la startup por extraer subrepticiamente su contenido web.
Los reporteros de Wired dijeron que el chatbot de Perplexity “produjo un texto de seis párrafos y 287 palabras que resumía de cerca las conclusiones del artículo y las pruebas utilizadas para llegar a ellas”. Una oración reproduce exactamente una oración del artículo original; Wired dice que esto constituye plagio. Las directrices del Instituto Poynter dicen que podría ser plagio si el autor (o IA) utilizó siete palabras consecutivas de la obra original.
Forbes también acusó a Perplexity de plagio. El sitio de noticias publicó un informe de investigación a principios de junio sobre cómo la nueva empresa del CEO de Google, Eric Schmidt, está reclutando intensamente y probando drones impulsados por IA con aplicaciones militares. Al día siguiente, el editor de Forbes, John Paczkowski, publicó en X diciendo que Perplexity había republicado la exclusiva como parte de su función beta, Perplexity Pages. Perplexity Pages, que solo está disponible para ciertos suscriptores de Perplexity por ahora, es una nueva herramienta que promete ayudar a los usuarios a convertir la investigación en “contenido visualmente impresionante y completo”, según Perplexity. Ejemplos de dicho contenido en el sitio provienen de los empleados de la startup e incluyen artículos como “Una guía para principiantes sobre la batería” o “Steve Jobs: CEO visionario”.
“Se apropia de la mayor parte de nuestra información”, escribió Paczkowski. “Nos cita, y a algunos que nos rebloguearon, como fuentes de la manera más fácilmente ignorada posible”.
Forbes informó que muchas de las publicaciones curadas por el equipo de Perplexity son “sorprendentemente similares a historias originales de múltiples publicaciones, incluidas Forbes, CNBC y Bloomberg”. Forbes dijo que las publicaciones obtuvieron decenas de miles de vistas y no mencionaron ninguna de las publicaciones por nombre en el texto del artículo. Más bien, los artículos de Perplexity incluían atribuciones en forma de “pequeños logotipos fáciles de pasar por alto que enlazan con ellas”. Además, Forbes dijo que la publicación sobre Schmidt contiene “una redacción casi idéntica” a la exclusiva de Forbes. La agregación también incluyó una imagen creada por el equipo de diseño de Forbes que parecía estar ligeramente modificada por Perplexity.
El CEO de Perplexity, Aravind Srinivas, respondió a Forbes en ese momento diciendo que la startup citaría las fuentes más prominentemente en el futuro, una solución que no es infalible, ya que las citas en sí mismas enfrentan dificultades técnicas. ChatGPT y otros modelos han alucinado enlaces, y dado que Perplexity utiliza modelos de OpenAI, es probable que sea susceptible a tales alucinaciones. De hecho, Wired informó que observó a Perplexity alucinando historias enteras.
Aparte de señalar los “bordes ásperos” de Perplexity, Srinivas y la empresa han defendido en gran medida el derecho de Perplexity a utilizar dicho contenido para resúmenes.
Aquí es donde entran en juego las sutilezas del uso justo. El plagio, aunque mal visto, no es técnicamente ilegal. Según la Oficina de Derechos de Autor de EE. UU., es legal utilizar porciones limitadas de una obra, incluidas citas, para propósitos como comentarios, críticas, reportajes de noticias e informes académicos. Las empresas de IA como Perplexity sostienen que proporcionar un resumen de un artículo está dentro de los límites del uso justo. “Nadie tiene el monopolio de los hechos”, dijo Shevelenko. “Una vez que los hechos están en el dominio público, son para que todos los usen”. Shevelenko comparó los resúmenes de Perplexity con cómo los periodistas a menudo utilizan información de otras fuentes de noticias para reforzar sus propios reportajes.
Mark McKenna, profesor de derecho en el Instituto de Tecnología, Derecho y Política de UCLA, dijo a TechCrunch que la situación no es fácil de desenredar. En un caso de uso justo, los tribunales sopesarían si el resumen utiliza gran parte de la expresión del artículo original, en lugar de solo las ideas. También podrían examinar si leer el resumen podría ser un sustituto de leer el artículo.
“No hay líneas claras”, dijo McKenna. “Así que [Perplexity] diciendo fácticamente lo que dice un artículo o lo que informa estaría utilizando aspectos no protegidos por derechos de autor de la obra. Eso serían solo hechos e ideas. Pero cuanto más incluya el resumen la expresión y el texto reales, más empieza a parecerse a una reproducción, en lugar de solo un resumen”.
Desafortunadamente para los editores, a menos que Perplexity esté utilizando expresiones completas (y aparentemente, en algunos casos, lo está), sus resúmenes podrían no considerarse una violación del uso justo.
Las empresas de IA como OpenAI han firmado acuerdos con una variedad de editores de noticias para acceder a su contenido actual y de archivo para entrenar sus algoritmos. A cambio, OpenAI promete mostrar artículos de noticias de esos editores en respuesta a consultas de usuarios en ChatGPT. (Pero incluso eso tiene algunos problemas que necesitan ser resueltos, como informó Nieman Lab la semana pasada). Perplexity se ha abstenido de anunciar su propia serie de acuerdos con medios, tal vez esperando que las acusaciones en su contra se disipen. Pero la empresa está “a toda velocidad” en una serie de acuerdos de reparto de ingresos publicitarios con editores.
La idea es que Perplexity comenzará a incluir anuncios junto a las respuestas a consultas, y los editores que tengan contenido citado en cualquier respuesta obtendrán una parte de los ingresos publicitarios correspondientes. Shevelenko dijo que Perplexity también está trabajando para permitir que los editores accedan a su tecnología para que puedan construir experiencias de preguntas y respuestas y potenciar cosas como preguntas relacionadas de forma nativa dentro de sus sitios y productos.
Pero, ¿es esto solo una tapadera para el robo sistemático de propiedad intelectual? Perplexity no es el único chatbot que amenaza con resumir contenido tan completamente que los lectores no ven la necesidad de hacer clic en la fuente original.
Y si los recolectores de datos de IA como este continúan tomando el trabajo de los editores y reutilizándolo para sus propios negocios, los editores tendrán más dificultades para ganar dinero con anuncios. Eso significa que eventualmente habrá menos contenido para extraer. Cuando no quede más contenido para extraer, los sistemas de IA generativa se volcarán a entrenar con datos sintéticos, lo que podría llevar a un ciclo vicioso de contenido potencialmente sesgado e inexacto.