Si has utilizado ChatGPT Search o Perplexity, sabes que poder buscar en la web y obtener citas directamente mejora mucho la experiencia con estos chatbots de inteligencia artificial. Los resultados son mejores cuando incluyen información actual, y la búsqueda en la web puede reducir los errores (cuando la IA genera información incorrecta). Por eso, la startup francesa Linkup está creando una API que permite a los desarrolladores acceder a contenido web de fuentes premium y confiables, y así enriquecer las respuestas de los modelos de lenguaje. Muchos desarrolladores de IA llaman a este proceso Generación Aumentada por Recuperación (RAG).
Sin embargo, el futuro de los bots de scraping es incierto. Si no hay un acuerdo financiero previo entre los editores de contenido y las entidades que extraen información de las páginas web, estos bots están utilizando contenido de la web sin pagar, lo que ha generado descontento y un aumento en la supervisión regulatoria sobre el entrenamiento de IA. Además, hay casos legales importantes en juego, como la demanda entre OpenAI, creador de ChatGPT, y el New York Times, lo que podría cambiar la situación del scraping en el futuro cercano.
Por esta razón, OpenAI ha firmado acuerdos de licencia de contenido a largo plazo con importantes editores como AP, Axel Springer, Condé Nast, El País, Financial Times, Le Monde, entre otros. Philippe Mizrahi, cofundador y CEO de Linkup, comentó que la empresa se formó cuando OpenAI estaba haciendo acuerdos con fuentes de noticias para mejorar las respuestas de sus modelos. Esto motivó a los fundadores a crear un negocio que conectara a los desarrolladores de IA con proveedores de contenido, buscando beneficios mutuos.
Actualmente, los editores de contenido enfrentan decisiones difíciles sobre cómo manejar la demanda de datos por parte de la IA. Pueden bloquear a los bots de scraping utilizando un archivo de metadatos llamado robots.txt, que indica si un sitio web puede ser utilizado para entrenar un modelo de IA. También pueden demandar a las empresas de IA que consideren que han infringido sus derechos de autor. Alternativamente, podrían permitir que los bots indexen su contenido libremente o licenciar su contenido a desarrolladores de IA para recibir compensación por su propiedad intelectual.
Sin embargo, hay miles de empresas de IA que no tienen el mismo alcance que OpenAI. Lo bueno de la web es que hay muchos editores de contenido pequeños, pero esto significa que a menudo no tienen los recursos financieros para presentar una demanda. También implica que será complicado para millones de sitios web cambiar de un modelo de scraping a uno de licencias.
Por eso, Linkup no es solo una solución técnica, sino un mercado que actúa como intermediario entre los editores de contenido y las empresas que desean enriquecer sus respuestas de LLM con contenido web. Linkup firma acuerdos de licencia de contenido con editores e integra sus sistemas de gestión de contenido (CMS) para obtener información sin necesidad de scraping. Luego, Linkup paga a sus socios de contenido según la frecuencia con la que se accede a su información.
Mizrahi explicó que están enfocándose en aplicaciones que implementan IA en sus productos. Un caso típico es cuando una empresa crea una aplicación de IA utilizando un modelo de Mistral u OpenAI y necesita enriquecer su información con datos externos. Aunque ChatGPT puede navegar por la web, los modelos GPT no pueden. OpenAI ofrece tanto una aplicación popular (ChatGPT) como LLMs que los desarrolladores pueden usar a través de una API.
Linkup decidió inicialmente concentrarse en información corporativa y empresarial. Además de sitios de noticias, la startup trabaja con bases de datos de conocimiento como Statista y Xerfi. No es la única startup que busca llevar contenido premium a los LLMs mediante contratos de licencia. Un competidor visible es ScalePost, que colabora con Perplexity para acelerar sus acuerdos de licencia con editores.
Recientemente, Linkup recaudó 3 millones de euros en una ronda de financiación inicial y actualmente cuenta con alrededor de 10 empleados, con planes de contratar a otros 10 en el próximo año.