El sábado, Oleksandr Tomchuk, CEO de Triplegangers, se dio cuenta de que el sitio de comercio electrónico de su empresa estaba caído. Parecía ser un ataque de denegación de servicio distribuido (DDoS). Pronto descubrió que un bot de OpenAI estaba intentando extraer toda la información de su enorme sitio. “Tenemos más de 65,000 productos, cada uno con su propia página”, explicó Tomchuk. “Cada página tiene al menos tres fotos”. OpenAI estaba enviando “decenas de miles” de solicitudes al servidor para descargar todo, incluyendo cientos de miles de fotos y sus descripciones detalladas. “OpenAI utilizó 600 direcciones IP para extraer datos, y todavía estamos analizando los registros de la semana pasada, quizás sean muchas más”, comentó sobre las IP que el bot usó para intentar consumir su sitio. “Sus rastreadores estaban aplastando nuestro sitio”, añadió, “básicamente fue un ataque DDoS”.
El sitio web de Triplegangers es fundamental para su negocio. Esta empresa de siete empleados ha pasado más de una década construyendo lo que considera la base de datos más grande de “dobles digitales humanos” en la web, es decir, archivos de imágenes 3D escaneados de modelos humanos reales. Venden estos archivos 3D, así como fotos de todo tipo: manos, cabello, piel y cuerpos completos, a artistas 3D, creadores de videojuegos y cualquier persona que necesite recrear características humanas de manera digital.
El equipo de Tomchuk, con sede en Ucrania y también con licencia en EE. UU. desde Tampa, Florida, tiene una página de términos de servicio que prohíbe a los bots tomar sus imágenes sin permiso. Sin embargo, eso no fue suficiente. Los sitios web deben usar un archivo robot.txt correctamente configurado con etiquetas que digan específicamente al bot de OpenAI, GPTBot, que no acceda al sitio. (OpenAI también tiene otros bots, como ChatGPT-User y OAI-SearchBot, que tienen sus propias etiquetas, según su página de información sobre rastreadores). El archivo robot.txt, conocido como el Protocolo de Exclusión de Robots, fue creado para indicar a los motores de búsqueda qué no deben rastrear al indexar la web. OpenAI afirma en su página informativa que respeta estos archivos cuando están configurados con su propio conjunto de etiquetas de no rastrear, aunque advierte que puede tardar hasta 24 horas en reconocer un archivo robot.txt actualizado.
Como experimentó Tomchuk, si un sitio no utiliza correctamente el robot.txt, OpenAI y otros interpretan eso como una señal de que pueden extraer datos sin restricciones. No es un sistema de opt-in. Para empeorar las cosas, no solo Triplegangers fue desconectado por el bot de OpenAI durante el horario laboral en EE. UU., sino que Tomchuk espera una factura elevada de AWS debido a toda la actividad de CPU y descarga generada por el bot. Además, el robot.txt no es una solución infalible. Las empresas de IA cumplen con él de manera voluntaria. Otra startup de IA, Perplexity, fue criticada el verano pasado por una investigación de Wired cuando se sugirió que no estaba respetando este protocolo.
Para el miércoles, después de días de que el bot de OpenAI regresara, Triplegangers había configurado correctamente su archivo robot.txt y también había creado una cuenta en Cloudflare para bloquear a su GPTBot y varios otros bots que descubrió, como Barkrowler (un rastreador SEO) y Bytespider (el rastreador de TikTok). Tomchuk también espera haber bloqueado a los rastreadores de otras empresas de modelos de IA. El jueves por la mañana, el sitio no se cayó, dijo. Sin embargo, Tomchuk aún no tiene una forma razonable de averiguar exactamente qué información logró extraer OpenAI o de eliminar ese material. No ha encontrado manera de contactar a OpenAI para preguntar. OpenAI no respondió a la solicitud de comentarios de TechCrunch. Además, OpenAI ha fallado hasta ahora en entregar su prometida herramienta de exclusión, como informó recientemente TechCrunch.
Este es un problema especialmente complicado para Triplegangers. “Estamos en un negocio donde los derechos son un tema serio, porque escaneamos personas reales”, dijo. Con leyes como el GDPR de Europa, “no pueden simplemente tomar una foto de cualquier persona en la web y usarla”. El sitio de Triplegangers también es un objetivo atractivo para los rastreadores de IA. Startups valoradas en miles de millones de dólares, como Scale AI, han sido creadas donde humanos etiquetan meticulosamente imágenes para entrenar a la IA. El sitio de Triplegangers contiene fotos etiquetadas en detalle: etnicidad, edad, tatuajes frente a cicatrices, todos los tipos de cuerpo, etc.
La ironía es que la avaricia del bot de OpenAI es lo que alertó a Triplegangers sobre lo expuesto que estaba. Si hubiera raspado de manera más sutil, Tomchuk nunca se habría dado cuenta, comentó. “Es aterrador porque parece haber una laguna que estas empresas están utilizando para rastrear datos al decir ‘puedes optar por no participar si actualizas tu robot.txt con nuestras etiquetas’”, dice Tomchuk, pero eso pone la responsabilidad en el propietario del negocio para entender cómo bloquearlos. Los registros del servidor de Triplegangers mostraron cuán implacablemente un bot de OpenAI accedía al sitio, desde cientos de direcciones IP.
Él quiere que otros pequeños negocios en línea sepan que la única manera de descubrir si un bot de IA está tomando pertenencias protegidas por derechos de autor de un sitio web es buscar activamente. No está solo en ser aterrorizado por ellos. Propietarios de otros sitios web han contado recientemente a Business Insider cómo los bots de OpenAI hicieron caer sus sitios y aumentaron sus facturas de AWS. El problema creció enormemente en 2024. Una nueva investigación de la empresa de publicidad digital DoubleVerify encontró que los rastreadores y raspadores de IA causaron un aumento del 86% en el “tráfico inválido general” en 2024, es decir, tráfico que no proviene de un usuario real. Aún así, “la mayoría de los sitios no tienen idea de que han sido raspados por estos bots”, advierte Tomchuk. “Ahora tenemos que monitorear diariamente la actividad de los registros para detectar estos bots”. Si lo piensas, todo el modelo opera un poco como un chantaje de la mafia: los bots de IA tomarán lo que quieran a menos que tengas protección. “Deberían pedir permiso, no solo raspar datos”, dice Tomchuk.