Los fundadores de Reworkd se hicieron virales en GitHub el año pasado con AgentGPT, una herramienta gratuita para crear agentes de inteligencia artificial que atrajo a más de 100,000 usuarios diarios en una semana. Esto les aseguró un lugar en la cohorte de verano de 2023 de Y Combinator. Sin embargo, los cofundadores pronto se dieron cuenta de que construir agentes de IA generales era demasiado amplio. Ahora, Reworkd es una empresa de web scraping que crea agentes de IA para extraer datos estructurados de la web pública.
AgentGPT ofrecía una interfaz simple en un navegador donde los usuarios podían crear agentes de IA autónomos. Rápidamente, todos hablaban de cómo los agentes eran el futuro de la computación. Cuando la herramienta despegó, Asim Shrestha, Adam Watkins y Srijan Subedi aún vivían en Canadá y Reworkd no existía. La gran afluencia de usuarios los tomó por sorpresa; Subedi, ahora COO de Reworkd, dijo que la herramienta les costaba $2,000 diarios en llamadas a la API. Por esa razón, tuvieron que crear Reworkd y obtener financiamiento rápidamente.
Uno de los usos más populares de AgentGPT era crear web scrapers, una tarea relativamente simple pero de gran volumen, por lo que Reworkd hizo de esto su enfoque principal. Los web scrapers se han vuelto invaluables en la era de la IA. Según el último informe de Bright Data, la razón número uno por la que las organizaciones usan datos públicos de la web en 2024 es para construir modelos de IA. El problema es que los web scrapers tradicionalmente son construidos por humanos y deben personalizarse para páginas web específicas, lo que los hace costosos. Pero los agentes de IA de Reworkd pueden raspar más de la web con menos intervención humana.
Los clientes pueden proporcionar a Reworkd una lista de cientos o incluso miles de sitios web para raspar y especificar los tipos de datos que les interesan. Luego, los agentes de IA de Reworkd utilizan generación de código multimodal para convertir esto en datos estructurados. Los agentes generan código único para raspar cada sitio web y extraer esos datos para que los clientes los usen como deseen. Por ejemplo, si quieres estadísticas de cada jugador de la NFL, pero cada sitio web de equipo tiene un diseño diferente, en lugar de construir un scraper para cada sitio, los agentes de Reworkd lo hacen por ti con solo enlaces y una descripción de los datos que deseas extraer. Con 32 equipos, esto podría ahorrarte horas, pero si hubiera 1000 equipos, podría ahorrarte semanas.
Reworkd recaudó recientemente $2.75 millones en financiamiento inicial de Paul Graham, AI Grant (la aceleradora de startups de Nat Friedman y Daniel Gross), SV Angel, General Catalyst y Panache Ventures, entre otros, según informó la startup exclusivamente a TechCrunch. Combinado con una inversión pre-semilla de $1.25 millones el año pasado de Panache Ventures y Y Combinator, esto eleva el total de fondos recaudados por Reworkd a $4 millones.
Poco después de formar Reworkd y mudarse a San Francisco, el equipo contrató a Rohan Pandey como ingeniero de investigación fundador. Actualmente vive en AGI House SF, una de las casas de hackers más populares del Área de la Bahía para la era de la IA. Un inversor describió a Pandey como un “laboratorio de investigación de una sola persona dentro de Reworkd”.
“Nos vemos como la culminación de este sueño de 30 años de la Web Semántica”, dijo Pandey en una entrevista con TechCrunch, refiriéndose a una visión del inventor de la World Wide Web, Tim Berners-Lee, en la que las computadoras pueden leer todo el internet. “Aunque algunos sitios web no tienen marcado, los LLMs pueden entender los sitios web de la misma manera que los humanos, de modo que podemos exponer básicamente cualquier sitio web como una API. Así que, en cierto sentido, Reworkd es como la capa de API universal para internet”.
Reworkd dice que puede capturar el extremo largo de las necesidades de datos de los clientes, lo que significa que sus agentes de IA son especialmente buenos para raspar miles de sitios web públicos más pequeños que los grandes competidores a menudo pasan por alto. Otros, como Bright Data, ya tienen scrapers para grandes sitios web como LinkedIn o Amazon, pero puede que no valga la pena que un humano construya un scraper para cada sitio web pequeño. Reworkd aborda esta preocupación, pero potencialmente plantea otras.
Aunque los web scrapers han existido durante décadas, han atraído controversia en la era de la IA. El raspado desenfrenado de grandes cantidades de datos ha metido en problemas legales a OpenAI y Perplexity: organizaciones de noticias y medios alegan que las empresas de IA extrajeron propiedad intelectual de detrás de un muro de pago, reproduciéndola ampliamente sin pago. Reworkd está tomando precauciones para evitar estos problemas.
“Lo vemos como una forma de mejorar la accesibilidad de la información públicamente disponible”, dijo Shrestha, cofundador y CEO de Reworkd, en una entrevista con TechCrunch. “Solo estamos permitiendo información que está públicamente disponible, no estamos pasando por muros de inicio de sesión ni nada de eso”. Para ir un paso más allá, Reworkd dice que está evitando raspar noticias por completo y siendo selectivo sobre con quién trabajan. Watkins, CTO de la empresa, dice que hay mejores herramientas para agregar contenido de noticias en otros lugares, y no es su enfoque.
Como ejemplo de su enfoque, Reworkd describió su trabajo con Axis, una empresa que ayuda a los equipos de políticas a cumplir con las regulaciones gubernamentales. Axis utiliza la IA de Reworkd para extraer datos de miles de documentos de regulación gubernamental de muchos países de la Unión Europea. Axis luego entrena y ajusta un modelo de IA basado en estos datos y lo ofrece a los clientes como un producto.
Iniciar una empresa de web scraping en estos días podría considerarse entrar en un territorio peligroso, según Aaron Fiske, socio del bufete de abogados Gunderson Dettmer, con sede en Silicon Valley. El panorama es algo fluido en este momento, y aún no se ha decidido qué tan “públicos” son realmente los datos web para los modelos de IA. Sin embargo, Fiske dice que el enfoque de Reworkd, donde los clientes deciden qué sitios web raspar, puede protegerlos de la responsabilidad legal.
“Es como si hubieran inventado la fotocopiadora, y hay un caso de uso para hacer copias que resultó ser enormemente valioso económicamente, pero también legalmente, realmente cuestionable”, dijo Fiske en una entrevista con TechCrunch. “No es que los web scrapers que sirven a las empresas de IA sean necesariamente arriesgados, pero trabajar con empresas de IA que están realmente interesadas en recolectar contenido con derechos de autor puede ser un problema”. Por eso Reworkd está siendo cuidadoso sobre con quién trabaja.
Los web scrapers han eludido gran parte de la culpa en casos potenciales de infracción de derechos de autor relacionados con la IA hasta ahora. En el caso de OpenAI, Fiske señala que The New York Times no demandó al web scraper que recopiló sus artículos, sino a la empresa que supuestamente reprodujo su trabajo. Pero incluso allí, aún no se ha decidido si lo que hizo OpenAI fue realmente una infracción de derechos de autor.
Hay más evidencia de que los web scrapers están legalmente en claro durante el auge de la IA. Un tribunal falló recientemente a favor de Bright Data después de que raspó perfiles de Facebook e Instagram a través de la web. Un ejemplo en el caso judicial fue un conjunto de datos de 615 millones de registros de datos de usuarios de Instagram, que Bright Data vende por $860,000. Meta demandó a la empresa, alegando que esto violaba sus términos de servicio. Pero un tribunal falló que estos datos son públicos y, por lo tanto, están disponibles para raspar.
Reworkd ha atraído grandes nombres como primeros inversores, desde Y Combinator y Paul Graham hasta Daniel Gross y Nat Friedman. Algunos inversores dicen que esto se debe a que la tecnología de Reworkd tiene el potencial de mejorar y abaratarse junto con nuevos modelos. La startup dice que GPT-4o de OpenAI es actualmente el mejor para su generación de código multimodal, y que gran parte de la tecnología de Reworkd no era posible hasta hace unos meses.
“Si intentas competir con la tasa de progreso tecnológico, no construyendo sobre ella, entonces creo que tendrás dificultades como fundador”, dice Viet Le de General Catalyst en una entrevista con TechCrunch. “Reworkd tiene la mentalidad de basar su solución en la tasa de progreso”.
Reworkd está creando agentes de IA que abordan una brecha particular en el mercado; las empresas necesitan más datos porque la IA está avanzando rápidamente. A medida que más empresas construyen modelos de IA personalizados específicos para su negocio, Reworkd está en posición de ganar más clientes. Afinar modelos requiere datos de calidad, estructurados y en grandes cantidades. Reworkd dice que su enfoque es “autocurativo”, lo que significa que sus web scrapers no se descompondrán debido a una actualización de la página web. La startup afirma evitar problemas de alucinación tradicionalmente asociados con los modelos de IA porque los agentes de Reworkd están generando código para raspar un sitio web. Es posible que la IA cometa un error y capture los datos incorrectos de un sitio web, pero el equipo de Reworkd creó Banana-lyzer, un marco de evaluación de código abierto, para evaluar regularmente su precisión.
Reworkd no tiene una gran nómina: el equipo es de solo cuatro personas, pero tiene que asumir costos considerables de inferencia para ejecutar sus agentes de IA. La startup espera que sus precios sean cada vez más competitivos a medida que estos costos tienden a disminuir. OpenAI acaba de lanzar GPT-4o mini, una versión más pequeña de su modelo líder en la industria con puntos de referencia competitivos. Innovaciones como estas podrían hacer que Reworkd sea más competitivo.
Paul Graham y AI Grant no respondieron a la solicitud de comentarios de TechCrunch.