¿Qué tienen en común los agentes de voz de inteligencia artificial y los coches autónomos? Según Brooke Hopkins, exlíder técnico en Waymo, su rendimiento se puede evaluar de la misma manera. Coval, la nueva startup de Hopkins, busca precisamente eso. “Cuando dejé Waymo, me di cuenta de que muchos de los problemas que teníamos allí eran los mismos que enfrentaba el resto de la industria de la IA”, comentó Hopkins. “Pero todos decían que esto era un nuevo paradigma, que teníamos que crear prácticas de pruebas desde cero. Yo miré eso y pensé, hemos pasado los últimos 10 años en coches autónomos descubriendo cómo hacer esto”.
En 2024, decidió lanzar Coval, una plataforma que crea simulaciones para agentes de voz y chat de IA, evaluando su rendimiento de manera similar a como se probaban los coches autónomos en Waymo. Coval puede ejecutar miles de simulaciones al mismo tiempo, como hacer una reserva en un restaurante o responder a una pregunta de servicio al cliente de manera indirecta. La tecnología de Coval evalúa a los agentes según un conjunto general de métricas, pero las empresas pueden personalizar lo que buscan y usar Coval para seguir evaluando posibles regresiones.
Los usuarios también pueden utilizar estos datos y las ideas que obtienen para mostrárselos a sus clientes, ya sea como una demostración o como una herramienta de monitoreo para demostrar que el agente funciona como se espera. “Uno de los mayores obstáculos para que las empresas adopten estos agentes es la falta de confianza en que no es solo una demostración con trucos”, dijo Hopkins. “Elegir entre proveedores es una tarea complicada para estos ejecutivos porque es difícil saber qué preguntar o cómo probar que estos agentes están haciendo lo que se espera. Y esto les da a nuestras empresas la capacidad de demostrarlo”.
Hopkins formuló la idea detrás de Coval durante la edición de verano de 2024 de Y Combinator, antes de lanzar el producto públicamente en octubre de 2024. La demanda ha sido fuerte y ha crecido de manera explosiva en los últimos dos meses, con clientes preguntando cuán rápido pueden evaluar a sus agentes. La startup, con sede en San Francisco, ha anunciado una ronda de financiamiento inicial de 3.3 millones de dólares, liderada por MaC Venture Capital, con participación de Y Combinator y General Catalyst. Con este capital, la startup planea ampliar su equipo de ingeniería y trabajar para lograr un ajuste entre producto y mercado.
Además, Hopkins mencionó que la empresa también trabajará para permitir a sus usuarios evaluar otros tipos de agentes de IA, como los basados en la web, en el futuro. Coval aparece en un momento en que tanto el impulso como el interés por los agentes de IA están en su punto más alto. Líderes tecnológicos de empresas como Salesforce han elogiado la tecnología, afirmando que desplegarán más de mil millones de agentes de IA para el próximo año. Se rumorea que OpenAI lanzará su propia versión de un agente de IA muy pronto. También hay numerosas startups trabajando en este campo; solo en las tres cohortes de Y Combinator de 2024, más de 100 startups estaban desarrollando agentes de IA. Algunas de estas startups han conseguido rondas de financiamiento significativas. Una de ellas, /dev/agents, recaudó 55 millones de dólares en una ronda inicial con una valoración de 500 millones de dólares en noviembre de 2024, menos de un año después de su fundación. Este impulso sugiere que es probable que más empresas busquen ayuda para evaluar sus agentes. Hopkins cree que Coval tiene una buena oportunidad de destacar, ya que, a diferencia de los nuevos entrantes, Coval tiene una ventaja inicial. “Creo que donde realmente nos destacamos es que he estado trabajando en este espacio durante medio decenio y he construido estos sistemas una y otra vez”, comentó. “Hemos creado múltiples iteraciones y hemos visto cómo fallan y cómo escalan, y estamos incorporando esos aprendizajes en Coval”.