La inteligencia artificial (IA) y los modelos de lenguaje grande (LLMs) que la impulsan tienen muchas aplicaciones útiles, pero a pesar de su potencial, no son muy confiables. Nadie sabe cuándo se resolverá este problema, por lo que es lógico que surjan startups que buscan ayudar a las empresas a asegurarse de que las aplicaciones basadas en LLM que están pagando funcionen como se espera.
La startup Composo, con sede en Londres, se siente en ventaja para abordar este desafío gracias a sus modelos personalizados que ayudan a las empresas a evaluar la precisión y calidad de las aplicaciones impulsadas por LLM. Composo se asemeja a otras empresas como Agenta, Freeplay, Humanloop y LangSmith, que también ofrecen alternativas más sólidas a las pruebas humanas y herramientas de observación existentes. Sin embargo, Composo se distingue porque ofrece una opción sin código y una API, lo que amplía su mercado potencial: no es necesario ser desarrollador para usarla, y expertos en el tema y ejecutivos pueden evaluar las aplicaciones de IA por sí mismos.
En la práctica, Composo combina un modelo de recompensas entrenado en los resultados que una persona preferiría ver de una aplicación de IA con un conjunto definido de criterios específicos para esa aplicación, creando un sistema que evalúa los resultados de la aplicación en función de esos criterios. Por ejemplo, un chatbot de triaje médico puede tener pautas personalizadas para detectar síntomas de alerta, y Composo puede puntuar cuán consistentemente lo hace.
Recientemente, la empresa lanzó una API pública para Composo Align, un modelo para evaluar aplicaciones LLM según cualquier criterio. La estrategia parece estar funcionando, ya que cuenta con clientes como Accenture, Palantir y McKinsey, y recientemente recaudó 2 millones de dólares en financiamiento inicial. Aunque esta cantidad no es inusual para una startup en el clima actual de inversión, es notable porque en el mundo de la IA, la financiación para estas empresas es abundante.
Según el cofundador y CEO de Composo, Sebastian Fox, el número relativamente bajo de fondos se debe a que el enfoque de la startup no es particularmente intensivo en capital. “En los próximos tres años, al menos, no prevemos recaudar cientos de millones porque hay muchas personas construyendo modelos base de manera muy efectiva, y ese no es nuestro valor único”, dijo Fox, exconsultor de McKinsey. “En cambio, cada mañana, si me despierto y veo una noticia de que OpenAI ha hecho un gran avance en sus modelos, eso es bueno para mi negocio”.
Con el nuevo capital, Composo planea expandir su equipo de ingeniería, adquirir más clientes y fortalecer sus esfuerzos de investigación y desarrollo. “El enfoque de este año es mucho más sobre escalar la tecnología que ahora tenemos en esas empresas”, agregó Fox.
El fondo británico de pre-seed Twin Path Ventures lideró la ronda de financiamiento, que también contó con la participación de JVH Ventures y EWOR, este último había respaldado a la startup a través de su programa de aceleración. “Composo está abordando un cuello de botella crítico en la adopción de la IA empresarial”, dijo un portavoz de Twin Path. Este cuello de botella es un gran problema para el movimiento general de la IA, especialmente en el segmento empresarial, según Fox. “La gente ha superado la emoción y ahora se pregunta: ‘Bueno, ¿realmente esto cambia algo en mi negocio en su forma actual? Porque no es lo suficientemente confiable ni consistente. Y aunque lo sea, no puedes demostrarme cuánto’”.
Este cuello de botella podría hacer que Composo sea más valioso para las empresas que desean implementar IA pero que podrían enfrentar riesgos reputacionales al hacerlo. Fox menciona que por eso su empresa eligió ser agnóstica en la industria, pero aún resonar en los espacios de cumplimiento, legal, salud y seguridad. En cuanto a su ventaja competitiva, Fox siente que la investigación y desarrollo necesarios para llegar aquí no son triviales. “Hay tanto la arquitectura del modelo como los datos que hemos utilizado para entrenarlo”, explicó, señalando que Composo Align fue entrenado con un “gran conjunto de datos de evaluaciones de expertos”.
Aún queda la pregunta de qué podrían hacer los gigantes tecnológicos si decidieran invertir en este problema, pero Composo cree que tiene una ventaja de primer movimiento. “Lo otro es los datos que acumulamos con el tiempo”, dijo Fox, refiriéndose a cómo Composo ha construido preferencias de evaluación. Al evaluar aplicaciones según un conjunto flexible de criterios, Composo también se ve a sí misma como mejor preparada para el auge de la IA agente en comparación con competidores que utilizan un enfoque más restringido. “En mi opinión, definitivamente no estamos en la etapa en que los agentes funcionen bien, y eso es precisamente lo que estamos tratando de ayudar a resolver”, concluyó Fox.