La startup francesa Gladia, que ofrece una interfaz de programación de aplicaciones (API) para el reconocimiento de voz, ha recaudado 16 millones de dólares en una ronda de financiamiento Serie A. La API de Gladia permite convertir cualquier archivo de audio en texto con alta precisión y un tiempo de respuesta rápido. Aunque Amazon, Microsoft y Google también ofrecen APIs de conversión de voz a texto, su rendimiento no es tan bueno como el de modelos más nuevos de startups especializadas.
En los últimos años, ha habido un gran avance en este campo, especialmente tras el lanzamiento de Whisper por OpenAI. Gladia compite con empresas bien financiadas como AssemblyAI, Deepgram y Speechmatics. Originalmente, Gladia ofrecía una versión ajustada del modelo de conversión de voz a texto de Whisper, mejorando aspectos necesarios. Por ejemplo, la startup permite la diarización, es decir, puede detectar múltiples hablantes en una conversación y separar la grabación y el texto transcrito según quién está hablando. Gladia admite 100 idiomas y una amplia variedad de acentos, y ha demostrado ser efectiva en nuestras pruebas de transcripción de entrevistas.
La startup ofrece su modelo de conversión de voz a texto como una API alojada que los usuarios pueden utilizar en sus propias aplicaciones y servicios. Más de 600 empresas utilizan Gladia, incluyendo grabadoras de reuniones y asistentes de toma de notas como Attention, Circleback, Method Financial, Recall, Sana y Veed.io. Este uso es interesante porque muchas empresas deben encadenar llamadas a la API, primero convirtiendo el habla en texto y luego alimentando ese texto a un modelo de lenguaje grande (LLM) como GPT-4 o Claude 3.5 Sonnet para extraer información.
Con el nuevo financiamiento, Gladia busca simplificar este proceso integrando inteligencia de audio y tareas basadas en LLM en una sola llamada a la API. Por ejemplo, un cliente podría obtener un resumen de una conversación generado a partir de algunos puntos clave sin depender de una API de LLM de terceros. Otro problema que Gladia quiere resolver es la latencia. Algunos sistemas de conversación en tiempo real con agentes de llamadas basados en IA necesitan transcribir casi en tiempo real para sonar lo más humano posible.
“Nos dimos cuenta de que la calidad en tiempo real no era buena en el mercado en general. La gente hacía procesamiento en tiempo real y luego tomaba el audio y lo procesaba en lotes. Nos preguntamos: ‘¿Por qué hacen esto?’ Nos dijeron: ‘La calidad no es buena en el procesamiento en tiempo real, así que lo transcribimos en lotes después’”, comentó Jean-Louis Quéguiner, cofundador y CEO. Gladia ha decidido abordar este problema y actualmente puede transcribir una conversación en vivo con una latencia de menos de 300 milisegundos. La empresa afirma que el procesamiento en tiempo real ahora es casi tan bueno como la API de transcripción por lotes.
Además, se puede imaginar un centro de llamadas utilizando estas capacidades en tiempo real para ayudar a los agentes a encontrar información relevante durante una llamada. “Nuestra API única es compatible con todas las tecnologías y protocolos existentes, incluyendo SIP, VoIP, FreeSwitch y Asterisk”, dijo Jonathan Soto, cofundador y CTO.
XAnge lidera la ronda de financiamiento Serie A, con la participación de Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures y Soma Capital. Gladia cree que estamos al borde de un “momento ChatGPT” para aplicaciones de audio. La tecnología GPT ha existido durante años, pero ChatGPT popularizó los LLM con su interfaz de chat para consumidores. A medida que Apple o Google comiencen a incluir modelos de transcripción en iOS o Android, los consumidores comenzarán a entender el valor de la transcripción automática en las aplicaciones que utilizan. Los desarrolladores probablemente integrarán características de audio en sus productos, y ahí es donde entrarán proveedores de API como Gladia.