DeepL se ha destacado en el mundo de la traducción de textos en línea, afirmando que su servicio es más preciso y matizado que el de competidores como Google. Esto ha llevado a la startup alemana a alcanzar una valoración de 2 mil millones de dólares y más de 100,000 clientes de pago. Ahora, con el creciente interés en los servicios de inteligencia artificial, DeepL ha añadido una nueva función a su plataforma: la traducción de audio en tiempo real.
Con DeepL Voice, los usuarios podrán escuchar a una persona hablando en un idioma y traducirlo automáticamente a otro idioma en tiempo real. Actualmente, DeepL puede “escuchar” y traducir en inglés, alemán, japonés, coreano, sueco, holandés, francés, turco, polaco, portugués, ruso, español e italiano. Además, los subtítulos traducidos están disponibles en los 33 idiomas que DeepL Translator soporta.
Sin embargo, DeepL Voice no ofrece resultados en forma de archivos de audio o video; está diseñado para conversaciones en vivo y videoconferencias, mostrando las traducciones como texto. En reuniones, los usuarios pueden configurar su teléfono para que muestre las traducciones como “espejos” en una mesa, permitiendo que ambas partes vean las palabras traducidas. En videoconferencias, las traducciones aparecen como subtítulos.
Jarek Kutylowski, fundador y CEO de DeepL, sugirió que este es solo el comienzo de los productos relacionados con voz de la compañía. La competencia también está aumentando, ya que Google ha comenzado a incorporar subtítulos traducidos en su servicio de videoconferencia Meet, y varias startups de IA están desarrollando servicios de traducción de voz.
Aún no hay un API disponible para el producto de voz, y DeepL se está enfocando en trabajar directamente con socios y clientes. Actualmente, el único servicio de videollamadas que soporta los subtítulos de DeepL es Teams, que cubre la mayoría de sus clientes. No se ha confirmado si Zoom o Google Meet integrarán DeepL Voice en el futuro.
La llegada de esta función ha sido esperada por los usuarios de DeepL, ya que ha sido la solicitud número uno desde 2017. La compañía ha tomado un enfoque cuidadoso en el desarrollo de su producto, construyendo su servicio desde cero, a diferencia de otros que modifican modelos de lenguaje de otras empresas. En julio, DeepL lanzó un nuevo modelo de lenguaje optimizado para traducciones, que, según ellos, supera a GPT-4 y otros competidores.
Una de las características únicas de DeepL Voice es su capacidad para trabajar en tiempo real, lo que es crucial, ya que muchos servicios de traducción de IA actuales tienen retrasos, lo que dificulta su uso en situaciones en vivo. Kutylowski mencionó que este enfoque en traducciones basadas en texto permite una computación más rápida, mientras que la producción de audio y video aún tiene camino por recorrer.
Además de videoconferencias, DeepL también imagina su uso en la industria de servicios, donde los trabajadores de primera línea, como en restaurantes, podrían utilizar el servicio para comunicarse más fácilmente con los clientes. Sin embargo, esto plantea preocupaciones sobre la protección de datos, ya que las voces se envían a los servidores de DeepL para ser traducidas. Kutylowski aseguró que no se retiene información y que trabajarán con sus clientes para cumplir con las regulaciones de protección de datos como el GDPR.