Microsoft planea permitir a los usuarios de Teams clonar sus voces para que puedan hablar en diferentes idiomas durante las reuniones. En el evento Microsoft Ignite 2024, la compañía presentó “Interpreter in Teams”, una herramienta que ofrece interpretación “en tiempo real, de voz a voz”. A partir de principios de 2025, los usuarios de Teams podrán utilizar Interpreter para simular sus voces en hasta nueve idiomas: inglés, francés, alemán, italiano, japonés, coreano, portugués, chino mandarín y español.
Jared Spataro, CMO de Microsoft, comentó en un blog que “imaginar poder sonar como tú mismo en otro idioma” es una posibilidad emocionante. Esta herramienta proporcionará traducción de voz a voz en tiempo real durante las reuniones y permitirá simular la voz del usuario para una experiencia más personal y atractiva.
Microsoft no dio muchos detalles sobre esta función, que solo estará disponible para suscriptores de Microsoft 365. Sin embargo, aclaró que la herramienta no almacena datos biométricos, no añade sentimientos más allá de lo que está “naturalmente presente” en una voz, y puede desactivarse en la configuración de Teams. Un portavoz de Microsoft explicó que “Interpreter está diseñado para replicar el mensaje del hablante de la manera más fiel posible, sin añadir suposiciones o información adicional”. La simulación de voz solo se puede activar con el consentimiento del usuario a través de una notificación durante la reunión o habilitando “Consentimiento para simulación de voz” en la configuración.
Varias empresas han desarrollado tecnología para imitar voces de manera digital que suenan bastante naturales. Meta, por ejemplo, está probando una herramienta de traducción que puede traducir automáticamente voces en Instagram Reels, mientras que ElevenLabs ofrece una plataforma robusta para la generación de voz multilingüe. Sin embargo, las traducciones de IA suelen ser menos ricas en vocabulario que las de intérpretes humanos y a menudo tienen dificultades para transmitir coloquialismos, analogías y matices culturales. A pesar de esto, los ahorros en costos son lo suficientemente atractivos como para que algunos consideren que vale la pena el sacrificio.
Según Markets and Markets, el sector de tecnologías de procesamiento de lenguaje natural, incluidas las tecnologías de traducción, podría alcanzar un valor de 35.1 mil millones de dólares para 2026. Sin embargo, los clones de voz también plantean desafíos de seguridad. Los deepfakes se han propagado rápidamente en las redes sociales, dificultando la distinción entre la verdad y la desinformación. Este año, deepfakes que presentan a figuras como el presidente Joe Biden, Taylor Swift y la vicepresidenta Kamala Harris han acumulado millones de vistas y compartidos. Además, los deepfakes se han utilizado para atacar a individuos, como en el caso de suplantar a seres queridos. Las pérdidas relacionadas con estafas de suplantación superaron los mil millones de dólares el año pasado, según la FTC. Este año, un grupo de cibercriminales organizó una reunión en Teams con ejecutivos de una empresa que fue tan convincente que la empresa transfirió 25 millones de dólares a los delincuentes.
Debido a estos riesgos, OpenAI decidió no lanzar su tecnología de clonación de voz, Voice Engine. Hasta ahora, Interpreter in Teams parece ser una aplicación relativamente limitada de la clonación de voz. Sin embargo, esto no significa que la herramienta esté a salvo de abusos. Se puede imaginar a un actor malintencionado alimentando a Interpreter con una grabación engañosa, como alguien pidiendo información de una cuenta bancaria, para obtener una traducción en el idioma de su objetivo. Esperamos que en los próximos meses Microsoft implemente medidas de seguridad adicionales en torno a Interpreter.