En 2016, Hammad Syed y Mahmoud Felfel, un exingeniero de WhatsApp, decidieron crear una extensión de Chrome que convierte texto a voz para artículos de Medium. Esta herramienta, que puede leer en voz alta cualquier historia de Medium, fue destacada en Product Hunt. Un año después, se convirtió en un negocio. Syed comentó que vieron una gran oportunidad en ayudar a personas y organizaciones a crear contenido de audio realista para sus aplicaciones, sin necesidad de construir su propio modelo. Así nació PlayAI (anteriormente conocido como PlayHT), que se presenta como la “interfaz de voz de la IA”. Los clientes pueden elegir entre varias voces predefinidas o clonar una voz, utilizando la API de PlayAI para integrar texto a voz en sus aplicaciones. Los usuarios pueden ajustar la entonación, el ritmo y el tono de las voces. Además, PlayAI ofrece un “parque de juegos” donde los usuarios pueden subir archivos para generar versiones leídas en voz alta y un panel para crear narraciones de audio más pulidas.
Recientemente, la empresa se adentró en el mundo de los “agentes de IA” con herramientas que pueden automatizar tareas, como responder llamadas de clientes en un negocio. Una de las innovaciones más interesantes de PlayAI es PlayNote, que transforma PDFs, videos, fotos, canciones y otros archivos en programas estilo podcast, resúmenes leídos en voz alta, debates y hasta cuentos infantiles. Al probarlo, los resultados fueron bastante buenos. La función de “podcast” de PlayNote produce clips de calidad comparable a otras herramientas similares, y su capacidad para procesar fotos y videos genera creaciones fascinantes.
Sin embargo, como todas las herramientas de IA, PlayNote puede generar resultados extraños de vez en cuando. Aunque intenta adaptar un archivo al formato elegido, no se puede esperar que un documento legal seco funcione bien como material de origen. La función de podcast de PlayNote es posible gracias al modelo más reciente de PlayAI, PlayDialog, que utiliza el “contexto e historia” de una conversación para generar un discurso que fluye naturalmente.
PlayAI ha enfrentado críticas por su enfoque relajado hacia la seguridad. Su herramienta de clonación de voz requiere que los usuarios confirmen que tienen los derechos necesarios para clonar una voz, pero no hay un mecanismo de control efectivo. Durante mis pruebas, pude clonar la voz de Kamala Harris sin problemas, lo que es preocupante debido al potencial de estafas y deepfakes. Aunque PlayAI afirma que detecta y bloquea automáticamente contenido ofensivo, no fue el caso en mi experiencia.
Syed asegura que PlayAI tiene salvaguardias éticas y que responden a los informes de voces clonadas sin consentimiento, bloqueando a los usuarios responsables. Sin embargo, la empresa no revela de dónde obtiene los datos para entrenar sus modelos, lo que ha generado inquietudes sobre el uso de datos con derechos de autor. A pesar de la competencia de otras empresas y el creciente escrutinio legal, PlayAI ha logrado atraer inversores, cerrando recientemente una ronda de financiación de 20 millones de dólares.
Con el aumento de la presión legal y la competencia en el mercado, PlayAI se enfrenta a desafíos significativos, pero sigue avanzando en su misión de ofrecer experiencias de voz de alta calidad.