Alexis Conneau ha estado pensando mucho en la película “Her”. Durante los últimos años, se ha obsesionado con convertir la tecnología de voz ficticia de la película, llamada Samantha, en una realidad. Conneau incluso utiliza una imagen del personaje de Joaquin Phoenix en la película como su banner en Twitter.
Con el Modo de Voz Avanzado de ChatGPT, un proyecto que Conneau inició en OpenAI después de trabajar en algo similar en Meta, ha logrado algo similar. Este sistema de inteligencia artificial procesa el habla de manera nativa y responde como lo haría un humano. Ahora, tiene una nueva startup llamada WaveForms AI, que busca construir algo aún mejor. En una entrevista, Conneau compartió que pasa mucho tiempo pensando en cómo evitar la distopía que se muestra en la película. “Her” es una película de ciencia ficción sobre un mundo donde las personas desarrollan relaciones íntimas con sistemas de IA, en lugar de con otros humanos. “La película es una distopía, ¿verdad? No es un futuro que queremos”, dijo Conneau. “Queremos llevar esa tecnología –que ahora existe y existirá– para el bien. Queremos hacer precisamente lo opuesto a lo que hace la empresa en esa película”.
Construir la tecnología sin la distopía que la acompaña parece una contradicción. Sin embargo, Conneau tiene la intención de hacerlo de todos modos y está convencido de que su nueva startup de IA ayudará a las personas a “sentir la AGI” con sus oídos. El lunes, Conneau lanzó WaveForms AI, una nueva empresa de modelos de lenguaje de audio que está entrenando sus propios modelos base. Su objetivo es lanzar productos de audio de IA en 2025 que compitan con los de OpenAI y Google. La startup recaudó 40 millones de dólares en financiamiento inicial, liderado por Andreessen Horowitz.
Conneau menciona que Marc Andreessen, quien anteriormente escribió que la IA debería ser parte de todos los aspectos de la vida humana, ha mostrado un interés personal en su proyecto. Es importante señalar que la obsesión de Conneau con la película “Her” pudo haber metido a OpenAI en problemas en un momento. Scarlett Johansson envió una amenaza legal a la startup de Sam Altman a principios de este año, lo que obligó a OpenAI a eliminar una de las voces de ChatGPT que se parecía mucho a su personaje en la película. OpenAI negó haber intentado replicar su voz. Pero es innegable cuánto ha influido la película en Conneau.
“Her” era claramente ciencia ficción cuando se estrenó en 2013, en un momento en que Siri de Apple era bastante nueva y limitada. Pero hoy, la tecnología parece estar al alcance. Las plataformas de compañía de IA como Character.AI alcanzan millones de usuarios semanalmente que solo quieren hablar con sus chatbots. Este sector está emergiendo como un caso de uso popular para la IA generativa, a pesar de algunos resultados trágicos y perturbadores. Se puede imaginar cómo alguien que escribe con un chatbot todo el día desearía tener la oportunidad de hablar con él, especialmente utilizando una tecnología tan convincente como el Modo de Voz Avanzado de ChatGPT.
El CEO de WaveForms AI es cauteloso con el espacio de la compañía de IA, y no es el núcleo de su nueva empresa. Aunque cree que las personas usarán los productos de WaveForms de nuevas maneras, como hablar con una IA durante 20 minutos en el auto para aprender sobre algo, Conneau dice que quiere que la empresa sea más “horizontal”. “[WaveForms AI] puede ser ese maestro que inspira, tal vez ese maestro que no tendrías en tu vida, al menos en tu vida física”, dijo el CEO. En el futuro, cree que hablar con IA generativa será una forma más común de interactuar con todo tipo de tecnología. Eso podría incluir hablar con tu auto, hablar con tu computadora, y WaveForms tiene como objetivo proporcionar la IA “emocionalmente inteligente” que facilite todo esto.
“No creo en un futuro donde la interacción humano-IA reemplace la interacción humano-humano”, dijo Conneau. “Si acaso, será complementaria”. Afirma que la IA puede aprender de los errores de las redes sociales. Por ejemplo, piensa que la IA no debería optimizarse por “el tiempo pasado en la plataforma”, una métrica común de éxito para las aplicaciones sociales que pueden promover hábitos poco saludables, como el “doomscrolling”. Más ampliamente, quiere asegurarse de que la IA de WaveForms esté alineada con los mejores intereses de los humanos, llamando a esto “el trabajo más importante que podrías hacer”.
Conneau dice que el nombre de OpenAI para su proyecto, “Modo de Voz Avanzado”, no hace justicia a cuán diferente es la tecnología del modo de voz regular de ChatGPT. El antiguo modo de voz simplemente traducía tu voz en texto, lo procesaba a través de GPT-4 y luego convertía ese texto de nuevo en voz. Era una solución algo improvisada. Sin embargo, con el Modo de Voz Avanzado, Conneau dice que GPT-4o está descomponiendo el audio de tu voz en tokens (aparentemente, cada segundo de audio equivale a aproximadamente tres tokens) y ejecutando esos tokens directamente a través de un modelo transformador específico de audio. Eso, explicó, es lo que permite que el Modo de Voz Avanzado tenga una latencia tan baja.
Una afirmación que se menciona mucho al hablar de modelos de audio de IA es que supuestamente pueden “entender emociones”. Al igual que los LLM basados en texto se basan en patrones encontrados en montones de documentos de texto, los LLM de audio hacen lo mismo con clips de audio de humanos hablando. Los humanos etiquetan estos clips como “tristes” o “emocionados” para que los modelos de IA reconozcan patrones de voz similares cuando te escuchan decirlo, e incluso respondan con entonaciones emocionales propias. Así que no es tanto que “entiendan emociones”, sino que reconocen sistemáticamente cualidades de audio que los humanos asocian con esas emociones.
Conneau está apostando a que la IA generativa de hoy no necesita ser significativamente más inteligente que GPT-4o para crear mejores productos. En lugar de mejorar la inteligencia subyacente de estos modelos, como lo hace OpenAI con o1, WaveForms simplemente está tratando de hacer que la IA sea mejor para conversar. “Habrá un mercado de personas [usando IA generativa] que simplemente elegirán la interacción que sea más placentera para ellos”, dijo Conneau. Por eso, la startup está segura de que puede desarrollar sus propios modelos fundamentales, idealmente más pequeños que serán menos costosos y más rápidos de ejecutar. No es una mala apuesta dado que la evidencia reciente sugiere que las antiguas leyes de escalado de IA están desacelerándose.
Conneau dice que su ex compañero de trabajo en OpenAI, Ilya Sutskever, a menudo hablaba con él sobre tratar de “sentir la AGI”, esencialmente usando una corazonada para evaluar si hemos alcanzado una IA superinteligente. El CEO de WaveForms está convencido de que lograr la AGI será más una sensación, en lugar de alcanzar algún tipo de referencia, y los LLM de audio serán clave para esa sensación. “Creo que podrás sentir la AGI mucho más cuando puedas hablar con ella, cuando puedas escuchar la AGI, cuando realmente puedas hablar con el transformador mismo”, dijo Conneau, repitiendo comentarios que hizo a Sutskever durante una cena.
Pero a medida que las startups mejoran la IA para hablar, también tienen la responsabilidad de asegurarse de que las personas no se vuelvan adictas. Aunque Martin Casado, socio general de Andreessen Horowitz, quien ayudó a liderar la inversión en WaveForms, dice que no es necesariamente algo malo si las personas hablan más a menudo con la IA. “Puedo hablar con una persona al azar en internet, y esa persona puede acosarme, esa persona puede aprovecharse de mí… Puedo hablar con un videojuego que podría ser arbitrariamente violento, o podría hablar con una IA”, dijo Casado en una entrevista. “Creo que es una pregunta importante de estudiar. No me sorprendería si resulta que [hablar con IA] es en realidad preferible”.
Algunas empresas pueden considerar que desarrollar una relación amorosa con tu IA es un indicador de éxito. Pero desde un punto de vista social, también podría verse como un indicador de fracaso total, tal como intentó representar la película “Her”. Ese es el delicado equilibrio que WaveForms ahora tiene que mantener.