¿Cuál es el punto de hablar con un bot que parece humano si no es confiable y tiene una personalidad aburrida? Esa es la pregunta que me he estado haciendo desde que comencé a probar Gemini Live, la versión de Google del Modo de Voz Avanzado de OpenAI, la semana pasada. Gemini Live busca ofrecer una experiencia de chatbot más atractiva, con voces realistas y la libertad de interrumpir al bot en cualquier momento.
Sissie Hsiao, gerente general de experiencias Gemini en Google, dijo en mayo que Gemini Live está “personalizado para ser intuitivo y tener una conversación real”. Según Hsiao, el asistente de IA debería poder resolver problemas complejos y sentirse natural y fluido al interactuar con él.
Después de pasar un tiempo considerable con Gemini Live, puedo confirmar que es más fluido y natural que los intentos anteriores de Google en interacciones de voz con IA, como Google Assistant. Sin embargo, no aborda problemas subyacentes como las alucinaciones y las inconsistencias, e introduce algunos nuevos.
Gemini Live es básicamente un motor avanzado de texto a voz basado en los últimos modelos de IA generativa de Google, Gemini 1.5 Pro y 1.5 Flash. Los modelos generan texto que el motor lee en voz alta; una transcripción de las conversaciones está disponible en la interfaz de usuario de Gemini Live en la aplicación Gemini en Android (y pronto en la aplicación de Google en iOS).
Para la voz de Gemini Live en mi Pixel 8a, elegí a Ursa, que Google describe como “de rango medio” y “comprometida”. La compañía dice que trabajó con actores profesionales para diseñar las diez voces de Gemini Live, y se nota. Ursa es un paso adelante en términos de expresividad en comparación con muchas de las voces sintéticas anteriores de Google, especialmente la voz predeterminada de Google Assistant.
Sin embargo, las voces de Gemini Live mantienen un tono desapasionado que evita caer en el valle inquietante. No estoy seguro de si eso es intencional; los usuarios tampoco pueden ajustar el tono, timbre o ritmo de las voces, lo que pone a Gemini Live en desventaja frente al Modo de Voz Avanzado. Tampoco escucharás risas, respiraciones o gritos de Gemini Live, ni vacilaciones o disfluencias.
Cuando Google presentó Gemini Live en su conferencia de desarrolladores I/O en mayo, sugirió que la función podría ser útil para preparar entrevistas de trabajo. Decidí probarlo primero para eso. Le dije a Gemini Live que estaba postulando para un puesto de periodismo tecnológico. El bot me hizo preguntas genéricas y personalizadas, y luego le pedí comentarios. El chatbot fue muy elogioso, lo que me pareció sospechoso.
Intenté engañar a Gemini Live insinuando que solo había dado respuestas de una palabra, y el bot cayó en la trampa. Este tipo de comportamiento, donde el modelo de IA confía en información incorrecta, es común y dificulta confiar en él.
Gemini Live recuerda muchas cosas de conversaciones anteriores en la misma sesión, pero cuando se trata de consultas sobre personas, lugares y cosas, sus tendencias alucinatorias a menudo se manifiestan. Por ejemplo, le pedí sugerencias de actividades económicas en Nueva York y recomendó lugares que ya no existen o que no eran adecuados.
También intenté que Gemini Live sugiriera un juego, pero el bot cometió errores básicos. Además, cuando le pedí opiniones controvertidas, el bot ofreció declaraciones provocativas pero luego se retractó.
Gemini Live puede ser exasperantemente inespecífico y sus respuestas, aunque correctas en su mayoría, son demasiado largas y genéricas. Además, el bot no responde a ciertos temas, como figuras políticas.
Interrumpir a Gemini Live es incómodo, ya que el bot sigue hablando mientras detecta que alguien podría estar hablando. También tuve problemas técnicos al usarlo, como cortes de voz y dificultades para que el bot reconociera mis respuestas.
Gemini Live no admite muchas de las integraciones que tiene el chatbot basado en texto de Google, lo que limita su utilidad. En resumen, después de varios días usándolo, no estoy seguro de para qué sirve exactamente Gemini Live, especialmente considerando que es exclusivo del Plan Premium de Google One AI de $20 al mes.
Quizás la verdadera utilidad vendrá cuando Live pueda interpretar imágenes y video en tiempo real, algo que Google dice que llegará en una actualización a finales de este año. Pero esta versión se siente como un prototipo, y en este momento, el chatbot basado en texto de Gemini es más útil.