Google está mejorando su chatbot impulsado por inteligencia artificial, Gemini, para que pueda entender mejor el mundo que lo rodea y a las personas que conversan con él. En la conferencia de desarrolladores Google I/O 2024, la compañía presentó una nueva experiencia en Gemini llamada Gemini Live, que permite a los usuarios tener conversaciones de voz “en profundidad” con Gemini en sus smartphones. Los usuarios pueden interrumpir a Gemini mientras habla para hacer preguntas aclaratorias, y el chatbot se adaptará a sus patrones de habla en tiempo real. Además, Gemini puede ver y responder a los alrededores de los usuarios mediante fotos o videos capturados por las cámaras de sus smartphones.
Sissie Hsiao, gerente general de experiencias Gemini en Google, explicó que “con Live, Gemini puede entenderte mejor”. Está diseñado para ser intuitivo y mantener una conversación real con el modelo de IA subyacente. Gemini Live es una evolución de Google Lens y Google Assistant, combinando técnicas avanzadas de IA generativa para ofrecer un análisis de imágenes superior y un motor de voz mejorado para diálogos más consistentes y realistas.
Oriol Vinyals, científico principal en DeepMind, la división de investigación de IA de Google, mencionó que Live es una interfaz de voz en tiempo real con capacidades multimodales extremadamente poderosas y un contexto largo. Este avance proviene en parte del Proyecto Astra, una nueva iniciativa dentro de DeepMind para crear aplicaciones y agentes impulsados por IA para la comprensión multimodal en tiempo real.
Gemini Live, que se lanzará a finales de este año, puede responder preguntas sobre objetos dentro del campo de visión de la cámara del smartphone, como el nombre de una parte de una bicicleta rota. También puede explicar el código de programación o recordar dónde vio por última vez un par de gafas.
Además, Live está diseñado para actuar como un entrenador virtual, ayudando a los usuarios a prepararse para eventos, generar ideas y más. Puede sugerir habilidades para destacar en una entrevista de trabajo o dar consejos sobre hablar en público. Hsiao afirmó que Gemini Live puede proporcionar información de manera más concisa y conversacional que la interacción solo por texto.
La capacidad de “recordar” de Gemini Live es posible gracias a la arquitectura del modelo Gemini 1.5 Pro, que puede procesar una gran cantidad de datos antes de generar una respuesta. Este modelo puede analizar hasta una hora de video, lo que permite interacciones prolongadas y detalladas.
Gemini Live no será gratuito y estará disponible exclusivamente para los suscriptores del plan Google One AI Premium, que cuesta $20 al mes. Google también está mejorando otras funciones de Gemini, permitiendo a los usuarios de Gemini Advanced analizar, resumir y responder preguntas sobre documentos largos y videos.
En los próximos meses, Gemini Advanced ofrecerá una nueva experiencia de planificación de viajes, creando itinerarios personalizados basados en preferencias de vuelo, comidas y atracciones locales. También permitirá a los usuarios crear Gems, chatbots personalizados impulsados por los modelos de Gemini, que pueden integrarse con servicios de Google como Calendar, Tasks, Keep y YouTube Music para realizar diversas tareas.
Aunque la IA generativa puede cometer errores, si Gemini y Gemini Advanced funcionan como se describe, podrían ser grandes ahorradores de tiempo.