No esperaba que Google Glass hiciera un pequeño regreso en el Google I/O 2024, pero lo hizo gracias al Proyecto Astra. Este es el nombre que Google ha dado a un nuevo prototipo de agentes de inteligencia artificial, basado en la IA multimodal Gemini, que puede interpretar entradas de video y voz, y reaccionar inteligentemente a lo que una persona está viendo y responder preguntas sobre ello.
Descrito como una “IA universal” que puede ser “realmente útil en la vida cotidiana”, el Proyecto Astra está diseñado para ser proactivo, enseñable y capaz de entender el lenguaje natural. En un video, Google demostró esto con una persona usando lo que parecía ser un Pixel 8 Pro con la IA Astra en funcionamiento. Al apuntar la cámara del teléfono a una habitación, la persona pudo pedirle a Astra que le avisara cuando viera algo que hiciera sonido, a lo que la IA señaló un altavoz visible en el visor de la cámara. Desde allí, la persona pudo preguntar qué era una cierta parte del altavoz, y la IA respondió que esa parte era un tweeter y manejaba las frecuencias altas.
Pero Astra hace mucho más: puede identificar código en un monitor y explicar qué hace, y puede determinar dónde se encuentra alguien en una ciudad y proporcionar una descripción de esa área. Incluso puede crear una frase aliterada con un conjunto de crayones de una manera que recuerda un poco al Dr. Seuss. También puede recordar dónde el usuario dejó un par de gafas, ya que la IA recuerda dónde las vio por última vez. Esto es posible porque la IA está diseñada para codificar los fotogramas de video de lo que ha visto, combinar ese video con entradas de voz y juntar todo en una línea de tiempo de eventos, almacenando esa información para poder recordarla rápidamente más tarde.
Luego, al cambiar a una persona que usa las gafas inteligentes Google Glass, Astra pudo ver que la persona estaba mirando un diagrama de un sistema en una pizarra y determinar dónde se podrían hacer optimizaciones cuando se le preguntó al respecto.
Estas capacidades hacen que las Google Glass parezcan realmente útiles, en lugar del dispositivo un poco inquietante y discutiblemente fallido que eran hace algunos años; tal vez veamos a Google regresar al ámbito de las gafas inteligentes después de esto.
El Proyecto Astra puede hacer todo esto gracias al uso de IA multimodal, que en términos simples es una mezcla de modelos de redes neuronales que pueden procesar datos y entradas de múltiples fuentes; piensa en mezclar información de cámaras y micrófonos con el conocimiento que la IA ya ha sido entrenada.
Google no dijo cuándo el Proyecto Astra llegará a los productos, o incluso a las manos de los desarrolladores, pero el CEO de DeepMind de Google, Demis Hassabis, dijo que “algunas de estas capacidades llegarán a productos de Google, como la aplicación Gemini, a finales de este año.” Me sorprendería mucho si eso no significa el Google Pixel 9, que esperamos que llegue a finales de este año.
Vale la pena tener en cuenta que el Proyecto Astra se mostró en un video muy pulido, y la realidad de tales agentes de IA a bordo es que pueden sufrir de latencia. Pero es una mirada prometedora a cómo Google probablemente integrará herramientas de IA realmente útiles en sus futuros productos.