Google está mejorando su aplicación de búsqueda visual, Lens, para responder preguntas sobre tu entorno casi en tiempo real. Los usuarios de Android e iOS que hablan inglés y tienen instalada la aplicación de Google ahora pueden grabar un video a través de Lens y hacer preguntas sobre objetos que les interesen en el video. Lou Wang, director de gestión de productos de Lens, explicó que esta función utiliza un modelo personalizado de Gemini para entender el video y las preguntas relevantes. Gemini es la familia de modelos de inteligencia artificial de Google y alimenta varios productos de la empresa.
Por ejemplo, si quieres saber más sobre un pez interesante, Lens te ofrecerá un resumen que explica por qué nada en círculo, junto con más recursos e información útil. Para acceder a esta nueva función de análisis de video de Lens, debes inscribirte en el programa Search Labs de Google y optar por las funciones experimentales “AI Overviews and more” en Labs. En la aplicación de Google, manteniendo presionado el botón de captura de tu smartphone, se activa el modo de captura de video de Lens. Puedes hacer una pregunta mientras grabas, y Lens te proporcionará una respuesta a través de AI Overviews, que resume información de la web.
Según Wang, Lens utiliza inteligencia artificial para determinar qué fotogramas de un video son más “interesantes” y relevantes para la pregunta que se hace, y usa estos fotogramas para “anclar” la respuesta de AI Overviews. Wang comentó que esto surge de observar cómo las personas están utilizando Lens actualmente. “Si reduces la barrera para hacer estas preguntas y ayudas a las personas a satisfacer su curiosidad, naturalmente comenzarán a usarlo”, agregó.
El lanzamiento de la función de video para Lens llega después de que Meta presentara una característica similar el mes pasado para sus gafas de realidad aumentada, Ray-Ban Meta. Meta planea incorporar capacidades de video en tiempo real a las gafas, permitiendo a los usuarios hacer preguntas sobre su entorno. OpenAI también ha mencionado una función que permitirá a su herramienta Advanced Voice Mode entender videos. Eventualmente, esta herramienta podrá analizar videos en tiempo real y tener en cuenta el contexto al responder.
Google parece haber adelantado a ambas compañías, aunque Lens funciona de manera asincrónica (no puedes interactuar en tiempo real) y se espera que la función de video funcione como se ha anunciado. No se mostró una demostración en vivo durante la conferencia de prensa, y Google tiene un historial de prometer más de lo que su inteligencia artificial puede cumplir.
Además del análisis de video, Lens ahora también puede buscar imágenes y texto al mismo tiempo. Los usuarios de habla inglesa, incluso aquellos que no están inscritos en Labs, pueden abrir la aplicación de Google, mantener presionado el botón de captura para tomar una foto y luego hacer una pregunta en voz alta.
Finalmente, Lens está incorporando nuevas funcionalidades específicas para comercio electrónico. A partir de hoy, cuando Lens en Android o iOS reconozca un producto, mostrará información sobre él, incluyendo precio, ofertas, marca, reseñas y disponibilidad. La identificación de productos funciona con fotos subidas y recién tomadas (pero no con videos) y está limitada a ciertos países y categorías de compras, como electrónica, juguetes y belleza, por ahora.
Wang explicó: “Si ves una mochila y te gusta, puedes usar Lens para identificar ese producto y ver instantáneamente los detalles que te interesan”. También hay un componente publicitario en esto. La página de resultados para productos identificados por Lens mostrará anuncios de compras “relevantes” con opciones y precios, según Google. ¿Por qué incluir anuncios en Lens? Porque aproximadamente 4 mil millones de búsquedas en Lens cada mes están relacionadas con compras, lo que representa una oportunidad demasiado lucrativa para que un gigante tecnológico como Google la ignore.