Google ha presentado su nuevo modelo de inteligencia artificial llamado Gemini 2.0 Flash, diseñado para competir con las ofertas de OpenAI. Este modelo es capaz de generar imágenes y audio, además de texto. También puede utilizar aplicaciones y servicios de terceros, lo que le permite acceder a Google Search, ejecutar código y más.
A partir de hoy, se lanzará una versión experimental de 2.0 Flash a través de la API de Gemini y las plataformas de desarrollo de IA de Google, como AI Studio y Vertex AI. Sin embargo, las funciones de generación de audio e imágenes estarán disponibles solo para “socios de acceso anticipado” antes de un lanzamiento más amplio en enero.
En los próximos meses, Google planea integrar 2.0 Flash en productos como Android Studio, Chrome DevTools y Firebase, entre otros. A diferencia de su predecesor, 1.5 Flash, que solo generaba texto y no estaba diseñado para tareas exigentes, 2.0 Flash es más versátil y puede interactuar con herramientas como Search y APIs externas.
Tulsee Doshi, responsable del producto Gemini en Google, mencionó que Flash es muy popular entre los desarrolladores por su equilibrio entre velocidad y rendimiento. Según Google, 2.0 Flash es el doble de rápido que el modelo Gemini 1.5 Pro en ciertas pruebas y ha mejorado significativamente en áreas como programación y análisis de imágenes.
Este nuevo modelo también puede generar y modificar imágenes junto con texto, e incluso puede analizar fotos, videos y grabaciones de audio para responder preguntas sobre ellos. La generación de audio es otra característica clave de 2.0 Flash, que puede narrar texto utilizando una de ocho voces optimizadas para diferentes acentos e idiomas. Los usuarios pueden ajustar la velocidad de la narración o pedir que se exprese de manera divertida, como un pirata.
Es importante mencionar que Google no ha proporcionado muestras de audio o imágenes generadas por 2.0 Flash, por lo que no podemos comparar su calidad con otros modelos en este momento. Google está utilizando su tecnología SynthID para marcar todas las imágenes y audios generados por 2.0 Flash, lo que ayudará a prevenir abusos, especialmente en un contexto donde los deepfakes son una amenaza creciente.
La versión completa de 2.0 Flash se lanzará en enero, pero mientras tanto, Google ha presentado la API Multimodal Live, que permitirá a los desarrolladores crear aplicaciones con funcionalidad de transmisión de audio y video en tiempo real. Esta API soporta la integración de herramientas para realizar tareas y puede manejar patrones de conversación natural, como interrupciones, similar a la API Realtime de OpenAI. La API Multimodal Live ya está disponible desde esta mañana.