Cohere, una startup de inteligencia artificial, ha lanzado esta semana un modelo de IA multimodal llamado Aya Vision, que promete ser uno de los mejores en su clase. Este modelo puede realizar diversas tareas, como escribir descripciones de imágenes, responder preguntas sobre fotos, traducir texto y generar resúmenes en 23 idiomas principales. Además, Cohere ha decidido ofrecer Aya Vision de forma gratuita a través de WhatsApp, destacando que esto es un gran paso para hacer avances técnicos accesibles a investigadores de todo el mundo.
Cohere menciona que, aunque la IA ha avanzado mucho, todavía existe una gran diferencia en el rendimiento de los modelos en diferentes idiomas, especialmente en tareas que combinan texto e imágenes. Aya Vision está diseñado para ayudar a cerrar esta brecha.
Existen dos versiones de Aya Vision: Aya Vision 32B y Aya Vision 8B. La versión más avanzada, Aya Vision 32B, establece un “nuevo estándar”, superando a modelos de tamaño mayor, como el Llama-3.2 de Meta, en ciertas pruebas de comprensión visual. Por otro lado, Aya Vision 8B también muestra un buen rendimiento en evaluaciones, superando a modelos que son diez veces más grandes.
Ambos modelos están disponibles en la plataforma de desarrollo de IA Hugging Face bajo una licencia Creative Commons 4.0, aunque no se pueden usar para aplicaciones comerciales. Cohere ha entrenado Aya Vision utilizando un “conjunto diverso” de datos en inglés, que luego tradujo y utilizó para crear anotaciones sintéticas. Estas anotaciones ayudan a los modelos a entender y procesar datos durante el entrenamiento.
El uso de anotaciones sintéticas, generadas por IA, está en auge. A pesar de sus posibles desventajas, competidores como OpenAI también están utilizando datos sintéticos para entrenar modelos, ya que la disponibilidad de datos del mundo real se está reduciendo. Según la firma de investigación Gartner, el 60% de los datos utilizados en proyectos de IA y análisis el año pasado fueron creados sintéticamente. Cohere afirma que entrenar Aya Vision con estas anotaciones sintéticas les permitió utilizar menos recursos y lograr un rendimiento competitivo.
Además de Aya Vision, Cohere ha lanzado un nuevo conjunto de pruebas llamado AyaVisionBench, diseñado para evaluar las habilidades de los modelos en tareas de “visión-lenguaje”, como identificar diferencias entre dos imágenes y convertir capturas de pantalla en código. La industria de la IA enfrenta lo que algunos llaman una “crisis de evaluación”, debido a la popularidad de pruebas que no reflejan adecuadamente la competencia en las tareas que más importan a los usuarios de IA. Cohere asegura que AyaVisionBench es un paso hacia la solución de este problema, proporcionando un marco amplio y desafiante para evaluar la comprensión multimodal y multilingüe de los modelos.
Los investigadores de Cohere han hecho disponible este conjunto de evaluación para la comunidad de investigación, con la esperanza de avanzar en las evaluaciones multimodales y multilingües.