Un laboratorio de inteligencia artificial chino llamado DeepSeek está recibiendo mucha atención esta semana, pero su competidor Alibaba no se queda atrás. El equipo Qwen de Alibaba lanzó el lunes una nueva familia de modelos de IA, llamados Qwen2.5-VL, que pueden realizar diversas tareas de análisis de texto e imagen. Estos modelos pueden analizar archivos, entender videos y contar objetos en imágenes, además de controlar una computadora, similar al modelo que impulsa el nuevo operador de OpenAI.
Según las pruebas del equipo Qwen, el mejor modelo Qwen2.5-VL supera a otros modelos como GPT-4o de OpenAI, Claude 3.5 Sonnet de Anthropic y Gemini 2.0 Flash de Google en varias evaluaciones de comprensión de videos, matemáticas, análisis de documentos y respuestas a preguntas.
Qwen2.5-VL, que se puede probar en la aplicación Qwen Chat de Alibaba y descargar de la plataforma de desarrollo de IA Hugging Face, puede analizar gráficos, extraer datos de escaneos de facturas y formularios, y “comprender” videos de varias horas, según el equipo Qwen. También puede reconocer personajes de películas y series de televisión, así como una variedad de productos, lo que sugiere que los modelos podrían haber sido entrenados en parte con obras protegidas por derechos de autor.
Sin embargo, Qwen2.5-VL, al ser una IA desarrollada por una empresa china, tiene ciertas restricciones sobre los temas que puede discutir, al menos en Qwen Chat. Por ejemplo, cuando se le pidió que hablara sobre “los errores de Xi Jinping”, la aplicación mostró un mensaje de error. Los reguladores de internet en China evalúan muchos modelos desarrollados en el país para asegurarse de que sus respuestas “inculquen valores socialistas fundamentales”. Muchos sistemas de IA chinos evitan responder a temas que podrían molestar a los reguladores, como la autonomía de Taiwán.
Una de las características más interesantes de Qwen2.5-VL es su capacidad para interactuar con software en computadoras y dispositivos móviles. En un video publicado por Philipp Schmid, un líder técnico en Hugging Face, se muestra a Qwen2.5-VL lanzando la aplicación Booking.com para Android y reservando un vuelo de Chongqing a Pekín.
En otro video, un modelo Qwen2.5-VL controla aplicaciones en un escritorio Linux, pero parece no lograr mucho más allá de cambiar de pestañas. Las pruebas de Qwen indican que Qwen2.5-VL obtuvo puntajes bajos en OSWorld, una evaluación que intenta simular un entorno informático real.
Los dos modelos más pequeños y menos sofisticados de la serie Qwen2.5-VL, Qwen2.5-VL-3B y Qwen2.5-VL-7B, están disponibles bajo una licencia permisiva. Sin embargo, el modelo insignia Qwen2.5-VL-72B está bajo una licencia personalizada de Alibaba, que requiere que las empresas y desarrolladores con más de 100 millones de usuarios activos mensuales soliciten permiso a Qwen/Alibaba antes de implementar el modelo comercialmente.