Un equipo de la plataforma de desarrollo de inteligencia artificial Hugging Face ha lanzado lo que ellos consideran los modelos de IA más pequeños capaces de analizar imágenes, videos cortos y texto. Estos modelos, llamados SmolVLM-256M y SmolVLM-500M, están diseñados para funcionar bien en dispositivos limitados, como laptops con menos de 1 GB de RAM. Según el equipo, son ideales para desarrolladores que necesitan procesar grandes cantidades de datos de manera económica.
SmolVLM-256M tiene 256 millones de parámetros, mientras que SmolVLM-500M cuenta con 500 millones. Los parámetros son una medida de las habilidades de resolución de problemas de un modelo, como su rendimiento en pruebas matemáticas. Ambos modelos pueden realizar tareas como describir imágenes o clips de video y responder preguntas sobre documentos PDF y sus elementos, incluyendo texto escaneado y gráficos.
Para entrenar estos modelos, el equipo de Hugging Face utilizó “The Cauldron”, una colección de 50 conjuntos de datos de imágenes y texto de alta calidad, y “Docmatix”, un conjunto de escaneos de archivos emparejados con descripciones detalladas. Ambos fueron creados por el equipo M4 de Hugging Face, que se especializa en tecnologías de IA multimodal.
El equipo afirma que SmolVLM-256M y SmolVLM-500M superan a un modelo mucho más grande, Idefics 80B, en pruebas como AI2D, que evalúa la capacidad de los modelos para analizar diagramas científicos de nivel escolar. Estos modelos están disponibles en la web y se pueden descargar desde Hugging Face bajo una licencia Apache 2.0, lo que significa que se pueden usar sin restricciones.
Aunque los modelos pequeños como SmolVLM-256M y SmolVLM-500M son económicos y versátiles, también pueden tener fallas que no son tan evidentes en modelos más grandes. Un estudio reciente de Google DeepMind, Microsoft Research y el instituto de investigación Mila en Quebec encontró que muchos modelos pequeños rinden peor de lo esperado en tareas de razonamiento complejo. Los investigadores sugirieron que esto podría deberse a que los modelos más pequeños reconocen patrones superficiales en los datos, pero tienen dificultades para aplicar ese conocimiento en nuevos contextos.