Crédito de la imagen: Geralt / Pixabay
(Crédito de la imagen: Pixabay)
Las empresas tecnológicas están cambiando su enfoque de construir los modelos de lenguaje más grandes (LLMs) a desarrollar modelos más pequeños (SLMs) que pueden igualar o incluso superar su rendimiento. Modelos famosos como Llama 3 de Meta (400 mil millones de parámetros), GPT-3.5 de OpenAI (175 mil millones de parámetros) y GPT-4 (estimado en 1.8 billones de parámetros) son ejemplos de modelos grandes, mientras que la familia Phi-3 de Microsoft varía de 3.8 mil millones a 14 mil millones de parámetros, y Apple Intelligence tiene “solo” alrededor de 3 mil millones de parámetros.
Puede parecer un retroceso tener modelos con muchos menos parámetros, pero la atracción de los SLMs es comprensible. Consumen menos energía, pueden funcionar localmente en dispositivos como teléfonos inteligentes y laptops, y son una buena opción para pequeñas empresas y laboratorios que no pueden permitirse configuraciones de hardware costosas.
David contra Goliat
Según IEEE Spectrum, “El auge de los SLMs llega en un momento en que la brecha de rendimiento entre los LLMs se está reduciendo rápidamente, y las empresas tecnológicas buscan desviarse de las leyes de escalado estándar y explorar otras vías para mejorar el rendimiento”.
En una reciente ronda de pruebas realizadas por Microsoft, Phi-3-mini, el modelo más pequeño de la empresa con 3.8 mil millones de parámetros, rivalizó con Mixtral (8x 7 mil millones) y GPT-3.5 en algunas áreas, a pesar de ser lo suficientemente pequeño como para caber en un teléfono. Su éxito se debió al conjunto de datos utilizado para el entrenamiento, que estaba compuesto por “datos web públicamente disponibles y datos sintéticos fuertemente filtrados”.
Aunque los SLMs logran un nivel similar de comprensión y razonamiento del lenguaje que los modelos mucho más grandes, todavía están limitados por su tamaño para ciertas tareas y no pueden almacenar demasiada “información factual”. Este es un problema que se puede abordar combinando el SLM con un motor de búsqueda en línea.
Shubham Agarwal de IEEE Spectrum compara los SLMs con la forma en que los niños aprenden el lenguaje y dice: “Para cuando los niños cumplen 13 años, están expuestos a unos 100 millones de palabras y son mejores que los chatbots en el lenguaje, con acceso a solo el 0.01 por ciento de los datos”. Aunque, como señala Agarwal, “Nadie sabe qué hace a los humanos mucho más eficientes”, Alex Warstadt, un investigador de ciencias de la computación en ETH Zurich, sugiere que “la ingeniería inversa del aprendizaje humano eficiente a pequeña escala podría llevar a grandes mejoras cuando se escale a tamaños de LLM”.