Investigadores del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) han desarrollado Slim-Llama, un chip diseñado para reducir el consumo de energía en modelos de lenguaje grandes. Este nuevo dispositivo utiliza una técnica llamada cuantización binaria/ternaria, que simplifica los datos del modelo a solo 1 o 2 bits. Esto disminuye significativamente la necesidad de computación y memoria.
Slim-Llama mejora la eficiencia energética en un 4.59 veces en comparación con soluciones anteriores. Puede funcionar con un consumo de energía tan bajo como 4.69 mW a 25 MHz y hasta 82.07 mW a 200 MHz, manteniendo una buena eficiencia energética incluso a frecuencias más altas. Además, el chip puede alcanzar un rendimiento máximo de hasta 4.92 TOPS, lo que demuestra su efectividad.
El diseño del chip ocupa un área total de 20.25 mm² y utiliza la tecnología CMOS de 28 nm de Samsung. Con 500 KB de SRAM en el chip, Slim-Llama reduce la dependencia de la memoria externa, lo que ayuda a disminuir los costos de energía relacionados con el movimiento de datos. También soporta un ancho de banda externo de 1.6 GB/s a 200 MHz, lo que promete un manejo fluido de la información.
Slim-Llama es compatible con modelos como Llama 1bit y Llama 1.5bit, que tienen hasta 3 mil millones de parámetros. Con una latencia de 489 ms para el modelo Llama 1bit, este chip no solo es eficiente, sino que también ofrece un rendimiento destacado, siendo el primero en ejecutar modelos de mil millones de parámetros con un bajo consumo de energía.
Este avance en la computación eficiente en energía podría abrir el camino hacia soluciones de hardware de IA más sostenibles y accesibles, respondiendo a la creciente demanda de implementación eficiente de modelos de lenguaje grandes. El equipo de KAIST compartirá más detalles sobre Slim-Llama en la Conferencia Internacional de Circuitos de Estado Sólido de IEEE 2025 en San Francisco el 19 de febrero.