Una de las técnicas más utilizadas para hacer que los modelos de inteligencia artificial (IA) sean más eficientes es la cuantización, pero esta tiene sus límites, y la industria podría estar acercándose a ellos rápidamente. En el contexto de la IA, la cuantización se refiere a reducir la cantidad de bits, que son las unidades más pequeñas que una computadora puede procesar, necesarios para representar información. Por ejemplo, cuando alguien pregunta la hora, probablemente dirías “mediodía” en lugar de “doce en punto, un segundo y cuatro milisegundos”. Ambos son correctos, pero uno es más preciso. La cantidad de precisión necesaria depende del contexto.
Los modelos de IA están compuestos por varios elementos que se pueden cuantizar, especialmente los parámetros, que son las variables internas que los modelos utilizan para hacer predicciones o decisiones. Esto es útil porque los modelos realizan millones de cálculos al ejecutarse. Los modelos cuantizados, que utilizan menos bits para representar sus parámetros, son menos exigentes matemáticamente y, por lo tanto, computacionalmente. Sin embargo, la cuantización podría tener más desventajas de lo que se pensaba.
Un estudio de investigadores de Harvard, Stanford, MIT, Databricks y Carnegie Mellon indica que los modelos cuantizados funcionan peor si la versión original no cuantizada fue entrenada durante mucho tiempo con muchos datos. En otras palabras, en ciertos casos, podría ser mejor entrenar un modelo más pequeño en lugar de reducir uno grande. Esto podría ser una mala noticia para las empresas de IA que entrenan modelos extremadamente grandes, conocidos por mejorar la calidad de las respuestas, y luego los cuantizan para hacerlos más económicos.
Los efectos ya se están notando. Hace unos meses, desarrolladores y académicos informaron que cuantizar el modelo Llama 3 de Meta resultaba “más perjudicial” en comparación con otros modelos, posiblemente debido a la forma en que fue entrenado. Tanishq Kumar, un estudiante de matemáticas de Harvard y autor principal del estudio, comentó que “el costo número uno para todos en IA es y seguirá siendo la inferencia, y nuestro trabajo muestra que una forma importante de reducirlo no funcionará para siempre”.
Contrario a la creencia popular, la inferencia de modelos de IA, que es cuando un modelo responde a una pregunta, suele ser más costosa en total que el entrenamiento del modelo. Por ejemplo, Google gastó aproximadamente 191 millones de dólares para entrenar uno de sus modelos insignia, Gemini. Sin embargo, si la empresa usara un modelo para generar respuestas de 50 palabras a la mitad de todas las consultas de búsqueda de Google, gastaría alrededor de 6 mil millones de dólares al año.
Los grandes laboratorios de IA han adoptado el entrenamiento de modelos en conjuntos de datos masivos bajo la suposición de que “escalar” —aumentar la cantidad de datos y recursos computacionales utilizados en el entrenamiento— llevará a una IA cada vez más capaz. Por ejemplo, Meta entrenó Llama 3 con un conjunto de 15 billones de tokens (los tokens representan fragmentos de datos; 1 millón de tokens equivale a aproximadamente 750,000 palabras). La generación anterior, Llama 2, se entrenó con “solo” 2 billones de tokens. La evidencia sugiere que escalar eventualmente proporciona rendimientos decrecientes; se informa que Anthropic y Google entrenaron modelos enormes que no cumplieron con las expectativas internas.
Pero no hay señales de que la industria esté lista para alejarse de estos enfoques de escalado. Entonces, si los laboratorios son reacios a entrenar modelos en conjuntos de datos más pequeños, ¿hay alguna forma de hacer que los modelos sean menos susceptibles a la degradación? Posiblemente. Kumar menciona que él y sus coautores encontraron que entrenar modelos en “baja precisión” puede hacerlos más robustos.
La “precisión” se refiere a la cantidad de dígitos que un tipo de dato numérico puede representar con exactitud. La mayoría de los modelos hoy en día se entrenan a 16 bits o “media precisión” y se cuantizan a 8 bits. Algunos componentes del modelo se convierten a un formato de menor precisión a costa de algo de exactitud. Es como hacer cálculos con algunos decimales y luego redondear al décimo más cercano, lo que a menudo te da lo mejor de ambos mundos.
Fabricantes de hardware como Nvidia están promoviendo una menor precisión para la inferencia de modelos cuantizados. Su nuevo chip Blackwell admite una precisión de 4 bits, específicamente un tipo de dato llamado FP4; Nvidia ha presentado esto como una ventaja para centros de datos con limitaciones de memoria y energía. Sin embargo, una precisión de cuantización extremadamente baja podría no ser deseable. Según Kumar, a menos que el modelo original sea increíblemente grande en términos de cantidad de parámetros, precisiones inferiores a 7 u 8 bits pueden resultar en una disminución notable de calidad.
Si todo esto te parece un poco técnico, no te preocupes, lo es. Pero la conclusión es que los modelos de IA no se comprenden completamente, y los atajos conocidos que funcionan en muchos tipos de cálculos no funcionan aquí. Kumar concluyó: “El punto clave de nuestro trabajo es que hay limitaciones que no se pueden eludir ingenuamente. Esperamos que nuestro trabajo añada matices a la discusión que a menudo busca configuraciones de baja precisión para el entrenamiento y la inferencia”. Kumar reconoce que su estudio fue a una escala relativamente pequeña y planean probarlo con más modelos en el futuro. Sin embargo, cree que al menos una idea se mantendrá: no hay almuerzo gratis cuando se trata de reducir los costos de inferencia. “La precisión de los bits importa, y no es gratuita. No puedes reducirla para siempre sin que los modelos sufran. Los modelos tienen una capacidad finita, así que en lugar de intentar encajar un billón de tokens en un modelo pequeño, en mi opinión, se dedicará mucho más esfuerzo a la curaduría y filtrado de datos meticulosos, para que solo los datos de la más alta calidad se introduzcan en modelos más pequeños. Soy optimista de que nuevas arquitecturas que busquen deliberadamente hacer que el entrenamiento de baja precisión sea estable serán importantes en el futuro”.