Los debates sobre las pruebas de inteligencia artificial (IA) y cómo las reportan los laboratorios de IA están saliendo a la luz pública. Esta semana, un empleado de OpenAI acusó a la empresa de IA de Elon Musk, xAI, de publicar resultados engañosos sobre su último modelo de IA, Grok 3. Igor Babushkin, uno de los cofundadores de xAI, defendió que su empresa estaba en lo correcto. La verdad parece estar en un punto intermedio.
En una publicación en el blog de xAI, la empresa mostró un gráfico que muestra el rendimiento de Grok 3 en AIME 2025, una colección de preguntas matemáticas desafiantes de un reciente examen de matemáticas. Algunos expertos han cuestionado la validez de AIME como una prueba para IA. Sin embargo, AIME 2025 y versiones anteriores del examen son comúnmente usadas para evaluar la habilidad matemática de un modelo.
El gráfico de xAI mostró que dos variantes de Grok 3, Grok 3 Reasoning Beta y Grok 3 mini Reasoning, superaron al mejor modelo disponible de OpenAI, o3-mini-high, en AIME 2025. Pero los empleados de OpenAI en X rápidamente señalaron que el gráfico de xAI no incluía la puntuación de o3-mini-high en AIME 2025 en “cons@64”.
¿Y qué es cons@64? Es una abreviatura de “consensus@64”, que básicamente le da al modelo 64 intentos para responder cada problema en una prueba y toma las respuestas generadas con más frecuencia como las finales. Como puedes imaginar, cons@64 tiende a aumentar bastante las puntuaciones de los modelos en las pruebas, y omitirlo de un gráfico puede hacer que parezca que un modelo supera a otro cuando en realidad no es así. Las puntuaciones de Grok 3 Reasoning Beta y Grok 3 mini Reasoning en AIME 2025 en “@1” — que significa la primera puntuación que los modelos obtuvieron en la prueba — están por debajo de la puntuación de o3-mini-high. Grok 3 Reasoning Beta también se queda ligeramente atrás del modelo o1 de OpenAI configurado en “computación media”. A pesar de esto, xAI está promocionando a Grok 3 como la “IA más inteligente del mundo”.
Babushkin argumentó en X que OpenAI ha publicado gráficos de pruebas igualmente engañosos en el pasado, aunque esos gráficos comparaban el rendimiento de sus propios modelos. Un participante más neutral en el debate creó un gráfico más “preciso” que muestra el rendimiento de casi todos los modelos en cons@64.
Sin embargo, como señaló el investigador de IA Nathan Lambert, quizás la métrica más importante sigue siendo un misterio: el costo computacional (y monetario) que tuvo cada modelo para alcanzar su mejor puntuación. Esto demuestra cuán poco comunican la mayoría de las pruebas de IA sobre las limitaciones y fortalezas de los modelos.