La lista de pruebas informales y curiosas para evaluar la inteligencia artificial sigue creciendo. En los últimos días, algunos miembros de la comunidad de IA en X se han obsesionado con una prueba que mide cómo diferentes modelos de IA, especialmente los llamados modelos de razonamiento, manejan solicitudes como esta: “Escribe un script en Python para una pelota amarilla que rebote dentro de una forma. Haz que la forma gire lentamente y asegúrate de que la pelota se mantenga dentro de la forma”. Algunos modelos se desempeñan mejor en esta prueba de “pelota en forma rotativa” que otros. Según un usuario en X, el modelo R1 del laboratorio chino DeepSeek, que está disponible de forma gratuita, superó al modo pro o1 de OpenAI, que cuesta $200 al mes como parte del plan ChatGPT Pro de OpenAI.
Otro usuario en X mencionó que los modelos Claude 3.5 Sonnet de Anthropic y Gemini 1.5 Pro de Google no lograron calcular bien la física, lo que hizo que la pelota escapara de la forma. Otros reportaron que el modelo Gemini 2.0 Flash Thinking Experimental de Google, e incluso el más antiguo GPT-4o de OpenAI, lograron completar la tarea sin problemas.
Pero, ¿qué demuestra que una IA pueda o no programar una forma que contenga una pelota en movimiento? Simular una pelota rebotando es un desafío clásico de programación. Las simulaciones precisas incorporan algoritmos de detección de colisiones, que intentan identificar cuándo dos objetos (por ejemplo, una pelota y el lado de una forma) chocan. Algoritmos mal escritos pueden afectar el rendimiento de la simulación o llevar a errores físicos evidentes. Un usuario de X, n8programs, investigador en la startup de IA Nous Research, comentó que le tomó aproximadamente dos horas programar una pelota rebotando en un heptágono rotatorio desde cero. “Hay que rastrear múltiples sistemas de coordenadas, cómo se realizan las colisiones en cada sistema y diseñar el código desde el principio para que sea robusto”, explicó n8programs en una publicación.
Si bien las pelotas rebotando y las formas rotativas son una prueba razonable de habilidades de programación, no son un benchmark empírico muy sólido para la IA. Incluso pequeñas variaciones en la solicitud pueden —y de hecho lo hacen— generar resultados diferentes. Por eso, algunos usuarios en X reportan tener más suerte con o1, mientras que otros dicen que R1 no cumple con las expectativas. De hecho, pruebas virales como estas destacan el problema complicado de crear sistemas de medición útiles para los modelos de IA. A menudo es difícil distinguir qué diferencia a un modelo de otro, fuera de benchmarks esotéricos que no son relevantes para la mayoría de las personas.
Se están realizando muchos esfuerzos para construir mejores pruebas, como el benchmark ARC-AGI y el examen final de la humanidad. Veremos cómo les va a esos esfuerzos, mientras tanto, disfrutemos de GIFs de pelotas rebotando en formas rotativas.