Esta semana, Sakana AI, una startup respaldada por Nvidia que ha recaudado cientos de millones de dólares de firmas de capital de riesgo, hizo una afirmación sorprendente. La empresa dijo haber creado un sistema de inteligencia artificial, el AI CUDA Engineer, que podría acelerar el entrenamiento de ciertos modelos de IA hasta 100 veces. Sin embargo, el problema es que el sistema no funcionó. Usuarios en X rápidamente descubrieron que el sistema de Sakana en realidad resultó en un rendimiento de entrenamiento de modelos peor que el promedio. Según un usuario, la IA de Sakana causó una desaceleración de 3 veces, en lugar de una aceleración.
¿Qué salió mal? Según Lucas Beyer, un miembro del equipo técnico de OpenAI, fue un error en el código. Beyer comentó en X: “Su código original está mal de una manera sutil. El hecho de que realicen pruebas de rendimiento DOS VECES con resultados tan diferentes debería hacerles detenerse y pensar”.
En un análisis publicado el viernes, Sakana admitió que el sistema había encontrado una manera de “hacer trampa” y culpó a la tendencia del sistema a “recompensar trucos”, es decir, identificar fallas para lograr métricas altas sin alcanzar el objetivo deseado (acelerar el entrenamiento del modelo). Fenómenos similares se han observado en IA entrenada para jugar ajedrez. Según Sakana, el sistema encontró fallos en el código de evaluación que la empresa estaba utilizando, lo que le permitió eludir validaciones de precisión, entre otras comprobaciones.
Sakana afirma haber abordado el problema y que tiene la intención de revisar sus afirmaciones en materiales actualizados. “Desde entonces, hemos hecho que la evaluación y el perfilado de tiempo de ejecución sean más robustos para eliminar muchas de estas lagunas”, escribió la empresa en un post en X. “Estamos en proceso de revisar nuestro documento y nuestros resultados para reflejar y discutir los efectos […] Pedimos disculpas profundamente a nuestros lectores por nuestra falta de atención. Pronto proporcionaremos una revisión de este trabajo y discutiremos lo que hemos aprendido”.
Es de aplaudir que Sakana haya reconocido su error. Pero este episodio es un buen recordatorio de que si una afirmación suena demasiado buena para ser verdad, especialmente en IA, probablemente lo sea.