El mes pasado, fundadores e inversores de inteligencia artificial comentaron que estamos en la “segunda era de las leyes de escalado”. Esto significa que los métodos tradicionales para mejorar los modelos de IA están mostrando resultados cada vez menores. Una nueva técnica prometedora que se mencionó es el “escalado en tiempo de prueba”, que parece ser la clave detrás del rendimiento del modelo o3 de OpenAI, aunque tiene sus desventajas.
La comunidad de IA recibió el anuncio del modelo o3 como una señal de que el progreso en el escalado de IA no se ha detenido. Este modelo ha destacado en pruebas, superando a otros modelos en una evaluación de habilidades generales llamada ARC-AGI, y obtuvo un 25% en un difícil examen de matemáticas, mientras que otros modelos no pasaron del 2%. Sin embargo, en TechCrunch somos cautelosos y esperamos poder probar o3 por nosotros mismos, ya que muy pocos lo han hecho hasta ahora.
Noam Brown, co-creador de la serie de modelos o de OpenAI, mencionó que el anuncio de las impresionantes mejoras de o3 llega solo tres meses después de que se presentara o1, lo que es un tiempo relativamente corto para un avance tan significativo. Jack Clark, cofundador de Anthropic, afirmó que o3 es una prueba de que el progreso en IA será más rápido en 2025 que en 2024. El próximo año, se espera que la comunidad de IA combine el escalado en tiempo de prueba con métodos tradicionales para obtener aún más beneficios de los modelos de IA.
El escalado en tiempo de prueba significa que OpenAI está utilizando más recursos durante la fase de inferencia de ChatGPT, que es el momento en que se genera la respuesta después de que el usuario presiona “enter”. No está claro exactamente cómo se está llevando a cabo esto, pero podría implicar el uso de más chips de computadora o chips más potentes durante más tiempo.
Aunque o3 puede renovar la confianza en el progreso de las leyes de escalado de IA, también utiliza un nivel de recursos nunca antes visto, lo que significa que cada respuesta costará más. Clark señala que uno de los aspectos importantes a considerar es que el alto rendimiento de o3 se debe a que es más caro de operar. Esto hace que los costos de funcionamiento de los sistemas de IA sean menos predecibles.
El rendimiento de o3 en la prueba ARC-AGI, que evalúa avances en IA general, es notable. Sin embargo, pasar esta prueba no significa que un modelo de IA haya alcanzado la inteligencia general, sino que es una forma de medir el progreso hacia ese objetivo. El modelo o3 superó a todos los modelos anteriores, logrando un 88% en una de sus pruebas, mientras que el mejor modelo anterior, o1, solo obtuvo un 32%.
Es importante destacar que el modelo o3 utilizó más de $1000 en recursos por tarea, mientras que o1 usó alrededor de $5. Esto plantea preguntas sobre el propósito real de o3 y cuántos recursos serán necesarios para futuros modelos como o4 y o5. No parece que o3 sea adecuado para preguntas cotidianas, sino más bien para consultas más complejas.
Las instituciones con recursos económicos podrían ser las únicas que puedan permitirse o3, especialmente en campos como la academia y las finanzas, donde pagar cientos o miles de dólares por una respuesta exitosa no sería un gran problema. OpenAI ya ha lanzado una versión de alto rendimiento de o1 por $200, y se ha hablado de planes de suscripción de hasta $2000.
Sin embargo, hay desventajas en el uso de o3 para trabajos de alto impacto. Aunque es una mejora notable, o3 no es AGI y aún falla en tareas simples que un humano podría resolver fácilmente. Esto no es sorprendente, ya que los modelos de lenguaje grandes todavía enfrentan problemas de “alucinación”, lo que significa que a veces dan respuestas incorrectas.
Una forma de mejorar el escalado en tiempo de prueba podría ser el desarrollo de mejores chips de inferencia de IA. Varias startups están trabajando en esto, y se espera que jueguen un papel importante en el futuro del escalado de IA. Aunque o3 representa un avance en el rendimiento de los modelos de IA, también plantea nuevas preguntas sobre su uso y costos. Sin embargo, su rendimiento refuerza la idea de que el escalado en tiempo de prueba es una de las mejores maneras de avanzar en la escalabilidad de los modelos de IA.