Investigadores de inteligencia artificial de Stanford y la Universidad de Washington han logrado entrenar un modelo de IA llamado s1 por menos de $50 en créditos de computación en la nube, según un nuevo estudio publicado el viernes pasado. Este modelo s1 tiene un rendimiento similar a modelos avanzados de razonamiento, como o1 de OpenAI y r1 de DeepSeek, en pruebas que miden habilidades matemáticas y de programación. El modelo s1 está disponible en GitHub, junto con los datos y el código utilizados para su entrenamiento.
El equipo detrás de s1 explicó que crearon este modelo de IA a través de un proceso llamado destilación, que consiste en extraer las capacidades de razonamiento de otro modelo de IA entrenándose con sus respuestas. Los investigadores indicaron que s1 se destiló de uno de los modelos de razonamiento de Google, llamado Gemini 2.0 Flash Thinking Experimental. Este mismo enfoque de destilación fue utilizado por investigadores de Berkeley para crear un modelo de razonamiento por alrededor de $450 el mes pasado.
La posibilidad de que unos pocos investigadores, sin grandes presupuestos, puedan innovar en el campo de la IA es emocionante para muchos. Sin embargo, s1 plantea preguntas sobre la comercialización de los modelos de IA. ¿Dónde está la ventaja competitiva si alguien puede replicar un modelo de millones de dólares con una inversión mínima? No es sorprendente que los grandes laboratorios de IA no estén contentos. OpenAI ha acusado a DeepSeek de obtener datos de manera inapropiada de su API para la destilación de modelos.
Los investigadores de s1 buscaban la forma más sencilla de lograr un buen rendimiento en razonamiento y “escalado en tiempo de prueba”, que permite a un modelo de IA pensar más antes de responder. Estos fueron algunos de los avances en o1 de OpenAI, que DeepSeek y otros laboratorios de IA han intentado replicar mediante diversas técnicas. El estudio sugiere que los modelos de razonamiento pueden ser destilados con un conjunto de datos relativamente pequeño utilizando un proceso llamado ajuste fino supervisado (SFT), donde se instruye explícitamente a un modelo de IA a imitar ciertos comportamientos en un conjunto de datos. SFT suele ser más económico que el método de aprendizaje por refuerzo a gran escala que utilizó DeepSeek para entrenar su respuesta al modelo o1 de OpenAI, R1.
Google ofrece acceso gratuito a Gemini 2.0 Flash Thinking Experimental, aunque con límites diarios, a través de su plataforma Google AI Studio. Sin embargo, sus términos prohíben la ingeniería inversa de sus modelos para desarrollar servicios que compitan con las propias ofertas de IA de Google. Hemos contactado a Google para obtener comentarios.
El modelo s1 se basa en un pequeño modelo de IA de la empresa Qwen, un laboratorio de IA chino propiedad de Alibaba, que está disponible para descargar de forma gratuita. Para entrenar s1, los investigadores crearon un conjunto de datos de solo 1,000 preguntas cuidadosamente seleccionadas, junto con respuestas y el proceso de “pensamiento” detrás de cada respuesta de Gemini 2.0 Flash Thinking Experimental. Después de entrenar s1, lo cual tomó menos de 30 minutos utilizando 16 GPUs Nvidia H100, s1 logró un buen rendimiento en ciertos estándares de IA, según los investigadores.
Niklas Muennighoff, un investigador de Stanford que trabajó en el proyecto, comentó que podría alquilar la computación necesaria hoy por alrededor de $20. Los investigadores utilizaron un truco ingenioso para hacer que s1 revisara su trabajo y extendiera su tiempo de “pensamiento”: le dijeron que esperara. Añadir la palabra “esperar” durante el razonamiento de s1 ayudó al modelo a llegar a respuestas ligeramente más precisas, según el estudio.
En 2025, Meta, Google y Microsoft planean invertir cientos de miles de millones de dólares en infraestructura de IA, parte de los cuales se destinará al entrenamiento de modelos de IA de próxima generación. Ese nivel de inversión puede seguir siendo necesario para impulsar la innovación en IA. La destilación ha demostrado ser un buen método para recrear de manera económica las capacidades de un modelo de IA, pero no crea nuevos modelos de IA que sean significativamente mejores que los disponibles hoy en día.