OpenAI lanzó el jueves sus nuevos modelos o1, permitiendo a los usuarios de ChatGPT probar por primera vez modelos de inteligencia artificial que hacen una pausa para “pensar” antes de responder. Estos modelos, con el nombre en clave “fresa”, han generado mucha expectativa. Sin embargo, ¿realmente cumplen con lo prometido? En parte. Comparado con GPT-4o, los modelos o1 parecen ser un paso adelante y dos hacia atrás. ChatGPT o1 es excelente para razonar y responder preguntas complejas, pero su uso es aproximadamente cuatro veces más caro que el de GPT-4o. Además, el nuevo modelo carece de las herramientas, capacidades multimodales y velocidad que hicieron que GPT-4o fuera tan impresionante. De hecho, OpenAI admite que “GPT-4o sigue siendo la mejor opción para la mayoría de las solicitudes” en su página de ayuda, y menciona que GPT o1 tiene dificultades con tareas más simples.
Ravid Shwartz Ziv, profesor de NYU que estudia modelos de IA, comentó: “Es impresionante, pero creo que la mejora no es muy significativa. Es mejor en ciertos problemas, pero no hay una mejora generalizada”. Por estas razones, es importante usar GPT o1 solo para las preguntas para las que realmente está diseñado: las más complejas. Aunque hoy en día la mayoría de las personas no utilizan IA generativa para este tipo de preguntas, o1 es un paso tentativo en esa dirección.
ChatGPT o1 es único porque “piensa” antes de aprender, descomponiendo problemas grandes en pasos pequeños e intentando identificar cuándo acierta o se equivoca. Este “razonamiento en múltiples pasos” no es completamente nuevo, pero no ha sido práctico hasta ahora. Kian Katanforoosh, CEO de Workera y profesor en Stanford, explicó que si se puede entrenar un algoritmo de aprendizaje por refuerzo junto con algunas técnicas de modelos de lenguaje de OpenAI, se puede crear un pensamiento paso a paso.
Sin embargo, ChatGPT o1 también es bastante caro. En la mayoría de los modelos, se paga por los tokens de entrada y salida, pero o1 agrega un proceso oculto que incrementa el costo. OpenAI oculta algunos detalles de este proceso para mantener su ventaja competitiva, y se cobra por esto en forma de “tokens de razonamiento”. Esto resalta la importancia de usar ChatGPT o1 con cuidado para no acumular costos innecesarios.
La idea de un modelo de IA que ayuda a “retroceder desde grandes ideas” es poderosa. En una prueba, pedí a ChatGPT o1 que me ayudara a planificar la cena de Acción de Gracias para 11 personas. Después de 12 segundos de “pensar”, me proporcionó una respuesta de más de 750 palabras, sugiriendo que dos hornos serían suficientes con una buena estrategia. También me aconsejó sobre cómo gestionar el espacio en el horno y consideró la posibilidad de alquilar un horno portátil, lo cual fue una sugerencia interesante.
Sin embargo, para preguntas más simples, ChatGPT o1 tiende a sobrepensar. Por ejemplo, al preguntarle dónde encontrar árboles de cedro en América, me dio una respuesta de más de 800 palabras, mientras que GPT-4o lo hizo en tres oraciones. En algunos aspectos, “fresa” nunca iba a cumplir con las expectativas. Los rumores sobre los modelos de razonamiento de OpenAI comenzaron en noviembre de 2023, justo cuando se buscaban respuestas sobre la salida de Sam Altman de la junta de OpenAI. Altman aclaró que o1 no es una inteligencia general (AGI) y que aún tiene limitaciones.
La comunidad de IA está ajustando sus expectativas tras este lanzamiento menos emocionante de lo esperado. Rohan Pandey, ingeniero de investigación en ReWorkd, espera que la capacidad de razonamiento de o1 sea suficiente para resolver problemas complejos donde GPT-4 no puede. Sin embargo, muchos en la industria no lo ven como un avance revolucionario.
Los principios que sustentan o1 se remontan a años atrás. Google utilizó técnicas similares en 2016 para crear AlphaGo, el primer sistema de IA en vencer a un campeón mundial en el juego de mesa Go. Andy Harrison, ex-Google y CEO de la firma de capital de riesgo S32, señala que esto plantea un debate antiguo en el mundo de la IA sobre si se pueden automatizar flujos de trabajo o si una IA con inteligencia general podría tomar decisiones como un humano.
La pregunta es si esta herramienta útil vale su alto precio. A medida que los modelos de IA se vuelven más baratos, o1 es uno de los primeros en aumentar su costo.