Un laboratorio en China ha presentado lo que parece ser uno de los primeros modelos de inteligencia artificial (IA) que puede “razonar”, compitiendo con el modelo o1 de OpenAI. El miércoles, DeepSeek, una empresa de investigación en IA financiada por traders cuantitativos, mostró un avance de su modelo DeepSeek-R1, que afirman es competitivo con o1.
A diferencia de la mayoría de los modelos de IA, los modelos de razonamiento se toman más tiempo para analizar una pregunta o consulta, lo que les ayuda a evitar errores comunes. Al igual que o1, DeepSeek-R1 realiza un proceso de razonamiento para resolver tareas, planificando y ejecutando una serie de acciones para llegar a una respuesta. Este proceso puede llevar tiempo; dependiendo de la complejidad de la pregunta, DeepSeek-R1 puede “pensar” durante decenas de segundos antes de responder.
DeepSeek asegura que su modelo DeepSeek-R1 (o DeepSeek-R1-Lite-Preview, para ser precisos) tiene un rendimiento comparable al modelo o1-preview de OpenAI en dos pruebas de IA populares, AIME y MATH. AIME utiliza otros modelos de IA para evaluar el rendimiento, mientras que MATH consiste en una colección de problemas de palabras. Sin embargo, el modelo no es perfecto. Algunos comentaristas en X señalaron que DeepSeek-R1 tiene dificultades con el juego del tres en raya y otros problemas lógicos, algo que también le ocurre a o1.
Además, DeepSeek-R1 parece bloquear consultas que considera demasiado sensibles políticamente. Durante nuestras pruebas, el modelo se negó a responder preguntas sobre el líder chino Xi Jinping, la Plaza de Tiananmen y las implicaciones geopolíticas de una posible invasión de Taiwán por parte de China. Este comportamiento probablemente se debe a la presión del gobierno chino sobre los proyectos de IA en la región. Los modelos en China deben ser evaluados por el regulador de internet del país para asegurarse de que sus respuestas “incorporen valores socialistas fundamentales”. Se ha informado que el gobierno ha propuesto una lista negra de fuentes que no pueden ser utilizadas para entrenar modelos, lo que resulta en que muchos sistemas de IA chinos eviten responder a temas que podrían enfurecer a los reguladores.
El creciente interés en los modelos de razonamiento surge en un momento en que la viabilidad de las “leyes de escalado”, teorías que sostenían que al aumentar los datos y la potencia de cómputo de un modelo, sus capacidades mejorarían continuamente, están siendo cuestionadas. Varios informes sugieren que los modelos de grandes laboratorios de IA, como OpenAI, Google y Anthropic, no están mejorando tan drásticamente como antes. Esto ha llevado a una búsqueda de nuevos enfoques, arquitecturas y técnicas de desarrollo en IA. Uno de estos enfoques es el “cómputo en tiempo de prueba”, que respalda modelos como o1 y DeepSeek-R1. También conocido como cómputo de inferencia, este método proporciona a los modelos tiempo de procesamiento adicional para completar tareas.
DeepSeek, que planea hacer de DeepSeek-R1 un proyecto de código abierto y lanzar una API, es una operación interesante. Está respaldada por High-Flyer Capital Management, un fondo de cobertura cuantitativo chino que utiliza IA para informar sus decisiones de trading. High-Flyer construye sus propios clústeres de servidores para el entrenamiento de modelos, siendo el más reciente uno que cuenta con 10,000 GPUs Nvidia A100 y costó alrededor de 1,000 millones de yenes (aproximadamente 138 millones de dólares). Fundada por Liang Wenfeng, un graduado en ciencias de la computación, High-Flyer busca lograr una IA “superinteligente” a través de su organización DeepSeek.