Los laboratorios de inteligencia artificial que buscan crear sistemas superinteligentes están comenzando a darse cuenta de que podrían necesitar cambiar de rumbo. Las “leyes de escalado de IA”, que son los métodos y expectativas que se han utilizado para aumentar las capacidades de los modelos en los últimos cinco años, están mostrando signos de rendimientos decrecientes, según varios inversores, fundadores y directores ejecutivos de IA que hablaron con TechCrunch. Estos comentarios coinciden con informes recientes que indican que los modelos en los principales laboratorios de IA están mejorando más lentamente de lo que solían hacerlo. Ahora todos parecen admitir que no se puede simplemente usar más potencia de cálculo y más datos durante el preentrenamiento de grandes modelos de lenguaje, y esperar que se conviertan en una especie de dios digital omnisciente. Aunque esto puede parecer obvio, estas leyes de escalado fueron un factor clave en el desarrollo de ChatGPT, mejorándolo y probablemente influyendo en muchos CEOs para hacer predicciones audaces sobre la llegada de la inteligencia general artificial (AGI) en solo unos años.
Ilya Sutskever, cofundador de OpenAI y Safe Super Intelligence, comentó la semana pasada que “todos están buscando la próxima cosa” para escalar sus modelos de IA. A principios de este mes, Marc Andreessen, cofundador de a16z, mencionó en un podcast que los modelos de IA actualmente parecen estar convergiendo en un mismo límite de capacidades. Sin embargo, casi inmediatamente después de que comenzaron a surgir estas tendencias preocupantes, los CEOs, investigadores e inversores de IA ya están declarando que estamos en una nueva era de leyes de escalado. El “cómputo en tiempo de prueba”, que da a los modelos de IA más tiempo y recursos para “pensar” antes de responder a una pregunta, es un contendiente especialmente prometedor para ser la próxima gran novedad.
El CEO de Microsoft, Satya Nadella, mencionó en el evento Microsoft Ignite que estamos viendo la aparición de una nueva ley de escalado, refiriéndose a la investigación de cómputo en tiempo de prueba que respalda el modelo o1 de OpenAI. No es el único que señala a o1 como el futuro. Anjney Midha, socio de Andreessen Horowitz, también afirmó que ahora estamos en la segunda era de leyes de escalado, que es el escalado en tiempo de prueba. Si el éxito inesperado y la repentina desaceleración de las leyes de escalado anteriores nos dicen algo, es que es muy difícil predecir cómo y cuándo mejorarán los modelos de IA. Sin embargo, parece que se está produciendo un cambio de paradigma: las formas en que los laboratorios de IA intentan avanzar en sus modelos en los próximos cinco años probablemente no se parecerán a las de los últimos cinco.
Las rápidas mejoras en los modelos de IA que OpenAI, Google, Meta y Anthropic han logrado desde 2020 se pueden atribuir en gran medida a una clave: usar más potencia de cálculo y más datos durante la fase de preentrenamiento de un modelo de IA. Cuando los investigadores proporcionan abundantes recursos durante esta fase, en la que la IA identifica y almacena patrones en grandes conjuntos de datos, los modelos tienden a desempeñarse mejor en la predicción de la siguiente palabra o frase. Esta primera generación de leyes de escalado de IA empujó los límites de lo que las computadoras podían hacer, a medida que los ingenieros aumentaban el número de GPUs utilizadas y la cantidad de datos alimentados. Aunque este método particular ha llegado a su fin, ya ha redibujado el mapa. Cada gran empresa tecnológica ha apostado fuertemente por la IA, mientras que Nvidia, que suministra las GPUs que todas estas empresas utilizan para entrenar sus modelos, se ha convertido en la compañía pública más valiosa del mundo.
Sin embargo, estas inversiones también se realizaron con la expectativa de que el escalado continuaría como se esperaba. Es importante señalar que las leyes de escalado no son leyes de la naturaleza, la física, las matemáticas o el gobierno. No están garantizadas por nada ni por nadie para continuar al mismo ritmo. Incluso la Ley de Moore, otra famosa ley de escalado, eventualmente se desvaneció, aunque tuvo una duración más larga. Robert Nishihara, cofundador y ex CEO de Anyscale, comentó que “si solo pones más potencia de cálculo, más datos y haces el modelo más grande, hay rendimientos decrecientes”. Nishihara está familiarizado con las leyes de escalado de IA, ya que Anyscale alcanzó una valoración de mil millones de dólares al desarrollar software que ayuda a OpenAI y otros desarrolladores de modelos de IA a escalar sus cargas de trabajo de entrenamiento a decenas de miles de GPUs. Aunque Anyscale ha sido uno de los mayores beneficiarios de las leyes de escalado en preentrenamiento, incluso su cofundador reconoce que la temporada está cambiando.
Nishihara también mencionó que “cuando has leído un millón de reseñas en Yelp, tal vez las siguientes reseñas no te den mucho”. Esto se refiere a las limitaciones de escalar datos. “Pero eso es preentrenamiento. La metodología en torno al post-entrenamiento, diría, es bastante inmadura y tiene mucho margen para mejorar”. Para ser claros, es probable que los desarrolladores de modelos de IA continúen buscando clústeres de cómputo más grandes y conjuntos de datos más grandes para el preentrenamiento, y probablemente haya más mejoras que obtener de esos métodos. Elon Musk recientemente terminó de construir una supercomputadora con 100,000 GPUs, llamada Colossus, para entrenar los próximos modelos de xAI. Habrá más clústeres, y más grandes, en el futuro. Pero las tendencias sugieren que el crecimiento exponencial no es posible simplemente usando más GPUs con las estrategias existentes, por lo que nuevos métodos están recibiendo más atención.
Cuando OpenAI lanzó un adelanto de su modelo o1, la startup anunció que formaba parte de una nueva serie de modelos separados de GPT. OpenAI mejoró sus modelos GPT en gran medida a través de las leyes de escalado tradicionales: más datos y más potencia durante el preentrenamiento. Pero ahora ese método aparentemente no les está dando mucho. El marco de modelos o1 se basa en un nuevo concepto, el cómputo en tiempo de prueba, llamado así porque los recursos de cómputo se utilizan después de un aviso, no antes. Esta técnica aún no se ha explorado mucho en el contexto de las redes neuronales, pero ya está mostrando promesas. Algunos ya están señalando el cómputo en tiempo de prueba como el próximo método para escalar sistemas de IA.
“Varios experimentos están mostrando que, aunque las leyes de escalado en preentrenamiento pueden estar desacelerándose, las leyes de escalado en tiempo de prueba, donde se le da al modelo más cómputo en la inferencia, pueden ofrecer ganancias crecientes en rendimiento”, dijo Midha de a16z. “La nueva serie ‘o’ de OpenAI lleva [el razonamiento en cadena] más allá y requiere muchos más recursos de cómputo y, por lo tanto, energía para hacerlo”, comentó el famoso investigador de IA Yoshua Benjio en un artículo de opinión. “Así, vemos aparecer una nueva forma de escalado computacional. No solo más datos de entrenamiento y modelos más grandes, sino más tiempo dedicado a ‘pensar’ sobre las respuestas”.
Durante un período de 10 a 30 segundos, el modelo o1 de OpenAI se vuelve a preguntar varias veces, descomponiendo un gran problema en una serie de problemas más pequeños. A pesar de que ChatGPT dice que está “pensando”, no está haciendo lo que los humanos hacen, aunque nuestros métodos internos de resolución de problemas, que se benefician de una clara reformulación de un problema y soluciones paso a paso, fueron inspiraciones clave para el método. Hace aproximadamente una década, Noam Brown, quien ahora lidera el trabajo de OpenAI en o1, intentaba construir sistemas de IA que pudieran vencer a los humanos en el póker. Durante una charla reciente, Brown comentó que en ese momento notó cómo los jugadores de póker humanos se tomaban su tiempo para considerar diferentes escenarios antes de jugar una mano. En 2017, introdujo un método que permitía a un modelo “pensar” durante 30 segundos antes de jugar. En ese tiempo, la IA jugaba diferentes sub-juegos, averiguando cómo se desarrollarían diferentes escenarios para determinar el mejor movimiento. En última instancia, la IA tuvo un rendimiento siete veces mejor que sus intentos anteriores.
Es cierto que la investigación de Brown en 2017 no utilizó redes neuronales, que no eran tan populares en ese momento. Sin embargo, investigadores del MIT publicaron un artículo la semana pasada que muestra que el cómputo en tiempo de prueba mejora significativamente el rendimiento de un modelo de IA en tareas de razonamiento. No está claro de inmediato cómo se escalaría el cómputo en tiempo de prueba. Podría significar que los sistemas de IA necesitan mucho tiempo para pensar en preguntas difíciles; tal vez horas o incluso días. Otro enfoque podría ser permitir que un modelo de IA “piense” sobre una pregunta en muchos chips simultáneamente. Si el cómputo en tiempo de prueba se convierte en el próximo lugar para escalar sistemas de IA, Midha dice que la demanda de chips de IA que se especializan en inferencia de alta velocidad podría aumentar drásticamente. Esto podría ser una buena noticia para startups como Groq o Cerebras, que se especializan en chips de inferencia rápida de IA. Si encontrar la respuesta es tan intensivo en cómputo como entrenar el modelo, los proveedores de “pico y pala” en IA ganan nuevamente.
La mayoría del mundo de la IA no parece estar perdiendo la calma por la desaceleración de estas viejas leyes de escalado. Incluso si el cómputo en tiempo de prueba no resulta ser la próxima ola de escalado, algunos sienten que apenas estamos rascando la superficie de las aplicaciones para los modelos de IA actuales. Nuevos productos populares podrían darle a los desarrolladores de modelos de IA algo de tiempo para encontrar nuevas formas de mejorar los modelos subyacentes. “Estoy completamente convencido de que veremos al menos un aumento de 10 a 20 veces en el rendimiento del modelo solo a través de trabajo a nivel de aplicación, simplemente permitiendo que los modelos brillen a través de indicaciones inteligentes, decisiones de experiencia del usuario y pasando contexto en el momento adecuado a los modelos”, dijo Midha. Por ejemplo, el Modo de Voz Avanzado de ChatGPT es una de las aplicaciones más impresionantes de los modelos de IA actuales. Sin embargo, eso fue en gran medida una innovación en la experiencia del usuario, no necesariamente en la tecnología subyacente. Se puede ver cómo más innovaciones en la experiencia del usuario, como dar acceso a esa función a la web o a aplicaciones en tu teléfono, harían que el producto fuera mucho mejor.
Kian Katanforoosh, CEO de la startup de IA Workera y profesor adjunto en Stanford sobre aprendizaje profundo, comenta que las empresas que construyen aplicaciones de IA, como la suya, no necesariamente necesitan modelos exponencialmente más inteligentes para crear mejores productos. También dice que los productos alrededor de los modelos actuales tienen mucho margen para mejorar. “Supongamos que construyes aplicaciones de IA y tu IA tiene alucinaciones en una tarea específica”, dijo Katanforoosh. “Hay dos formas de evitar eso. O el LLM tiene que mejorar y dejará de alucinar, o las herramientas a su alrededor tienen que mejorar y tendrás oportunidades para solucionar el problema”. Cualquiera que sea el caso para la frontera de la investigación en IA, es probable que los usuarios no sientan los efectos de estos cambios por un tiempo. Dicho esto, los laboratorios de IA harán lo que sea necesario para seguir lanzando modelos más grandes, más inteligentes y más rápidos a un ritmo acelerado. Esto significa que varias empresas tecnológicas líderes podrían ahora cambiar la forma en que están empujando los límites de la IA.