¿Los modelos de inteligencia artificial de hoy realmente recuerdan, piensan, planifican y razonan como lo haría un cerebro humano? Algunos laboratorios de IA podrían hacerte creer que sí, pero según Yann LeCun, el principal científico de IA de Meta, la respuesta es no. Sin embargo, él cree que podríamos llegar a eso en una década, siguiendo un nuevo método llamado “modelo del mundo”.
A principios de este año, OpenAI lanzó una nueva función llamada “memoria” que permite a ChatGPT “recordar” tus conversaciones. La última generación de modelos de OpenAI, llamada o1, muestra la palabra “pensando” mientras genera una respuesta, y la compañía afirma que estos modelos son capaces de “razonamiento complejo”. Todo esto suena como si estuviéramos cerca de una IA de nivel humano. Sin embargo, durante una charla reciente en el Hudson Forum, LeCun desmintió a los optimistas de la IA, como Elon Musk y Shane Legg, quienes sugieren que la IA de nivel humano está a la vuelta de la esquina.
LeCun explicó que necesitamos máquinas que comprendan el mundo; máquinas que puedan recordar cosas, que tengan intuición y sentido común, y que puedan razonar y planificar al mismo nivel que los humanos. A pesar de lo que algunos entusiastas puedan decir, los sistemas de IA actuales no son capaces de hacer esto. Según LeCun, los modelos de lenguaje grandes, como los que alimentan a ChatGPT y Meta AI, están lejos de ser “IA de nivel humano”. La humanidad podría estar “años o décadas” de lograr algo así.
La razón es simple: estos modelos trabajan prediciendo el siguiente token (generalmente unas pocas letras o una palabra corta), y los modelos de imagen/video actuales predicen el siguiente píxel. En otras palabras, los modelos de lenguaje son predictores unidimensionales, mientras que los modelos de imagen/video son bidimensionales. Estos modelos han mejorado en sus respectivas dimensiones, pero no comprenden realmente el mundo tridimensional. Por esto, los sistemas de IA modernos no pueden realizar tareas simples que la mayoría de los humanos pueden hacer.
LeCun señala que los humanos aprenden a despejar una mesa para cenar a los 10 años y a conducir un automóvil a los 17, y aprenden ambas cosas en cuestión de horas. Pero incluso los sistemas de IA más avanzados hoy en día, construidos con miles o millones de horas de datos, no pueden operar de manera confiable en el mundo físico. Para lograr tareas más complejas, LeCun sugiere que necesitamos construir modelos tridimensionales que puedan percibir el mundo que nos rodea, centrados en un nuevo tipo de arquitectura de IA: los modelos del mundo.
Un modelo del mundo es tu representación mental de cómo se comporta el mundo. Puedes imaginar una secuencia de acciones que podrías tomar, y tu modelo del mundo te permitirá predecir el efecto de esa secuencia en el mundo. Por ejemplo, imagina ver un dormitorio desordenado y querer limpiarlo. Puedes imaginar cómo recoger toda la ropa y guardarla solucionaría el problema. No necesitas probar múltiples métodos ni aprender a limpiar una habitación primero. Tu cerebro observa el espacio tridimensional y crea un plan de acción para lograr tu objetivo en el primer intento. Ese plan de acción es la clave que prometen los modelos del mundo en IA.
Parte del beneficio aquí es que los modelos del mundo pueden procesar significativamente más datos que los modelos de lenguaje. Esto también los hace intensivos en computación, razón por la cual los proveedores de nube están compitiendo por asociarse con empresas de IA. Los modelos del mundo son la gran idea que varios laboratorios de IA están persiguiendo, y el término se está convirtiendo rápidamente en la próxima palabra de moda para atraer financiamiento de riesgo. Un grupo de investigadores de IA de renombre, incluidos Fei-Fei Li y Justin Johnson, acaba de recaudar 230 millones de dólares para su startup, World Labs. La “madrina de la IA” y su equipo también están convencidos de que los modelos del mundo desbloquearán sistemas de IA significativamente más inteligentes.
OpenAI también describe su generador de video no lanzado, Sora, como un modelo del mundo, aunque no ha dado detalles específicos. LeCun esbozó una idea para usar modelos del mundo para crear IA de nivel humano en un artículo de 2022 sobre “IA impulsada por objetivos”, aunque señala que el concepto tiene más de 60 años. En resumen, una representación básica del mundo (como un video de una habitación sucia, por ejemplo) y la memoria se alimentan a un modelo del mundo. Luego, el modelo del mundo predice cómo será el mundo basado en esa información. Después, se le dan al modelo del mundo objetivos, incluyendo un estado alterado del mundo que te gustaría lograr (como una habitación limpia) y límites para asegurar que el modelo no dañe a los humanos para lograr un objetivo (no me mates en el proceso de limpiar mi habitación, por favor). Luego, el modelo del mundo encuentra una secuencia de acciones para alcanzar estos objetivos.
El laboratorio de investigación de IA a largo plazo de Meta, FAIR o Investigación Fundamental de IA, está trabajando activamente en la construcción de IA impulsada por objetivos y modelos del mundo, según LeCun. FAIR solía trabajar en IA para los próximos productos de Meta, pero LeCun dice que el laboratorio ha cambiado en los últimos años para centrarse únicamente en la investigación de IA a largo plazo. LeCun afirma que FAIR ni siquiera utiliza modelos de lenguaje en estos días. Los modelos del mundo son una idea intrigante, pero LeCun dice que no hemos avanzado mucho en llevar estos sistemas a la realidad. Hay muchos problemas difíciles por resolver para llegar a donde estamos hoy, y dice que es ciertamente más complicado de lo que pensamos. “Tomará años antes de que podamos hacer que todo esto funcione, si no una década”, dijo LeCun. “Mark Zuckerberg sigue preguntándome cuánto tiempo llevará”.