Los modelos del mundo, también conocidos como simuladores del mundo, están siendo considerados por algunos como la próxima gran novedad en la inteligencia artificial (IA). Fei-Fei Li, una pionera en IA, ha recaudado 230 millones de dólares para construir “grandes modelos del mundo” a través de su iniciativa World Labs. Además, DeepMind ha contratado a uno de los creadores del generador de videos de OpenAI, Sora, para trabajar en “simuladores del mundo”. Pero, ¿qué son exactamente estos modelos?
Los modelos del mundo se inspiran en los modelos mentales que los humanos desarrollan de manera natural. Nuestros cerebros toman representaciones abstractas de nuestros sentidos y las convierten en una comprensión más concreta del entorno, creando lo que llamamos “modelos” mucho antes de que la IA adoptara este término. Las predicciones que hacemos basadas en estos modelos influyen en cómo percibimos el mundo. Un estudio de los investigadores de IA David Ha y Jurgen Schmidhuber da el ejemplo de un bateador de béisbol. Los bateadores tienen milisegundos para decidir cómo golpear la pelota, un tiempo más corto que el que tardan las señales visuales en llegar al cerebro. La razón por la que pueden golpear una pelota lanzada a 100 millas por hora es que pueden predecir instintivamente hacia dónde irá la pelota.
Estos aspectos de razonamiento subconsciente de los modelos del mundo son considerados por algunos como requisitos previos para alcanzar una inteligencia similar a la humana. Aunque el concepto ha existido durante décadas, los modelos del mundo han ganado popularidad recientemente, en parte por sus prometedoras aplicaciones en la generación de videos. La mayoría de los videos generados por IA tienden a caer en lo que se llama “valle inquietante”. Si los observas durante un tiempo, algo extraño sucederá, como extremidades que se retuercen y se fusionan. Aunque un modelo generativo entrenado con años de video puede predecir que un balón de baloncesto rebota, no tiene idea de por qué lo hace, al igual que los modelos de lenguaje no comprenden realmente los conceptos detrás de las palabras.
Un modelo del mundo que tenga al menos una comprensión básica de por qué un balón de baloncesto rebota de esa manera será mejor para mostrarlo. Para lograr este tipo de comprensión, los modelos del mundo se entrenan con una variedad de datos, incluyendo fotos, audio, videos y texto, con la intención de crear representaciones internas de cómo funciona el mundo y la capacidad de razonar sobre las consecuencias de las acciones.
Los modelos del mundo no solo prometen mejorar la generación de videos, sino que también podrían ser utilizados para pronósticos y planificación sofisticados en el ámbito digital y físico. Investigadores como Yann LeCun, científico jefe de IA en Meta, han descrito cómo un modelo del mundo podría ayudar a alcanzar un objetivo deseado a través del razonamiento. Un modelo con una representación básica de un “mundo” (por ejemplo, un video de una habitación sucia), dado un objetivo (una habitación limpia), podría idear una secuencia de acciones para lograr ese objetivo, no porque haya observado un patrón, sino porque comprende a un nivel más profundo cómo pasar de lo sucio a lo limpio.
A pesar de que LeCun estima que estamos al menos una década lejos de los modelos del mundo que imagina, los modelos actuales están mostrando promesas como simuladores de física elementales. OpenAI menciona que Sora, que considera un modelo del mundo, puede simular acciones como un pintor dejando pinceladas en un lienzo. Modelos como Sora también pueden simular efectivamente videojuegos, creando una interfaz y un mundo de juego similar a Minecraft.
Sin embargo, existen muchos desafíos técnicos por superar. Entrenar y ejecutar modelos del mundo requiere un poder de cómputo masivo, mucho mayor que el que utilizan los modelos generativos actuales. Mientras que algunos de los modelos de lenguaje más recientes pueden funcionar en un teléfono inteligente moderno, Sora necesitaría miles de GPUs para entrenarse y ejecutarse. Además, los modelos del mundo, como todos los modelos de IA, pueden “alucinar” y asimilar sesgos de sus datos de entrenamiento.
Si se superan todos estos obstáculos, los modelos del mundo podrían conectar de manera más robusta la IA con el mundo real, lo que podría llevar a avances no solo en la generación de mundos virtuales, sino también en robótica y toma de decisiones de IA. Estos modelos podrían proporcionar a los robots una conciencia del entorno que actualmente les falta, permitiéndoles desarrollar una comprensión personal de cualquier escenario en el que se encuentren y razonar posibles soluciones.