DeepMind, la organización de investigación en inteligencia artificial de Google, ha presentado un nuevo modelo llamado Genie 2, que puede crear una variedad “infinita” de mundos 3D jugables. Genie 2 es la evolución de Genie, que se lanzó a principios de este año. Este modelo puede generar escenas interactivas en tiempo real a partir de una sola imagen y una descripción de texto, como por ejemplo: “Un robot humanoide adorable en el bosque”.
Genie 2 es capaz de crear mundos 3D ricos y diversos donde los usuarios pueden realizar acciones como saltar y nadar usando el mouse o el teclado. Ha sido entrenado con videos, lo que le permite simular interacciones entre objetos, animaciones, iluminación, física, reflejos y el comportamiento de personajes no jugables (NPCs).
Las simulaciones de Genie 2 se asemejan a videojuegos de alta calidad, posiblemente porque su entrenamiento incluye grabaciones de juegos populares. Sin embargo, DeepMind no ha compartido muchos detalles sobre cómo obtuvo estos datos, probablemente por razones de competencia. Esto plantea preguntas sobre la propiedad intelectual, ya que DeepMind, siendo una subsidiaria de Google, tiene acceso a YouTube y ha insinuado que sus términos de servicio le permiten usar videos de la plataforma para entrenar modelos. Esto lleva a cuestionar si Genie 2 está creando copias no autorizadas de los juegos que “observó”.
Genie 2 puede generar mundos coherentes desde diferentes perspectivas, como vistas en primera persona e isométricas, durante un minuto, aunque la mayoría de las simulaciones duran entre 10 y 20 segundos. DeepMind explicó que Genie 2 responde de manera inteligente a las acciones realizadas al presionar teclas en el teclado, identificando correctamente al personaje y moviéndolo. Por ejemplo, el modelo puede entender que las teclas de flecha deben mover un robot y no árboles o nubes.
A diferencia de otros modelos que simulan juegos y entornos 3D, Genie 2 puede recordar partes de una escena simulada que no están a la vista y representarlas con precisión cuando vuelven a ser visibles. Aunque los juegos creados con Genie 2 no serían muy divertidos, ya que perder el progreso cada minuto sería frustrante, DeepMind lo presenta como una herramienta de investigación y creatividad, ideal para prototipar “experiencias interactivas” y evaluar agentes de inteligencia artificial.
DeepMind afirma que gracias a las capacidades de generalización de Genie 2, se pueden convertir obras de arte y dibujos en entornos completamente interactivos. Además, al usar Genie 2 para crear rápidamente entornos ricos y diversos para agentes de IA, los investigadores pueden generar tareas de evaluación que los agentes no han visto durante su entrenamiento. Aunque Genie 2 está en sus primeras etapas, DeepMind cree que será un componente clave en el desarrollo de los agentes de inteligencia artificial del futuro.