La mayoría de las pruebas de inteligencia artificial (IA) no nos dicen mucho. Muchas veces, solo hacen preguntas que se pueden responder memorizando o tratan temas que no son relevantes para la mayoría de los usuarios. Por eso, algunos entusiastas de la IA están utilizando juegos para evaluar las habilidades de resolución de problemas de las IA.
Paul Calcraft, un desarrollador freelance de IA, creó una aplicación donde dos modelos de IA juegan un juego similar al Pictionary. Un modelo dibuja, mientras que el otro intenta adivinar qué representa el dibujo. Calcraft se sintió motivado por un proyecto similar de Simon Willison, un programador británico, que retó a los modelos a dibujar un pelícano montando una bicicleta. Ambos pensaron que estos desafíos obligarían a los modelos a “pensar” más allá de lo que aprendieron en sus datos de entrenamiento.
Calcraft explicó que la idea es tener una prueba que no se pueda superar solo memorizando respuestas específicas. Minecraft también entra en esta categoría de “pruebas imposibles de engañar”, según Adonis Singh, un joven de 16 años que creó una herramienta llamada Mcbench. Esta herramienta permite que un modelo controle un personaje en Minecraft y evalúa su capacidad para diseñar estructuras. Singh cree que Minecraft permite a los modelos ser más ingeniosos y tener más libertad que otras pruebas.
Usar juegos para evaluar la IA no es algo nuevo. Desde hace décadas, se ha considerado que juegos como el ajedrez son un buen reto para software “inteligente”. Recientemente, empresas como DeepMind y OpenAI han desarrollado modelos que pueden jugar a videojuegos populares. Sin embargo, ahora los entusiastas están conectando modelos de lenguaje grande (LLMs) a juegos para ver qué tan buenos son en lógica.
Los LLMs son modelos que pueden analizar texto, imágenes y más, y cada uno tiene características diferentes. Calcraft mencionó que estos modelos son sensibles a cómo se les hacen las preguntas, lo que los hace poco confiables y difíciles de predecir. A diferencia de las pruebas basadas en texto, los juegos ofrecen una forma visual e intuitiva de comparar el rendimiento de un modelo.
Calcraft también destacó que el juego de Pictionary puede evaluar la capacidad de un LLM para entender conceptos como formas y colores. Aunque no lo considera una prueba confiable de razonamiento, argumenta que ganar requiere estrategia y comprensión de pistas, lo que no es fácil para los modelos.
Singh también considera que Minecraft es una buena prueba para medir el razonamiento en LLMs. Sin embargo, Mike Cook, un investigador de IA, no está tan convencido de que Minecraft sea especial como campo de prueba. Cook sugiere que la fascinación por Minecraft proviene de personas que piensan que, al parecerse al “mundo real”, está más conectado con el razonamiento del mundo real. Sin embargo, argumenta que no es muy diferente de otros videojuegos en términos de resolución de problemas.
En resumen, aunque hay opiniones divididas sobre la efectividad de juegos como Pictionary y Minecraft para evaluar la IA, es indudable que observar a los LLMs construir castillos es fascinante.