Un conocido test para medir la inteligencia artificial general (AGI) está más cerca de ser resuelto, pero sus creadores advierten que esto revela fallas en el diseño del test, en lugar de un verdadero avance en la investigación. En 2019, Francois Chollet, una figura destacada en el mundo de la IA, presentó el benchmark ARC-AGI, que significa “Corpus Abstracto y de Razonamiento para la Inteligencia Artificial General”. Este test está diseñado para evaluar si un sistema de IA puede adquirir nuevas habilidades de manera eficiente, fuera de los datos con los que fue entrenado. Chollet sostiene que ARC-AGI sigue siendo la única prueba que mide el progreso hacia la inteligencia general, aunque se han propuesto otros tests.
Hasta este año, la IA más avanzada solo podía resolver menos de un tercio de las tareas en ARC-AGI. Chollet atribuye esto a la atención de la industria en los modelos de lenguaje grandes (LLMs), que, según él, no son capaces de un verdadero “razonamiento”. “Los LLMs tienen dificultades con la generalización, ya que dependen completamente de la memorización”, comentó en una serie de publicaciones en X en febrero. “Se descomponen con cualquier cosa que no estuviera en sus datos de entrenamiento”.
Chollet explica que los LLMs son máquinas estadísticas que, al ser entrenadas con muchos ejemplos, aprenden patrones para hacer predicciones. Aunque pueden memorizar “patrones de razonamiento”, es poco probable que generen “nuevo razonamiento” en situaciones novedosas. Para fomentar la investigación más allá de los LLMs, en junio, Chollet y Mike Knoop, cofundador de Zapier, lanzaron una competencia de un millón de dólares para crear una IA de código abierto capaz de superar ARC-AGI. De 17,789 propuestas, la mejor obtuvo un 55.5%, un 20% más que el mejor puntaje de 2023, aunque aún lejos del 85% necesario para ganar.
Hoy se anuncian los ganadores del ARC Prize 2024 y se publicará un informe técnico sobre lo aprendido en la competencia. Knoop mencionó que muchas de las propuestas han logrado “forzar” una solución, sugiriendo que una “gran parte” de las tareas de ARC-AGI “no aportan señales útiles hacia la inteligencia general”. ARC-AGI consiste en problemas tipo rompecabezas donde una IA debe generar la cuadrícula de “respuestas” correcta a partir de una cuadrícula de cuadrados de diferentes colores. Sin embargo, no está claro si realmente logran que una IA se adapte a nuevos problemas.
Knoop también reconoció que “[ARC-AGI] no ha cambiado desde 2019 y no es perfecto”. Ambos han enfrentado críticas por sobrevalorar ARC-AGI como un referente hacia la AGI, en un momento en que la definición de AGI es muy debatida. Un miembro de OpenAI afirmó recientemente que la AGI ya se ha logrado si se define como una IA “mejor que la mayoría de los humanos en la mayoría de las tareas”. Knoop y Chollet planean lanzar una segunda generación del benchmark ARC-AGI para abordar estos problemas, junto con una competencia en 2025. “Continuaremos dirigiendo los esfuerzos de la comunidad de investigación hacia los problemas no resueltos más importantes en IA y aceleraremos el camino hacia la AGI”, escribió Chollet en una publicación en X. Sin embargo, las soluciones no serán fáciles. Si las deficiencias del primer test de ARC-AGI son un indicativo, definir la inteligencia para la IA será tan complicado y polémico como lo ha sido para los seres humanos.