Un sistema de inteligencia artificial desarrollado por Google DeepMind ha demostrado ser más efectivo que un medallista promedio en la resolución de problemas de geometría en una competencia internacional de matemáticas. Este sistema, llamado AlphaGeometry2, es una versión mejorada de AlphaGeometry, lanzado el pasado enero. Según un estudio reciente, los investigadores de DeepMind afirman que su IA puede resolver el 84% de todos los problemas de geometría de los últimos 25 años en la Olimpiada Internacional de Matemáticas (IMO), un concurso para estudiantes de secundaria.
¿Y por qué le interesa a DeepMind una competencia de matemáticas de nivel secundario? La razón es que el laboratorio cree que la clave para desarrollar una IA más capaz podría estar en encontrar nuevas formas de resolver problemas desafiantes de geometría, especialmente en geometría euclidiana. Demostrar teoremas matemáticos, como el teorema de Pitágoras, requiere razonamiento y la capacidad de elegir entre diferentes pasos hacia una solución. Estas habilidades de resolución de problemas podrían ser componentes útiles para futuros modelos de IA de propósito general.
Este verano, DeepMind mostró un sistema que combinaba AlphaGeometry2 con AlphaProof, un modelo de IA para razonamiento matemático formal, logrando resolver cuatro de seis problemas de la IMO 2024. Además de problemas de geometría, enfoques como este podrían aplicarse a otras áreas de matemáticas y ciencia, como cálculos de ingeniería complejos.
AlphaGeometry2 incluye varios elementos clave, como un modelo de lenguaje de la familia Gemini de Google y un “motor simbólico”. El modelo Gemini ayuda al motor simbólico a inferir soluciones a problemas utilizando reglas matemáticas y a llegar a pruebas viables para un teorema de geometría. Los problemas de geometría en la IMO se basan en diagramas que requieren “constructos” adicionales, como puntos, líneas o círculos, para ser resueltos. El modelo Gemini de AlphaGeometry2 predice qué constructos podrían ser útiles, y el motor los utiliza para hacer deducciones.
AlphaGeometry2 realiza múltiples búsquedas de soluciones en paralelo y almacena hallazgos útiles en una base de conocimiento común. Considera un problema como “resuelto” cuando llega a una prueba que combina las sugerencias del modelo Gemini con los principios conocidos del motor simbólico. Debido a la complejidad de traducir pruebas a un formato que la IA pueda entender, hay una escasez de datos de entrenamiento útiles en geometría. Por ello, DeepMind creó sus propios datos sintéticos, generando más de 300 millones de teoremas y pruebas de diferentes complejidades.
El equipo de DeepMind seleccionó 45 problemas de geometría de competencias de la IMO de los últimos 25 años y los “tradujeron” a un conjunto más grande de 50 problemas. AlphaGeometry2 resolvió 42 de estos problemas, superando la puntuación promedio de un medallista de oro. Sin embargo, hay limitaciones: AlphaGeometry2 no puede resolver problemas con un número variable de puntos, ecuaciones no lineales e inecuaciones. Aunque no es el primer sistema de IA en alcanzar un rendimiento de nivel medallista de oro en geometría, es el primero en hacerlo con un conjunto de problemas de este tamaño.
A pesar de sus logros, AlphaGeometry2 tuvo un rendimiento inferior en otro conjunto de problemas más difíciles. El equipo de DeepMind eligió 29 problemas que fueron nominados por expertos matemáticos para los exámenes de la IMO, pero que aún no se han presentado en una competencia. AlphaGeometry2 solo pudo resolver 20 de estos problemas. Los resultados del estudio probablemente avivarán el debate sobre si los sistemas de IA deben basarse en la manipulación de símbolos o en redes neuronales, que son más similares al funcionamiento del cerebro.
AlphaGeometry2 adopta un enfoque híbrido: su modelo Gemini tiene una arquitectura de red neuronal, mientras que su motor simbólico se basa en reglas. Los defensores de las técnicas de redes neuronales argumentan que el comportamiento inteligente puede surgir de grandes cantidades de datos y computación. En contraste, los sistemas simbólicos resuelven tareas definiendo conjuntos de reglas para manipular símbolos.
AlphaGeometry2 demuestra que combinar ambas aproximaciones podría ser un camino prometedor en la búsqueda de una IA más generalizable. Según el estudio de DeepMind, otro modelo de red neuronal no pudo resolver problemas que AlphaGeometry2 sí pudo. Sin embargo, el equipo encontró evidencia preliminar de que el modelo de lenguaje de AlphaGeometry2 podría generar soluciones parciales sin la ayuda del motor simbólico. Esto sugiere que los modelos de lenguaje grandes pueden ser autosuficientes, aunque hasta que se mejoren la velocidad y se resuelvan problemas como las “alucinaciones”, las herramientas seguirán siendo esenciales para aplicaciones matemáticas.