Varios investigadores de Apple han confirmado que la inteligencia artificial (IA) tiene fallos lógicos serios, especialmente en matemáticas básicas. En un artículo reciente titulado ‘GSM-Symbolic: Entendiendo las Limitaciones del Razonamiento Matemático en Modelos de Lenguaje Grande’, seis investigadores de Apple explican que el “razonamiento” matemático que utilizan estos modelos puede ser muy inexacto y frágil si se cambia la forma en que se presentan los problemas.
Los investigadores comenzaron con un conjunto estandarizado de 8,000 problemas de matemáticas de nivel escolar, conocido como GSM8K, que se usa comúnmente para probar estos modelos. Luego, hicieron ligeras modificaciones en la redacción sin cambiar la lógica del problema y lo llamaron prueba GSM-Symbolic. En la primera serie de pruebas, el rendimiento disminuyó entre un 0.3% y un 9.2%. Sin embargo, en la segunda serie, que incluía una afirmación engañosa sin relación con la respuesta, las caídas de rendimiento fueron “catastróficas”, entre un 17.5% y un impresionante 65.7%.
¿Qué significa esto para la IA? No se necesita ser científico para darse cuenta de que estos números son alarmantes. Muestran que los modelos de lenguaje grande (LLMs) no resuelven problemas correctamente, sino que utilizan un simple “coincidencia de patrones” para “convertir declaraciones en operaciones sin entender realmente su significado”. Si se cambia ligeramente la información en los problemas, esto interfiere gravemente con la capacidad de los LLMs para reconocer esos patrones.
La idea detrás de estos LLMs es que realizan operaciones de manera similar a como lo haría un humano, pero estudios como este demuestran lo contrario: hay limitaciones críticas en su funcionamiento. Se supone que deben emplear un razonamiento avanzado, pero carecen de un modelo lógico o del mundo que lo respalde, lo que limita severamente su potencial real.
Si una IA no puede realizar matemáticas simples porque las palabras son demasiado confusas y no siguen el mismo patrón exacto, ¿cuál es el propósito? ¿No se supone que las computadoras están diseñadas para hacer cálculos a velocidades que los humanos no pueden? En este punto, sería mejor cerrar el chatbot de IA y usar una calculadora.
Es decepcionante que los LLMs actuales en los chatbots de IA funcionen todos con esta misma programación defectuosa. Dependen completamente de la gran cantidad de datos que procesan para dar la ilusión de razonamiento lógico, sin acercarse a dar el siguiente verdadero paso en la capacidad de la IA: la manipulación de símbolos mediante el uso de conocimientos abstractos en álgebra y programación.
Hasta que eso suceda, ¿qué estamos realmente haciendo con la IA? ¿Cuál es el propósito de su enorme consumo de recursos naturales si ni siquiera es capaz de cumplir con lo que se le ha prometido? Tener tantos estudios, especialmente este, que confirman esta amarga verdad hace que todo el esfuerzo parezca una pérdida de tiempo.