La inteligencia artificial (IA) puede ser muy buena en tareas como programar o generar pódcast, pero tiene dificultades para responder preguntas de historia avanzada, según un nuevo estudio. Un equipo de investigadores ha creado un nuevo estándar para evaluar tres modelos de lenguaje de gran tamaño (LLMs): GPT-4 de OpenAI, Llama de Meta y Gemini de Google, en preguntas históricas. Este estándar, llamado Hist-LLM, mide la precisión de las respuestas basándose en el Seshat Global History Databank, una extensa base de datos de conocimiento histórico que lleva el nombre de la diosa egipcia de la sabiduría.
Los resultados, presentados el mes pasado en la importante conferencia de IA NeurIPS, fueron decepcionantes. El modelo que mejor desempeño tuvo fue GPT-4 Turbo, pero solo logró una precisión de aproximadamente 46%, lo que no es mucho mejor que adivinar al azar. Maria del Rio-Chanona, coautora del estudio y profesora asociada de informática en University College London, comentó: “El principal mensaje de este estudio es que, aunque los LLMs son impresionantes, aún carecen de la profundidad de comprensión necesaria para la historia avanzada. Son buenos para hechos básicos, pero no están a la altura en investigaciones históricas más complejas”.
Los investigadores compartieron ejemplos de preguntas históricas que los LLMs respondieron incorrectamente. Por ejemplo, cuando se le preguntó a GPT-4 Turbo si existía armadura de escamas en un periodo específico de la antigua Egipto, el modelo respondió que sí, aunque esta tecnología apareció 1,500 años después.
La razón por la que los LLMs tienen problemas con preguntas históricas técnicas, a pesar de ser buenos en temas complejos como la programación, podría ser que tienden a extrapolar de datos históricos muy conocidos, lo que les dificulta acceder a conocimientos más oscuros. Por ejemplo, al preguntar si Egipto tenía un ejército profesional en un periodo específico, el LLM respondió incorrectamente que sí, cuando la respuesta correcta es no. Esto puede deberse a que hay mucha información pública sobre otros imperios antiguos, como Persia, que sí tenían ejércitos permanentes.
Los investigadores también notaron que los modelos de OpenAI y Llama tuvieron un rendimiento peor en ciertas regiones, como África subsahariana, lo que sugiere sesgos en sus datos de entrenamiento. Peter Turchin, quien lideró el estudio, afirmó que estos resultados muestran que los LLMs aún no pueden sustituir a los humanos en ciertos dominios. Sin embargo, los investigadores son optimistas sobre el futuro de los LLMs en la historia. Están trabajando en mejorar su estándar incluyendo más datos de regiones subrepresentadas y preguntas más complejas. “En general, aunque nuestros resultados destacan áreas donde los LLMs necesitan mejorar, también subrayan el potencial de estos modelos para ayudar en la investigación histórica”, concluye el estudio.