En una reciente aparición ante la prensa, Sam Altman, CEO de OpenAI, comentó que ha notado una rápida mejora en lo que él llama el “CI” de la inteligencia artificial en los últimos años. Altman mencionó que, de manera aproximada, siente que cada año avanzamos un “desviación estándar” en este aspecto. No es la primera vez que se utiliza el CI, una estimación de la inteligencia humana, como referencia para medir el progreso de la IA. Influencers de IA en redes sociales han realizado pruebas de CI a diferentes modelos y han clasificado los resultados.
Sin embargo, muchos expertos opinan que el CI no es una buena medida de las capacidades de un modelo y puede ser engañosa. Sandra Wachter, investigadora en tecnología y regulación en Oxford, explicó que es tentador usar las mismas medidas que se utilizan para los humanos, pero esto es como comparar peras con manzanas. Altman asoció el CI con la inteligencia, pero las pruebas de CI son medidas relativas y no objetivas de ciertos tipos de inteligencia. Aunque hay consenso en que el CI es un buen indicador de lógica y razonamiento abstracto, no mide la inteligencia práctica, que es saber cómo hacer que las cosas funcionen.
Wachter destacó que el CI es una herramienta para medir las capacidades humanas, pero no se puede usar la misma medida para describir las capacidades de la IA. Por ejemplo, un coche es más rápido que un humano, y un submarino es mejor para bucear, pero esto no significa que superen la inteligencia humana. La capacidad de un modelo para obtener buenos resultados en una prueba de CI dice más sobre las fallas de la prueba que sobre el rendimiento del modelo.
Además, un modelo puede tener una ventaja injusta en las pruebas de CI, ya que cuenta con enormes cantidades de memoria y conocimiento. Los modelos suelen ser entrenados con datos de la web, que está llena de preguntas de pruebas de CI. Mike Cook, investigador en el King’s College de Londres, mencionó que las pruebas tienden a repetir patrones similares, y practicar con estas pruebas es una forma efectiva de aumentar el CI, algo que los modelos han hecho.
Cook también señaló que las pruebas de CI, aunque sesgadas, fueron diseñadas para humanos y no son apropiadas para una tecnología que resuelve problemas de manera muy diferente. Un cuervo puede usar una herramienta para obtener una golosina de una caja, pero eso no significa que pueda inscribirse en Harvard. Cuando una persona resuelve un problema matemático, su cerebro enfrenta muchas más distracciones que una IA, que puede procesar información sin ruido.
Todo esto subraya la necesidad de mejores pruebas para la IA, según Heidy Khlaaf, científica principal de IA en el AI Now Institute. Khlaaf indicó que, en la historia de la computación, no hemos comparado las habilidades de las máquinas con las humanas precisamente porque la naturaleza de la computación permite que los sistemas realicen tareas que ya superan la capacidad humana. La idea de comparar directamente el rendimiento de los sistemas con las habilidades humanas es un fenómeno reciente y muy debatido, rodeado de controversia sobre los estándares en constante expansión que se crean para evaluar los sistemas de IA.