¿Sabías que algunas de las personas más inteligentes del mundo crean pruebas para evaluar las capacidades de la inteligencia artificial (IA) en replicar la inteligencia humana? Lo sorprendente es que la mayoría de estas pruebas son fácilmente superadas por modelos de IA, lo que demuestra cuán avanzados son sistemas como GPT-4o de ChatGPT, Gemini 1.5 de Google y el nuevo o3-mini.
En un esfuerzo por crear la prueba más difícil posible, Scale AI y el Centro para la Seguridad de la IA (CAIS) se han unido para desarrollar “El Último Examen de la Humanidad”, una evaluación que buscan que sea un “nuevo estándar revolucionario diseñado para probar los límites del conocimiento de la IA en las fronteras de la experiencia humana”.
No soy un genio, pero he visto algunas de estas preguntas y son increíblemente difíciles. De hecho, solo las mentes más brillantes del planeta podrían responderlas. Esta alta dificultad significa que, al probar los modelos de IA actuales, solo pudieron responder correctamente menos del 10% de las preguntas.
El nombre original de la prueba era “La Última Defensa de la Humanidad”, pero se cambió a “Examen” para quitarle un poco el miedo al concepto. Las preguntas fueron recopiladas de expertos de más de 500 instituciones en 50 países, quienes crearon las preguntas de razonamiento más desafiantes posibles.
El conjunto de datos actual de “El Último Examen de la Humanidad” consta de 3,000 preguntas, y hemos seleccionado algunas muestras para mostrarte cuán complicadas son. ¿Puedes aprobar “El Último Examen de la Humanidad”? ¡Buena suerte!
Aquí hay un ejemplo de pregunta: “Los colibríes dentro de los Apodiformes tienen un hueso ovalado emparejado bilateralmente, un sesamoide incrustado en la porción caudolateral de la aponeurosis expandida de inserción del m. depressor caudae. ¿Cuántos tendones emparejados son soportados por este hueso sesamoide? Responde con un número.”
Otro ejemplo: “Estoy proporcionando el texto estándar en hebreo bíblico de la Biblia Hebraica Stuttgartensia (Salmos 104:7). Tu tarea es distinguir entre sílabas cerradas y abiertas. Por favor, identifica y enumera todas las sílabas cerradas (que terminan en un sonido consonante) basándote en la investigación más reciente sobre la tradición de pronunciación tiberiana del hebreo bíblico.”
En la mitología griega, ¿quién era el bisabuelo materno de Jasón?
Según los resultados iniciales reportados por CAIS y Scale AI, GPT-4o de OpenAI logró un 3.3% de precisión en “El Último Examen de la Humanidad”, mientras que Grok-2 alcanzó un 3.8%, Claude un 3.5%, Sonnet un 4.3%, Gemini un 6.2%, o1 un 9.1%, y DeepSeek-R1 (que es solo texto, ya que no es multimodal) logró un 9.4%.
Curiosamente, “El Último Examen de la Humanidad” es considerablemente más difícil para la IA que cualquier otro estándar existente, incluyendo opciones populares como GPQA, MATH y MMLU.
Entonces, ¿qué significa todo esto? Aún estamos en la infancia de los modelos de IA con funcionalidad de razonamiento, y aunque el nuevo o3 y o3-mini de OpenAI aún no han enfrentado esta prueba increíblemente difícil, tomará mucho tiempo para que cualquier modelo de lenguaje grande (LLM) se acerque a completar “El Último Examen de la Humanidad”.
Es importante tener en cuenta que la IA está evolucionando a un ritmo acelerado, con nuevas funcionalidades disponibles casi a diario. Esta semana, OpenAI presentó Operator, su primer agente de IA, que promete un futuro donde la IA pueda automatizar tareas que normalmente requerirían intervención humana. Por ahora, ninguna IA puede acercarse a completar “El Último Examen de la Humanidad”, pero cuando una lo logre… podríamos estar en problemas.