Cuando una empresa lanza un nuevo generador de videos con inteligencia artificial, no pasa mucho tiempo antes de que alguien lo use para crear un video del actor Will Smith comiendo espaguetis. Este fenómeno se ha convertido en un meme y un punto de referencia: se prueba si el nuevo generador de videos puede mostrar a Smith disfrutando de un plato de fideos de manera realista. El propio Smith parodió esta tendencia en una publicación de Instagram en febrero.
El generador de videos Google Veo 2 lo ha logrado. Finalmente estamos comiendo espaguetis.
Will Smith y la pasta son solo uno de varios “puntos de referencia” extraños que han sorprendido a la comunidad de inteligencia artificial en 2024. Un desarrollador de 16 años creó una aplicación que permite a la IA controlar Minecraft y evaluar su capacidad para diseñar estructuras. Por otro lado, un programador británico creó una plataforma donde la IA juega juegos como Pictionary y Conecta 4 entre sí.
No es que no existan pruebas más académicas del rendimiento de la IA. Entonces, ¿por qué los ejemplos más raros se han vuelto tan populares?
Por un lado, muchos de los estándares de evaluación de IA no dicen mucho a la persona promedio. Las empresas a menudo mencionan la capacidad de su IA para responder preguntas de exámenes de matemáticas o resolver problemas de nivel doctoral. Sin embargo, la mayoría de las personas —incluyéndome— utilizan chatbots para tareas como responder correos electrónicos y hacer investigaciones básicas. Las medidas de la industria basadas en la multitud no son necesariamente mejores o más informativas. Por ejemplo, Chatbot Arena es un punto de referencia público que muchos entusiastas y desarrolladores de IA siguen de cerca. Permite a cualquier persona en la web calificar el rendimiento de la IA en tareas específicas, como crear una aplicación web o generar una imagen. Pero los evaluadores no suelen ser representativos; la mayoría proviene de círculos de la industria de la IA y la tecnología, y sus votos se basan en preferencias personales difíciles de definir.
Ethan Mollick, profesor de gestión en Wharton, señaló recientemente en una publicación en X otro problema con muchos de los puntos de referencia de la industria de la IA: no comparan el rendimiento de un sistema con el de la persona promedio. “Es una verdadera pena que no haya 30 diferentes puntos de referencia de distintas organizaciones en medicina, derecho, calidad de asesoramiento, etc., ya que la gente está utilizando sistemas para estas cosas, independientemente”, escribió Mollick.
Los puntos de referencia extraños de IA, como Conecta 4, Minecraft y Will Smith comiendo espaguetis, no son empíricos ni generalizables. Que una IA pase la prueba de Will Smith no significa que pueda generar, por ejemplo, una hamburguesa de manera efectiva.
Un experto con el que hablé sobre los puntos de referencia de IA sugirió que la comunidad de IA se enfoque en los impactos a largo plazo de la IA en lugar de su capacidad en dominios específicos. Eso tiene sentido. Pero tengo la sensación de que los puntos de referencia extraños no desaparecerán pronto. No solo son entretenidos —¿a quién no le gusta ver a la IA construir castillos en Minecraft?—, sino que también son fáciles de entender. Y como escribió recientemente mi colega Max Zeff, la industria sigue luchando por simplificar una tecnología tan compleja como la IA en un marketing comprensible. La única pregunta que me queda es: ¿cuáles serán los nuevos puntos de referencia extraños que se volverán virales en 2025?