"¿Cómo medimos realmente el progreso de la IA? Un vistazo a las pruebas y estándares actuales y cómo pueden mejorar"

February 19, 2025 / Pablo

“¿Cómo medimos realmente el progreso de la IA? Un vistazo a las pruebas y estándares actuales y cómo pueden mejorar”

¡Bienvenidos a la newsletter regular de Noticias IA! Vamos a tomar un descanso por un tiempo, pero puedes encontrar toda nuestra cobertura sobre inteligencia artificial, incluyendo mis columnas, análisis diarios y noticias de última hora, en nuestra página. Si deseas recibir estas historias y mucho más en tu bandeja de entrada cada día, suscríbete a nuestros boletines diarios aquí.

Esta semana, la startup de inteligencia artificial del multimillonario Elon Musk, xAI, lanzó su último modelo de inteligencia artificial, Grok 3, que impulsa las aplicaciones de chatbot de la empresa. Este modelo fue entrenado con alrededor de 200,000 unidades de procesamiento gráfico (GPUs) y supera a varios otros modelos líderes, incluidos los de OpenAI, en pruebas de matemáticas, programación y más. Pero, ¿qué nos dicen realmente estas pruebas?

En Noticias IA, a menudo informamos sobre cifras de pruebas porque son una de las pocas formas estandarizadas en que la industria de la IA mide las mejoras de los modelos. Sin embargo, las pruebas populares suelen evaluar conocimientos muy específicos y dan puntuaciones que no siempre reflejan la habilidad en las tareas que realmente importan a la mayoría de las personas.

Como señaló el profesor Ethan Mollick de Wharton en una serie de publicaciones, hay una “necesidad urgente de mejores pruebas y autoridades de evaluación independientes”. Las empresas de IA a menudo informan sus propios resultados de pruebas, lo que hace que sea difícil aceptarlos sin cuestionar. Mollick comentó que “las pruebas públicas son mediocres y están saturadas, dejando que muchas evaluaciones de IA sean como reseñas de comida, basadas en gustos”. Si la IA es crucial para el trabajo, necesitamos más.

No faltan pruebas independientes y organizaciones que proponen nuevos estándares para la IA, pero su valor relativo no está claro en la industria. Algunos expertos sugieren alinear las pruebas con el impacto económico para asegurar su utilidad, mientras que otros argumentan que la adopción y la utilidad son las verdaderas métricas. Este debate podría continuar indefinidamente. Quizás deberíamos, como sugiere un usuario de X, prestar menos atención a nuevos modelos y pruebas, a menos que haya avances técnicos significativos en IA. Para nuestra cordura colectiva, puede que no sea la peor idea, aunque podría generar un poco de ansiedad por perderse algo.

Como se mencionó, esta semana en IA tomará un descanso. Gracias por acompañarnos en este emocionante viaje. Hasta la próxima.

Además, OpenAI está intentando “desocultar” ChatGPT, cambiando su enfoque de desarrollo para abrazar la “libertad intelectual”, sin importar cuán desafiantes o controvertidos sean los temas. La nueva startup de la ex CTO de OpenAI, Mira Murati, llamada Thinking Machines Lab, tiene la intención de crear herramientas para “hacer que la IA funcione para las necesidades y objetivos únicos de las personas”.

Elon Musk también ha presentado Grok 3 y nuevas capacidades para las aplicaciones Grok en iOS y la web. Meta organizará su primera conferencia de desarrolladores dedicada a la IA generativa, llamada LlamaCon, programada para el 29 de abril. En Europa, se ha perfilado OpenEuroLLM, una colaboración entre unas 20 organizaciones para construir “una serie de modelos fundamentales para una IA transparente en Europa” que preserve la “diversidad lingüística y cultural” de todos los idiomas de la UE.

OpenAI ha creado un nuevo estándar de IA, SWE-Lancer, que evalúa la capacidad de codificación de los sistemas de IA. Este estándar incluye más de 1,400 tareas de ingeniería de software freelance. El modelo de IA que mejor se desempeñó, Claude 3.5 Sonnet de Anthropic, obtuvo un 40.3% en el estándar completo, lo que sugiere que la IA aún tiene un largo camino por recorrer.

Una empresa de IA china llamada Stepfun ha lanzado un modelo de IA “abierto”, Step-Audio, que puede entender y generar habla en varios idiomas, incluyendo chino, inglés y japonés, y permite a los usuarios ajustar la emoción y el dialecto del audio sintético que crea, incluso cantando. Fundada en 2023, Stepfun cerró recientemente una ronda de financiamiento de varios cientos de millones de dólares.

Por último, el grupo de investigación de IA Nous Research ha lanzado un modelo que unifica el razonamiento y las capacidades de modelos de lenguaje intuitivo. El modelo, DeepHermes-3 Preview, puede activar y desactivar “cadenas de pensamiento” para mejorar la precisión, aunque requiere más recursos computacionales. En “modo de razonamiento”, DeepHermes-3 Preview “piensa” más tiempo para resolver problemas difíciles y muestra su proceso de pensamiento. Anthropic planea lanzar un modelo similar pronto, y OpenAI ha indicado que tiene un modelo de este tipo en su hoja de ruta a corto plazo.

Pablo

"Descubre tu verdadera vocación con Career Dreamer de Google: la herramienta de IA que te ayuda a explorar opciones de carrera basadas en tus habilidades e intereses #CarreraProfesional #IA #Google"

"Karman+: La startup que busca extraer materiales de asteroides y revolucionar la industria espacial con una inversión de 20 millones de dólares"

Categorías

Now Reading: “¿Cómo medimos realmente el progreso de la IA? Un vistazo a las pruebas y estándares actuales y cómo pueden mejorar”