En los últimos meses, ejecutivos de tecnología como Elon Musk han destacado el rendimiento de los modelos de inteligencia artificial de sus empresas en un benchmark específico: Chatbot Arena. Este sistema, mantenido por una organización sin fines de lucro llamada LMSYS, se ha convertido en una obsesión en la industria. Las publicaciones sobre actualizaciones de sus listas de modelos reciben cientos de vistas y compartidos en Reddit y X, y la cuenta oficial de LMSYS en X cuenta con más de 54,000 seguidores. En el último año, millones de personas han visitado el sitio web de la organización.
Sin embargo, persisten algunas preguntas sobre la capacidad de Chatbot Arena para evaluar cuán “buenos” son realmente estos modelos. Para entender mejor, es importante saber qué es LMSYS y cómo ha ganado popularidad. Esta organización se lanzó en abril pasado como un proyecto liderado por estudiantes y profesores de Carnegie Mellon, UC Berkeley y UC San Diego. Algunos de los miembros fundadores ahora trabajan en Google DeepMind, xAI de Musk y Nvidia; actualmente, LMSYS es gestionada principalmente por investigadores de SkyLab.
LMSYS no tenía como objetivo crear una lista viral de modelos. Su misión era hacer que los modelos, especialmente los generativos como ChatGPT de OpenAI, fueran más accesibles mediante el desarrollo conjunto y la liberación de código. Sin embargo, insatisfechos con el estado de la evaluación de IA, decidieron crear su propia herramienta de prueba. En un artículo técnico publicado en marzo, los investigadores señalaron que los benchmarks actuales no abordan adecuadamente las necesidades de los modelos de última generación, especialmente en la evaluación de preferencias de los usuarios. Por ello, vieron la necesidad urgente de una plataforma de evaluación abierta y en vivo basada en la preferencia humana que refleje mejor el uso en el mundo real.
Chatbot Arena permite a cualquier persona en la web hacer preguntas a dos modelos anónimos seleccionados al azar. Una vez que un usuario acepta los términos de uso, puede votar por la respuesta que prefiera de los dos modelos en competencia. Esto genera una “diversa variedad” de preguntas que un usuario típico podría hacer a cualquier modelo generativo. Desde su lanzamiento, LMSYS ha añadido docenas de modelos abiertos a su herramienta de prueba y se ha asociado con universidades y empresas como OpenAI, Google y Microsoft.
A pesar de su popularidad, la utilidad de los resultados de Chatbot Arena es debatible. Yuchen Lin, un científico investigador en el Instituto Allen para IA, menciona que LMSYS no ha sido completamente transparente sobre las capacidades de los modelos que evalúa. Aunque en marzo lanzaron un conjunto de datos con un millón de conversaciones entre usuarios y 25 modelos, no han actualizado este conjunto desde entonces. Lin argumenta que la evaluación no es reproducible y que los datos limitados dificultan el estudio profundo de las limitaciones de los modelos.
LMSYS ha detallado que utiliza “algoritmos de muestreo eficientes” para comparar modelos, recolectando aproximadamente 8,000 votos por modelo antes de actualizar las clasificaciones. Sin embargo, Lin señala que el sistema de votación no toma en cuenta la capacidad de los usuarios para detectar errores de los modelos, lo que podría hacer que los votos sean poco confiables.
Además, la base de usuarios de Chatbot Arena no es representativa, ya que se ha popularizado principalmente en círculos de la industria tecnológica. Las preguntas más frecuentes en el conjunto de datos LMSYS-Chat-1M están relacionadas con programación y herramientas de IA, lo que no refleja las inquietudes de usuarios no técnicos.
LMSYS está intentando equilibrar estos sesgos utilizando sistemas automatizados para clasificar la calidad de las respuestas de otros modelos. Sin embargo, Lin advierte que las relaciones comerciales de LMSYS pueden afectar la imparcialidad de las evaluaciones, ya que algunas empresas tienen acceso a datos que podrían darles una ventaja injusta.
A pesar de sus defectos, Lin considera que LMSYS y Chatbot Arena ofrecen un servicio valioso al proporcionar información en tiempo real sobre el rendimiento de diferentes modelos fuera del laboratorio. Sin embargo, sugiere que LMSYS podría mejorar el proceso de evaluación al diseñar benchmarks más específicos que permitan una comprensión más sistemática de las fortalezas y debilidades de los modelos.
En resumen, Chatbot Arena puede ofrecer una instantánea de la experiencia del usuario, pero no debe considerarse el estándar definitivo para medir la inteligencia de un modelo. En cambio, es más apropiado verlo como una herramienta para evaluar la satisfacción del usuario en lugar de una medida científica objetiva del progreso de la IA.