Una organización que desarrolla estándares matemáticos para la inteligencia artificial (IA) no reveló que había recibido financiamiento de OpenAI hasta hace poco, lo que ha generado acusaciones de falta de transparencia en la comunidad de IA. Epoch AI, una organización sin fines de lucro financiada principalmente por Open Philanthropy, anunció el 20 de diciembre que OpenAI había apoyado la creación de FrontierMath. FrontierMath es una prueba con problemas de nivel experto diseñada para medir las habilidades matemáticas de una IA y fue uno de los estándares que OpenAI utilizó para mostrar su próxima IA principal, llamada o3.
Un contratista de Epoch AI, que usa el nombre de usuario “Meemi” en el foro LessWrong, comentó que muchos de los colaboradores de FrontierMath no fueron informados sobre la participación de OpenAI hasta que se hizo público. “La comunicación sobre esto ha sido poco transparente”, escribió Meemi. “En mi opinión, Epoch AI debería haber revelado el financiamiento de OpenAI, y los contratistas deberían tener información clara sobre el uso potencial de su trabajo al decidir si colaborar en un estándar”.
En redes sociales, algunos usuarios expresaron su preocupación de que esta falta de transparencia podría afectar la reputación de FrontierMath como un estándar objetivo. Además de apoyar FrontierMath, OpenAI tuvo acceso a muchos de los problemas y soluciones de la prueba, algo que Epoch AI no divulgó antes del 20 de diciembre, cuando se anunció o3.
En respuesta al comentario de Meemi, Tamay Besiroglu, director asociado de Epoch AI y uno de los cofundadores de la organización, afirmó que la integridad de FrontierMath no se había visto comprometida, pero admitió que Epoch AI “cometió un error” al no ser más transparente. “Estábamos limitados para revelar la asociación hasta alrededor del lanzamiento de o3, y en retrospectiva, deberíamos haber negociado más para poder ser transparentes con los colaboradores del estándar lo antes posible”, escribió Besiroglu. “Nuestros matemáticos merecían saber quién podría tener acceso a su trabajo. Aunque teníamos limitaciones contractuales sobre lo que podíamos decir, deberíamos haber hecho de la transparencia con nuestros colaboradores una parte innegociable de nuestro acuerdo con OpenAI”.
Besiroglu añadió que, aunque OpenAI tiene acceso a FrontierMath, existe un “acuerdo verbal” con Epoch AI para no usar el conjunto de problemas de FrontierMath para entrenar su IA. Epoch AI también cuenta con un “conjunto de retención separado” que sirve como una medida adicional para la verificación independiente de los resultados del estándar FrontierMath, según Besiroglu. “OpenAI ha … apoyado completamente nuestra decisión de mantener un conjunto de retención separado y no visible”, escribió Besiroglu.
Sin embargo, complicando la situación, Ellot Glazer, el matemático principal de Epoch AI, señaló en una publicación en Reddit que Epoch AI no ha podido verificar de manera independiente los resultados de FrontierMath de OpenAI para o3. “Mi opinión personal es que [el puntaje de OpenAI] es legítimo (es decir, no entrenaron en el conjunto de datos), y que no tienen incentivos para mentir sobre su rendimiento en las pruebas internas”, dijo Glazer. “Sin embargo, no podemos garantizarlo hasta que nuestra evaluación independiente esté completa”.
Esta situación es otro ejemplo del desafío de desarrollar estándares empíricos para evaluar la IA y de conseguir los recursos necesarios para su desarrollo sin crear la percepción de conflictos de interés.