OpenAI ha utilizado el subreddit r/ChangeMyView para crear una prueba que mide las habilidades persuasivas de sus modelos de razonamiento de inteligencia artificial. La compañía lo anunció en una tarjeta de sistema, que es un documento que explica cómo funciona un sistema de IA, al lanzar su nuevo modelo de “razonamiento”, llamado o3-mini.
El subreddit r/ChangeMyView cuenta con millones de usuarios de Reddit que publican opiniones controvertidas con la esperanza de aprender sobre otros puntos de vista. En las respuestas a estas publicaciones, otros usuarios presentan argumentos persuasivos para explicar por qué el autor original está equivocado. Este subreddit es una mina de oro para empresas tecnológicas como OpenAI, que buscan entrenar modelos de IA con datos de alta calidad generados por humanos.
OpenAI recoge publicaciones de r/ChangeMyView y pide a sus modelos de IA que escriban respuestas en un entorno cerrado, con el objetivo de cambiar la opinión del usuario de Reddit sobre un tema. Luego, estas respuestas se muestran a evaluadores que valoran cuán persuasivo es el argumento. Finalmente, OpenAI compara las respuestas de sus modelos de IA con las respuestas humanas para la misma publicación.
OpenAI tiene un acuerdo de licencia de contenido con Reddit que le permite entrenar sus modelos con publicaciones de usuarios de Reddit y mostrar estas publicaciones en sus productos. Aunque no se sabe cuánto paga OpenAI por este contenido, se informa que Google paga a Reddit 60 millones de dólares al año bajo un acuerdo similar. Sin embargo, OpenAI ha indicado que esta evaluación no está relacionada con esa asociación.
No está claro cómo OpenAI accedió a estos datos, y la compañía afirma que no tiene planes de hacer pública esta evaluación. Aunque el estándar ChangeMyView no es nuevo, ya que se utilizó en el modelo o1, resalta cuán valiosos son los datos humanos para los desarrolladores de modelos de IA y las formas poco claras en que las empresas tecnológicas obtienen conjuntos de datos. Reddit no respondió de inmediato a la solicitud de comentarios de TechCrunch.
A pesar de que Reddit ha cerrado algunos acuerdos de licencia de IA, también ha criticado a varias empresas de IA por extraer datos de su sitio sin pagar. El CEO de Reddit, Steve Huffman, mencionó el año pasado que Microsoft, Anthropic y Perplexity se negaron a negociar con él y que ha sido “realmente complicado bloquear a estas empresas”.
OpenAI ha sido acusada en varias demandas de extraer datos de sitios web de manera inapropiada, incluyendo el New York Times, para obtener más datos de entrenamiento y mejorar ChatGPT y sus modelos de IA subyacentes. En cuanto al rendimiento en el estándar ChangeMyView, el modelo o3-mini no parece tener un desempeño significativamente mejor o peor que o1 o GPT-4o en esta prueba de persuasión. Sin embargo, los últimos modelos de IA de OpenAI parecen ser más persuasivos que la mayoría de las personas en el subreddit r/ChangeMyView.
OpenAI indicó que “GPT-4o, o3-mini y o1 demuestran fuertes habilidades de argumentación persuasiva, dentro del 80-90% superior de los humanos”. Actualmente, no se observa que los modelos superen significativamente a los humanos o que tengan un rendimiento claramente sobrehumano. El objetivo de OpenAI no es crear modelos de IA hiperpersuasivos, sino asegurarse de que no sean demasiado persuasivos.
Los modelos de razonamiento han mejorado en persuasión y engaño, por lo que OpenAI ha desarrollado nuevas evaluaciones y salvaguardias para abordar este problema. La preocupación detrás de estas pruebas de persuasión es que un modelo de IA podría ser peligroso si es muy bueno persuadiendo a los usuarios humanos, lo que teóricamente podría permitir a una IA avanzada seguir su propia agenda o la de quien la controle. A pesar de haber recopilado la mayor parte de internet público y de haber negociado otros datos, el estándar ChangeMyView muestra que los desarrolladores de modelos de IA aún luchan por encontrar conjuntos de datos de alta calidad para probar sus modelos. Sin embargo, obtener estos datos es más fácil decirlo que hacerlo.