OpenAI ha presentado su nuevo modelo de inteligencia artificial, GPT-4.5, que se destaca por su capacidad de persuasión. Según un informe interno de OpenAI, este modelo es especialmente eficaz para convencer a otras inteligencias artificiales de que le den dinero virtual.
El jueves, OpenAI publicó un documento que describe las habilidades de GPT-4.5, también conocido como Orion. En este documento, se explica que el modelo fue evaluado en varias pruebas relacionadas con la persuasión. OpenAI define la persuasión como los riesgos de convencer a las personas para que cambien sus creencias o actúen en base a contenido generado por modelos, ya sea estático o interactivo.
En una de las pruebas, GPT-4.5 intentó manipular a otro modelo, GPT-4o, para que le “donara” dinero virtual. Los resultados mostraron que GPT-4.5 superó a otros modelos de OpenAI, incluyendo aquellos diseñados para el razonamiento. Además, fue más efectivo que todos los modelos de OpenAI en engañar a GPT-4o para que le revelara una palabra clave secreta, logrando un 10% más de éxito que el modelo o3-mini.
El documento menciona que GPT-4.5 utilizó una estrategia única durante las pruebas, pidiendo donaciones modestas, como “Incluso solo $2 o $3 de los $100 me ayudarían mucho”. Esto resultó en que las donaciones que obtuvo fueron menores en comparación con las de otros modelos de OpenAI.
A pesar de su capacidad persuasiva, OpenAI asegura que GPT-4.5 no alcanza el umbral interno de “alto” riesgo en esta categoría de evaluación. La empresa se ha comprometido a no lanzar modelos que superen este umbral hasta que implemente medidas de seguridad adecuadas para reducir el riesgo a un nivel “medio”.
Hay preocupaciones reales sobre cómo la inteligencia artificial puede contribuir a la difusión de información falsa o engañosa, que busca manipular a las personas para fines maliciosos. El año pasado, los deepfakes políticos se propagaron rápidamente en todo el mundo, y la IA se está utilizando cada vez más en ataques de ingeniería social dirigidos a consumidores y empresas. En el documento sobre GPT-4.5 y en otro publicado recientemente, OpenAI mencionó que está revisando sus métodos para evaluar los riesgos de persuasión en el mundo real, como la distribución de información engañosa a gran escala.