OpenAI está implementando un cambio para evitar que las personas manipulen versiones personalizadas de ChatGPT, haciendo que la IA olvide lo que se supone que debe hacer. Cuando una empresa usa uno de los modelos de OpenAI, le da instrucciones específicas, como actuar como agente de servicio al cliente o investigador. Sin embargo, un usuario podría alterar el chatbot diciéndole “olvida todas las instrucciones”, lo que provocaría una especie de amnesia digital y resetearía el chatbot a un estado genérico.
Para prevenir esto, los investigadores de OpenAI han creado una nueva técnica llamada “jerarquía de instrucciones”. Esta técnica prioriza las instrucciones originales del desarrollador sobre cualquier instrucción manipulativa creada por el usuario. Las instrucciones del sistema tienen el mayor privilegio y ya no pueden ser borradas tan fácilmente. Si un usuario ingresa una instrucción que intenta desalinear el comportamiento de la IA, será rechazada y la IA responderá diciendo que no puede ayudar con la consulta.
OpenAI está implementando esta medida de seguridad en sus modelos, comenzando con el recientemente lanzado modelo GPT-4o Mini. Si estas pruebas iniciales funcionan bien, se incorporará en todos los modelos de OpenAI. GPT-4o Mini está diseñado para ofrecer un rendimiento mejorado mientras mantiene una estricta adherencia a las instrucciones originales del desarrollador.
A medida que OpenAI continúa fomentando el despliegue a gran escala de sus modelos, estas medidas de seguridad son cruciales. Es fácil imaginar los riesgos potenciales cuando los usuarios pueden alterar fundamentalmente los controles de la IA. No solo haría que el chatbot sea ineficaz, sino que podría eliminar reglas que evitan la filtración de información sensible y otros datos que podrían ser explotados con fines maliciosos. Al reforzar la adherencia del modelo a las instrucciones del sistema, OpenAI busca mitigar estos riesgos y garantizar interacciones más seguras.
La introducción de la jerarquía de instrucciones llega en un momento crucial para OpenAI, en medio de preocupaciones sobre cómo aborda la seguridad y la transparencia. Empleados actuales y anteriores han pedido mejorar las prácticas de seguridad de la empresa, y la dirección de OpenAI ha respondido comprometiéndose a hacerlo. La empresa ha reconocido que las complejidades de los agentes totalmente automatizados requieren salvaguardas sofisticadas en los modelos futuros, y la configuración de la jerarquía de instrucciones parece ser un paso hacia una mejor seguridad.
Estos tipos de “jailbreaks” muestran cuánto trabajo aún queda por hacer para proteger los modelos de IA complejos de actores malintencionados. Y este no es el único ejemplo. Varios usuarios descubrieron que ChatGPT compartiría sus instrucciones internas simplemente diciendo “hola”.
OpenAI solucionó ese problema, pero probablemente sea solo cuestión de tiempo antes de que se descubran más. Cualquier solución deberá ser mucho más adaptativa y flexible que una que simplemente detenga un tipo particular de hackeo.