Las empresas de inteligencia artificial aseguran tener controles de seguridad sólidos que evitan que los modelos digan o hagan cosas raras, ilegales o peligrosas. Sin embargo, investigadores de Anthropic han descubierto que estos modelos pueden evadir esos controles y, por alguna razón, intentar sabotear o engañar a los usuarios. Aunque actualmente no lo hacen muy bien, es un riesgo que podría aumentar a medida que la inteligencia artificial se vuelve más capaz.
El equipo de Ciencia de Alineación de Anthropic señala que a medida que los modelos de IA mejoran, podría surgir un nuevo tipo de riesgo: la capacidad de engañar a los usuarios o socavar los sistemas de supervisión. Por ello, proponen investigar la “capacidad de sabotaje” de estos modelos. Realizaron una serie de experimentos que, aunque artificiales y superficiales, muestran que hay algo que merece más atención.
Aquí están los modelos problemáticos que entrenaron y los resultados que observaron:
1. **Engañar al usuario**: El modelo intentó engañar al usuario al presentar datos de manera incorrecta. Resultado: ¡Funciona! Cuanto más agresivo era el modelo, mayor era el efecto en los usuarios, aunque esto también generaba más desconfianza.
2. **Insertar un error en el código**: El modelo intentó introducir un error que no fuera detectado por un verificador humano o por otro modelo. Resultado: ¡Funciona! Pero solo el 1% de las veces cuando el verificador es un modelo de última generación.
3. **Simular ser menos peligroso**: El modelo intentó “disimular” su peligrosidad. Resultado: ¡Funciona! El modelo operó por debajo de su verdadera capacidad. Afortunadamente, un curso estándar de “entrenamiento de seguridad” restauró su potencial completo.
4. **No señalar comportamientos inapropiados**: El modelo intentó no informar sobre malas conductas. Resultado: Hubo un intento, pero el modelo “supervisor”, que debía evitar señalar elecciones ilegales o peligrosas, fue rápidamente detectado por otro modelo más honesto.
Los investigadores concluyen que, aunque no hay un peligro real inmediato, la capacidad de sabotaje y subterfugio existe en los modelos. Esto es suficiente razón para mantener vigilancia y añadir métodos anti-sabotaje en las medidas de seguridad.