Investigadores de la empresa de gestión de software JFrog encontraron recientemente más de cien modelos de inteligencia artificial (IA) maliciosos en Hugging Face. Este hallazgo destaca un problema poco conocido en ciberseguridad: la manipulación y el envenenamiento de datos.
El envenenamiento de datos se refiere a ataques que afectan los datos utilizados para entrenar modelos de IA y aprendizaje automático (ML). Este tipo de ataque es inusual y, en algunos casos, puede ser difícil de detectar. A diferencia de los ataques cibernéticos tradicionales, no se necesita un hackeo directo para envenenar los datos que utilizan modelos de lenguaje grande (LLMs) como ChatGPT.
Existen dos formas de ataque: una ocurre antes de que el modelo de IA se implemente y la otra después. Ambos son complicados de identificar y prevenir. JFrog observó que los modelos maliciosos contenían elementos que parecían ser pruebas de vulnerabilidades, pero en este caso, eran realmente peligrosos. Los investigadores podrían estar detrás de esto, ya que los datos estaban vinculados a direcciones IP de KREOnet, una red de investigación en Corea.
Los problemas inherentes a la IA complican la detección de estos ataques. Por ejemplo, hace diez años, se demostraron ataques sutiles que hacían que un modelo diera respuestas incorrectas con alta confianza. Además, los modelos generativos de IA que recopilan información de internet podrían “envenenarse” a sí mismos si sus salidas se utilizan como entradas para futuros conjuntos de entrenamiento, en un proceso conocido como “colapso degenerativo del modelo”.
La reproducibilidad de los modelos de IA también es un desafío, ya que hay grandes volúmenes de datos involucrados, y los investigadores pueden no entender completamente qué datos se usaron y qué resultados se obtuvieron. Ignorar el envenenamiento de datos puede alentar a los atacantes a centrarse en explotar vulnerabilidades de forma encubierta, lo que puede resultar en la ejecución de código malicioso, ataques de phishing exitosos y salidas de modelos mal clasificadas.
Para proteger los sistemas de IA de estos ataques, los expertos sugieren varias técnicas, principalmente enfocadas en la etapa de entrenamiento de datos y los algoritmos. La Fundación de Seguridad de Aplicaciones de Código Abierto (OWASP) recomienda prestar atención a la cadena de suministro de datos, verificar continuamente las fuentes de datos y detectar sesgos o anomalías.
OWASP también aconseja “sanitizar” los datos utilizando métodos de detección de anomalías para evitar que datos adversariales se introduzcan en el proceso de ajuste fino. Si los datos de entrenamiento están corruptos, se pueden utilizar algoritmos alternativos para implementar el modelo afectado. Además, es importante que los equipos de ciberseguridad evalúen la robustez de sus sistemas de IA mediante pruebas de penetración.
Construir un modelo de IA completamente seguro es complicado, y la única defensa es validar todas las salidas predictivas, lo cual es costoso computacionalmente. Sin confianza y fiabilidad, la innovación tecnológica podría verse afectada. Las organizaciones deben prevenir amenazas en la generación de código de IA considerando todo el ecosistema como parte del universo de amenazas.
Al monitorear las entradas y salidas de estos sistemas y detectar anomalías, se puede ayudar a los desarrolladores a implementar controles y protecciones en el ciclo de vida del desarrollo de software de IA. Evaluar los riesgos de los sistemas de IA dentro de los procesos empresariales más amplios puede ayudar a enfrentar uno de los problemas más desafiantes en ciberseguridad.