Un grupo de trabajo de protección de datos que ha pasado más de un año analizando cómo se aplican las normas de protección de datos de la Unión Europea al chatbot viral de OpenAI, ChatGPT, presentó sus conclusiones preliminares el viernes. La principal conclusión es que el grupo de trabajo de supervisores de privacidad aún no ha decidido sobre cuestiones legales cruciales, como la legalidad y equidad del procesamiento de datos por parte de OpenAI. Este tema es importante ya que las sanciones por violaciones confirmadas del régimen de privacidad del bloque pueden alcanzar hasta el 4% de la facturación anual global. Los supervisores también pueden ordenar que se detenga el procesamiento no conforme.
En teoría, OpenAI enfrenta un riesgo regulatorio considerable en la región en un momento en que las leyes dedicadas a la IA son escasas y, en el caso de la UE, aún faltan años para que estén completamente operativas. Sin claridad por parte de los supervisores de protección de datos de la UE sobre cómo se aplican las leyes actuales a ChatGPT, es probable que OpenAI se sienta empoderada para continuar con sus operaciones habituales, a pesar de las crecientes quejas de que su tecnología viola varios aspectos del Reglamento General de Protección de Datos (GDPR) del bloque.
Por ejemplo, una investigación de la autoridad de protección de datos de Polonia se abrió tras una queja sobre el chatbot inventando información sobre una persona y negándose a corregir los errores. Una queja similar se presentó recientemente en Austria. En teoría, el GDPR se aplica siempre que se recopilan y procesan datos personales, algo que los modelos de lenguaje a gran escala (LLMs) como el GPT de OpenAI, el modelo de IA detrás de ChatGPT, hacen a gran escala al extraer datos de internet para entrenar sus modelos, incluyendo publicaciones de redes sociales.
El reglamento de la UE también faculta a las autoridades de protección de datos (DPA) para ordenar que se detenga cualquier procesamiento no conforme. Esto podría ser una herramienta muy poderosa para moldear cómo opera el gigante de la IA detrás de ChatGPT en la región si los supervisores del GDPR deciden utilizarla. De hecho, vimos un ejemplo de esto el año pasado cuando el supervisor de privacidad de Italia impuso una prohibición temporal a OpenAI para procesar los datos de los usuarios locales de ChatGPT. Esta acción, tomada utilizando poderes de emergencia contenidos en el GDPR, llevó a OpenAI a cerrar brevemente el servicio en el país. ChatGPT solo reanudó en Italia después de que OpenAI hiciera cambios en la información y controles que proporciona a los usuarios en respuesta a una lista de demandas del DPA.
La investigación italiana sobre el chatbot, incluyendo cuestiones cruciales como la base legal que OpenAI afirma para procesar los datos de las personas para entrenar sus modelos de IA, continúa. Así que la herramienta sigue bajo una nube legal en la UE. Según el GDPR, cualquier entidad que quiera procesar datos sobre personas debe tener una base legal para la operación. El reglamento establece seis posibles bases, aunque la mayoría no están disponibles en el contexto de OpenAI. Y el DPA italiano ya instruyó al gigante de la IA que no puede depender de alegar una necesidad contractual para procesar los datos de las personas para entrenar sus IAs, dejándolo con solo dos posibles bases legales: el consentimiento (es decir, pedir permiso a los usuarios para usar sus datos) o una base amplia llamada intereses legítimos (LI), que requiere una prueba de equilibrio y exige al controlador permitir que los usuarios se opongan al procesamiento.
Desde la intervención de Italia, OpenAI parece haber cambiado a alegar que tiene un LI para procesar datos personales utilizados para el entrenamiento del modelo. Sin embargo, en enero, la decisión preliminar del DPA sobre su investigación encontró que OpenAI había violado el GDPR. Aunque no se publicaron detalles de los hallazgos preliminares, por lo que aún no hemos visto la evaluación completa de la autoridad sobre el punto de la base legal. Una decisión final sobre la queja sigue pendiente.
El informe del grupo de trabajo discute este complicado tema de la legalidad, señalando que ChatGPT necesita una base legal válida para todas las etapas del procesamiento de datos personales, incluyendo la recopilación de datos de entrenamiento, el preprocesamiento de los datos (como el filtrado), el propio entrenamiento, las solicitudes y las salidas de ChatGPT, y cualquier entrenamiento sobre las solicitudes de ChatGPT. Las primeras tres etapas enumeradas conllevan lo que el grupo de trabajo denomina “riesgos peculiares” para los derechos fundamentales de las personas, destacando cómo la escala y automatización de la extracción de datos web puede llevar a la ingestión de grandes volúmenes de datos personales, cubriendo muchos aspectos de la vida de las personas.
También señala que los datos extraídos pueden incluir los tipos más sensibles de datos personales (que el GDPR se refiere como “datos de categoría especial”), como información de salud, sexualidad, opiniones políticas, etc., lo que requiere un umbral legal aún más alto para el procesamiento que los datos personales generales. Sobre los datos de categoría especial, el grupo de trabajo también afirma que solo porque sean públicos no significa que puedan considerarse “manifiestamente” públicos, lo que desencadenaría una exención del requisito del GDPR para el consentimiento explícito para procesar este tipo de datos.
Para depender de LI como su base legal en general, OpenAI necesita demostrar que necesita procesar los datos; el procesamiento también debe limitarse a lo necesario para esta necesidad; y debe realizar una prueba de equilibrio, sopesando sus intereses legítimos en el procesamiento contra los derechos y libertades de los sujetos de datos (es decir, las personas sobre las que se trata la información).
Aquí, el grupo de trabajo tiene otra sugerencia, escribiendo que “salvaguardas adecuadas”, como “medidas técnicas”, definir “criterios de recopilación precisos” y/o bloquear ciertas categorías de datos o fuentes (como perfiles de redes sociales), para permitir que se recopilen menos datos en primer lugar para reducir los impactos en los individuos, podrían “cambiar la prueba de equilibrio a favor del controlador”, como lo expresa. Este enfoque podría obligar a las empresas de IA a tener más cuidado sobre cómo y qué datos recopilan para limitar los riesgos de privacidad.
“Además, deberían existir medidas para eliminar o anonimizar los datos personales que se han recopilado a través de la extracción de datos web antes de la etapa de entrenamiento”, también sugiere el grupo de trabajo.
OpenAI también busca depender de LI para procesar los datos de solicitud de los usuarios de ChatGPT para el entrenamiento del modelo. En este punto, el informe enfatiza la necesidad de que los usuarios sean “informados de manera clara y demostrable” de que dicho contenido puede ser utilizado para fines de entrenamiento, señalando que este es uno de los factores que se considerarían en la prueba de equilibrio para LI. Dependerá de las DPA individuales que evalúen las quejas decidir si el gigante de la IA ha cumplido con los requisitos para realmente poder depender de LI. Si no puede, el fabricante de ChatGPT se quedaría con solo una opción legal en la UE: pedir el consentimiento de los ciudadanos. Y dado cuántos datos de personas probablemente están contenidos en los conjuntos de datos de entrenamiento, no está claro cuán viable sería eso.
En otros aspectos, sobre el principio de equidad del GDPR, el informe del grupo de trabajo enfatiza que el riesgo de privacidad no puede transferirse al usuario, como mediante la inclusión de una cláusula en los términos y condiciones que diga que “los sujetos de datos son responsables de sus entradas de chat”. “OpenAI sigue siendo responsable de cumplir con el GDPR y no debe argumentar que la entrada de ciertos datos personales estaba prohibida en primer lugar”, añade.
Sobre las obligaciones de transparencia, el grupo de trabajo parece aceptar que OpenAI podría hacer uso de una exención (Artículo 14(5)(b) del GDPR) para notificar a los individuos sobre los datos recopilados sobre ellos, dada la escala de la extracción de datos web involucrada en la adquisición de conjuntos de datos para entrenar LLMs. Pero su informe reitera la “particular importancia” de informar a los usuarios que sus entradas pueden ser utilizadas para fines de entrenamiento.
El informe también aborda el tema de las “alucinaciones” de ChatGPT (inventar información), advirtiendo que el “principio de precisión de los datos del GDPR debe cumplirse”, y enfatizando la necesidad de que OpenAI proporcione “información adecuada” sobre la “salida probabilística” del chatbot y su “nivel limitado de fiabilidad”. El grupo de trabajo también sugiere que OpenAI proporcione a los usuarios una “referencia explícita” de que el texto generado “puede estar sesgado o inventado”.
Sobre los derechos de los sujetos de datos, como el derecho a la rectificación de datos personales, que ha sido el foco de varias quejas del GDPR sobre ChatGPT, el informe lo describe como “imperativo” que las personas puedan ejercer fácilmente sus derechos. También observa limitaciones en el enfoque actual de OpenAI, incluyendo el hecho de que no permite a los usuarios corregir información personal incorrecta generada sobre ellos, sino que solo ofrece bloquear la generación.
Sin embargo, el grupo de trabajo no ofrece una guía clara sobre cómo OpenAI puede mejorar las “modalidades” que ofrece a los usuarios para ejercer sus derechos de datos, solo hace una recomendación genérica de que la empresa aplique “medidas adecuadas diseñadas para implementar los principios de protección de datos de manera efectiva” y “salvaguardas necesarias” para cumplir con los requisitos del GDPR y proteger los derechos de los sujetos de datos. Lo que suena mucho a “no sabemos cómo arreglar esto tampoco”.
El grupo de trabajo de ChatGPT se estableció en abril de 2023, tras la intervención de Italia en OpenAI, con el objetivo de agilizar la aplicación de las normas de privacidad del bloque en la naciente tecnología. El grupo de trabajo opera dentro de un organismo regulador llamado la Junta Europea de Protección de Datos (EDPB), que dirige la aplicación de la ley de la UE en esta área. Aunque es importante señalar que las DPA siguen siendo independientes y son competentes para hacer cumplir la ley en su propia jurisdicción donde la aplicación del GDPR está descentralizada.
A pesar de la independencia indeleble de las DPA para hacer cumplir localmente, claramente hay cierta nerviosidad/aversión al riesgo entre los supervisores sobre cómo responder a una tecnología naciente como ChatGPT. A principios de este año, cuando el DPA italiano anunció su decisión preliminar, señaló que su procedimiento “tomaría en cuenta” el trabajo del grupo de trabajo de la EDPB. Y hay otras señales de que los supervisores pueden estar más inclinados a esperar a que el grupo de trabajo emita un informe final, tal vez en otro año, antes de intervenir con sus propias aplicaciones.
Por ejemplo, en una entrevista reciente en medios locales, la autoridad de protección de datos de Polonia sugirió que su investigación sobre OpenAI necesitaría esperar a que el grupo de trabajo completara su trabajo. El supervisor no respondió cuando se le preguntó si estaba retrasando la aplicación debido al trabajo paralelo del grupo de trabajo de ChatGPT. Mientras que un portavoz de la EDPB nos dijo que el trabajo del grupo de trabajo “no prejuzga el análisis que hará cada DPA en sus respectivas investigaciones en curso”. Pero añadieron: “Aunque las DPA son competentes para hacer cumplir, la EDPB tiene un papel importante en promover la cooperación entre las DPA en la aplicación”.
Tal como está, parece haber un considerable espectro de opiniones entre las DPA sobre cuán urgentemente deben actuar sobre las preocupaciones sobre ChatGPT. Así que, mientras el supervisor de Italia hizo titulares por sus rápidas intervenciones el año pasado, la (ahora ex) comisionada de protección de datos de Irlanda, Helen Dixon, dijo en una conferencia de Bloomberg en 2023 que las DPA no deberían apresurarse a prohibir ChatGPT, argumentando que necesitaban tomarse el tiempo para averiguar “cómo regularlo adecuadamente”.
No es casualidad que OpenAI se haya mudado para establecer una operación en la UE en Irlanda el otoño pasado. El movimiento fue seguido discretamente, en diciembre, por un cambio en sus términos y condiciones, nombrando a su nueva entidad irlandesa, OpenAI Ireland Limited, como el proveedor regional de servicios como ChatGPT, estableciendo una estructura mediante la cual el gigante de la IA pudo solicitar que la Comisión de Protección de Datos de Irlanda (DPC) se convirtiera en su supervisor principal para la supervisión del GDPR.
Esta reestructuración legal centrada en el riesgo regulatorio parece haber dado sus frutos para OpenAI, ya que el informe del grupo de trabajo de ChatGPT de la EDPB sugiere que a la empresa se le otorgó el estatus de establecimiento principal a partir del 15 de febrero de este año, lo que le permite aprovechar un mecanismo en el GDPR llamado la Ventanilla Única (OSS), lo que significa que cualquier queja transfronteriza surgida desde entonces se canalizará a través de una DPA principal en el país del establecimiento principal (es decir, en el caso de OpenAI, Irlanda).
Aunque todo esto puede sonar bastante técnico, básicamente significa que la empresa de IA ahora puede esquivar el riesgo de una aplicación descentralizada del GDPR, como hemos visto en Italia y Polonia, ya que será la DPC de Irlanda la que tomará decisiones sobre qué quejas se investigan, cómo y cuándo en el futuro.
El supervisor irlandés ha ganado una reputación por adoptar un enfoque amigable con las empresas para hacer cumplir el GDPR en las grandes tecnológicas. En otras palabras, la “Gran IA” podría ser la siguiente en beneficiarse de la generosidad de Dublín al interpretar el libro de reglas de protección de datos del bloque. Se contactó a OpenAI para obtener una respuesta al informe preliminar del grupo de trabajo de la EDPB, pero al momento de la publicación no había respondido.