El domingo, el gobernador de California, Gavin Newsom, firmó una ley llamada AB-2013. Esta ley exige a las empresas que desarrollan sistemas de inteligencia artificial generativa que publiquen un resumen de alto nivel sobre los datos que utilizaron para entrenar sus sistemas. Los resúmenes deben incluir información sobre quién posee los datos, cómo se obtuvieron o licenciaron, y si contienen información protegida por derechos de autor o datos personales.
Pocas empresas de IA han dicho si cumplirán con esta ley. TechCrunch contactó a grandes empresas del sector, como OpenAI, Anthropic, Microsoft, Google, Amazon, Meta, y varias startups. Menos de la mitad respondió, y Microsoft se negó a comentar. Solo Stability AI, Runway y OpenAI confirmaron que cumplirán con AB-2013. Un portavoz de OpenAI mencionó que la empresa cumple con las leyes en las jurisdicciones donde opera, incluida California. Por su parte, Stability AI expresó su apoyo a una regulación que proteja al público sin frenar la innovación.
Es importante señalar que los requisitos de divulgación de AB-2013 no entran en vigor de inmediato. La ley se aplica a sistemas lanzados a partir de enero de 2022, como ChatGPT y Stable Diffusion, pero las empresas tienen hasta enero de 2026 para comenzar a publicar los resúmenes de datos de entrenamiento. Además, la ley solo se aplica a los sistemas disponibles para los californianos, lo que deja un margen de maniobra.
Sin embargo, hay otra razón por la que las empresas podrían no querer hablar sobre este tema, relacionada con cómo se entrenan la mayoría de los sistemas de IA generativa. Los datos de entrenamiento a menudo provienen de la web, donde las empresas recopilan grandes cantidades de imágenes, canciones, videos y más. Hace años, era común que los desarrolladores de IA mencionaran las fuentes de sus datos de entrenamiento en documentos técnicos. Por ejemplo, Google reveló que entrenó una versión temprana de su modelo de generación de imágenes, Imagen, utilizando un conjunto de datos público llamado LAION.
En el competitivo mercado actual, la composición de los conjuntos de datos de entrenamiento se considera una ventaja competitiva, y muchas empresas citan esto como una de las razones para no divulgar información. Además, los detalles sobre los datos de entrenamiento pueden convertir a los desarrolladores en blanco de demandas. Existen numerosas demandas sobre el uso indebido de datos de entrenamiento, y cada mes se presentan más. Autores y editores afirman que OpenAI, Anthropic y Meta usaron libros protegidos por derechos de autor para entrenar sus modelos. Sellos discográficos han demandado a Udio y Suno por supuestamente entrenar con canciones sin compensar a los músicos. Y artistas han presentado demandas colectivas contra Stability y Midjourney por prácticas de recopilación de datos que consideran robo.
La ley AB-2013 podría ser problemática para las empresas que intentan evitar conflictos legales, ya que exige la divulgación de información potencialmente incriminatoria sobre los conjuntos de datos de entrenamiento. La ley es amplia y cualquier entidad que “modifique sustancialmente” un sistema de IA también debe publicar información sobre los datos de entrenamiento utilizados. Aunque hay algunas excepciones, la mayoría se aplican a sistemas de IA utilizados en ciberseguridad y defensa.
Muchos proveedores creen que la doctrina del uso justo les proporciona protección legal y están defendiendo esto en los tribunales y en declaraciones públicas. Algunas empresas, como Meta y Google, han cambiado la configuración de sus plataformas para permitir el uso de más datos de usuarios para el entrenamiento. Impulsadas por la competencia, algunas empresas han entrenado generosamente con datos protegidos por derechos de autor. Informes revelaron que Meta utilizó libros protegidos para el entrenamiento de IA a pesar de las advertencias de sus abogados. También hay evidencia de que Runway utilizó películas de Netflix y Disney para entrenar sus sistemas de generación de video. Y se dice que OpenAI transcribió videos de YouTube sin el conocimiento de los creadores para desarrollar modelos como GPT-4.
Es posible que los proveedores de IA generativa no enfrenten consecuencias, ya sea que se divulguen los datos de entrenamiento o no. Los tribunales podrían decidir a favor de los defensores del uso justo, argumentando que la IA generativa es suficientemente transformadora y no un motor de plagio, como alegan algunos demandantes. En un escenario más drástico, AB-2013 podría llevar a las empresas a no ofrecer ciertos modelos en California o a lanzar versiones de modelos entrenados solo con datos de uso justo y conjuntos de datos licenciados. Algunas empresas podrían optar por evitar divulgaciones que comprometan su posición y las lleven a enfrentar demandas. Si la ley no es impugnada, tendremos una visión más clara sobre su impacto en el plazo de un año.