Jordan Meyer y Mathew Dryhurst fundaron Spawning AI para crear herramientas que ayuden a los artistas a tener más control sobre cómo se usan sus obras en línea. Su último proyecto, llamado Source.Plus, está diseñado para curar medios “no infractores” para el entrenamiento de modelos de IA. La primera iniciativa de Source.Plus es un conjunto de datos con casi 40 millones de imágenes de dominio público y bajo la licencia CC0 de Creative Commons, que permite a los creadores renunciar a casi todos los derechos legales sobre sus obras.
Meyer afirma que, aunque es significativamente más pequeño que otros conjuntos de datos de entrenamiento de IA generativa, el conjunto de datos de Source.Plus ya es lo suficientemente “de alta calidad” para entrenar un modelo de generación de imágenes de última generación. “Con Source.Plus, estamos construyendo una plataforma universal de ‘opt-in'”, dijo Meyer. “Nuestro objetivo es facilitar que los titulares de derechos ofrezcan sus medios para el entrenamiento de IA generativa en sus propios términos y sin fricciones para los desarrolladores”.
El debate sobre la ética del entrenamiento de modelos de IA generativa, especialmente modelos de generación de arte como Stable Diffusion y DALL-E 3 de OpenAI, continúa sin cesar y tiene grandes implicaciones para los artistas. Los modelos de IA generativa “aprenden” a producir sus resultados, como arte fotorrealista, entrenándose con una gran cantidad de datos relevantes, en este caso, imágenes. Algunos desarrolladores de estos modelos argumentan que el uso justo les da derecho a extraer datos de fuentes públicas, independientemente del estado de los derechos de autor de esos datos. Otros han intentado compensar o al menos acreditar a los propietarios del contenido por sus contribuciones a los conjuntos de datos de entrenamiento.
Meyer, CEO de Spawning, cree que nadie ha encontrado aún el mejor enfoque. “El entrenamiento de IA frecuentemente usa los datos más fáciles de obtener, que no siempre han sido los más justos o responsables”, dijo en una entrevista con TechCrunch. “Los artistas y titulares de derechos han tenido poco control sobre cómo se usan sus datos para el entrenamiento de IA, y los desarrolladores no han tenido alternativas de alta calidad que faciliten respetar los derechos de datos”.
Source.Plus, disponible en beta limitada, se basa en las herramientas existentes de Spawning para la gestión de derechos de uso y procedencia del arte. En 2022, Spawning creó HaveIBeenTrained, un sitio web que permite a los creadores optar por no incluir sus datos en los conjuntos de entrenamiento utilizados por los proveedores que se han asociado con Spawning, incluyendo Hugging Face y Stability AI. Después de recaudar $3 millones en capital de riesgo de inversores como True Ventures y Seed Club Ventures, Spawning lanzó ai.text, una forma para que los sitios web “establezcan permisos” para la IA, y un sistema llamado Kudurru para defenderse de bots que extraen datos.
Source.Plus es el primer esfuerzo de Spawning para construir una biblioteca de medios y curarla internamente. El conjunto inicial de datos de imágenes, PD/CC0, puede ser utilizado para aplicaciones comerciales o de investigación, según Meyer. “Source.Plus no es solo un repositorio de datos de entrenamiento; es una plataforma de enriquecimiento con herramientas para apoyar la cadena de entrenamiento”, continuó. “Nuestro objetivo es tener un conjunto de datos CC0 de alta calidad y no infractor capaz de apoyar un modelo de IA potente disponible dentro del año”.
Organizaciones como Getty Images, Adobe, Shutterstock y la startup de IA Bria afirman usar solo datos obtenidos de manera justa para el entrenamiento de modelos. Pero Meyer dice que Spawning apunta a establecer un “estándar más alto” para lo que significa obtener datos de manera justa. Source.Plus filtra imágenes para “opt-outs” y otras preferencias de entrenamiento de artistas, mostrando información de procedencia sobre cómo y de dónde se obtuvieron las imágenes. También excluye imágenes que no están licenciadas bajo CC0, incluyendo aquellas con una licencia Creative Commons BY 1.0, que requieren atribución. Además, Spawning monitorea desafíos de derechos de autor de fuentes donde alguien que no sea el creador es responsable de indicar el estado de derechos de autor de una obra, como Wikimedia Commons.
“Validamos meticulosamente las licencias reportadas de las imágenes que recolectamos, y cualquier licencia cuestionable fue excluida, un paso que muchos conjuntos de datos ‘justos’ no toman”, dijo Meyer. Históricamente, imágenes problemáticas, incluyendo violentas y pornográficas, han plagado los conjuntos de datos de entrenamiento tanto abiertos como comerciales. Los mantenedores del conjunto de datos LAION se vieron obligados a retirar una biblioteca después de que se descubrieran registros médicos y representaciones de abuso sexual infantil; esta semana, un estudio de Human Rights Watch encontró que uno de los repositorios de LAION incluía rostros de niños brasileños sin su consentimiento o conocimiento.
La solución de Spawning son modelos clasificadores entrenados para detectar desnudez, gore, información personal identificable y otros elementos indeseables en las imágenes. Reconociendo que ningún clasificador es perfecto, Spawning planea permitir a los usuarios filtrar “flexiblemente” el conjunto de datos de Source.Plus ajustando los umbrales de detección de los clasificadores, según Meyer. “Empleamos moderadores para verificar la propiedad de los datos”, añadió Meyer. “También tenemos características de remediación incorporadas, donde los usuarios pueden marcar obras ofensivas o posiblemente infractoras, y se puede auditar el rastro de cómo se consumieron esos datos”.
La mayoría de los programas para compensar a los creadores por sus contribuciones a los datos de entrenamiento de IA generativa no han tenido mucho éxito. Algunos programas dependen de métricas opacas para calcular los pagos a los creadores, mientras que otros pagan cantidades que los artistas consideran irrazonablemente bajas. Por ejemplo, Shutterstock, que ha hecho acuerdos con proveedores de IA por decenas de millones de dólares, paga a un “fondo de contribuyentes” por el arte que utiliza para entrenar sus modelos de IA generativa o licencia a desarrolladores externos. Pero Shutterstock no es transparente sobre lo que los artistas pueden esperar ganar, ni permite a los artistas establecer sus propios precios y términos; una estimación de terceros sitúa las ganancias en $15 por 2,000 imágenes, una cantidad no muy impresionante.
Una vez que Source.Plus salga de la beta más tarde este año y se expanda a conjuntos de datos más allá de PD/CC0, tomará un enfoque diferente al de otras plataformas, permitiendo a los artistas y titulares de derechos establecer sus propios precios por descarga. Spawning cobrará una tarifa, pero solo una tasa fija: “una décima de centavo”, dice Meyer. Los clientes también pueden optar por pagar a Spawning $10 al mes, además de la tarifa típica por descarga de imágenes, por Source.Plus Curation, un plan de suscripción que les permite gestionar colecciones de imágenes de manera privada, descargar el conjunto de datos hasta 10,000 veces al mes y acceder a nuevas características, como colecciones “premium” y enriquecimiento de datos, de manera anticipada.
“Proporcionaremos orientación y recomendaciones basadas en los estándares de la industria y métricas internas, pero en última instancia, los contribuyentes al conjunto de datos determinan lo que les resulta valioso”, dijo Meyer. “Hemos elegido este modelo de precios intencionalmente para dar a los artistas la mayor parte de los ingresos y permitirles establecer sus propios términos para participar. Creemos que esta división de ingresos es significativamente más favorable para los artistas que la más común división porcentual de ingresos, y llevará a pagos más altos y mayor transparencia”.
Si Source.Plus gana la tracción que Spawning espera, Spawning planea expandirlo más allá de las imágenes a otros tipos de medios, incluyendo audio y video. Spawning está en conversaciones con empresas no reveladas para hacer que sus datos estén disponibles en Source.Plus. Y, según Meyer, Spawning podría construir sus propios modelos de IA generativa utilizando datos de los conjuntos de datos de Source.Plus.
“Esperamos que los titulares de derechos que quieran participar en la economía de la IA generativa tengan la oportunidad de hacerlo y reciban una compensación justa”, dijo Meyer. “También esperamos que los artistas y desarrolladores que se han sentido conflictuados sobre involucrarse con la IA tengan la oportunidad de hacerlo de una manera respetuosa con otros creativos”.
Sin duda, Spawning tiene un nicho que ocupar aquí. Source.Plus parece uno de los intentos más prometedores para involucrar a los artistas en el proceso de desarrollo de IA generativa y permitirles compartir las ganancias de su trabajo. La emergencia de aplicaciones como la comunidad de alojamiento de arte Cara, que vio un aumento en el uso después de que Meta anunciara que podría entrenar su IA generativa con contenido de Instagram, incluyendo contenido de artistas, muestra que la comunidad creativa ha llegado a un punto de quiebre. Están desesperados por alternativas a empresas y plataformas que perciben como ladrones, y Source.Plus podría ser una opción viable.
Pero si Spawning siempre actúa en los mejores intereses de los artistas (un gran “si”, considerando que Spawning es un negocio respaldado por capital de riesgo), me pregunto si Source.Plus puede escalar con éxito como Meyer lo imagina. Si las redes sociales nos han enseñado algo, es que la moderación, particularmente de millones de piezas de contenido generado por usuarios, es un problema intratable. Lo descubriremos pronto.