¿Es posible que una inteligencia artificial (IA) sea entrenada solo con datos generados por otra IA? Aunque parece una idea loca, ha estado presente durante un tiempo y está ganando popularidad, ya que obtener datos reales se está volviendo más difícil. Empresas como Anthropic han utilizado datos sintéticos para entrenar su modelo Claude 3.5 Sonnet, mientras que Meta ajustó sus modelos Llama 3.1 usando datos generados por IA. OpenAI también está buscando datos sintéticos para su próximo modelo, Orion.
Las IA son máquinas estadísticas que aprenden patrones a partir de muchos ejemplos. Estos ejemplos son acompañados de anotaciones, que son etiquetas que ayudan a la IA a entender el significado de los datos. Por ejemplo, un modelo que clasifica fotos de cocinas aprenderá a asociar la palabra “cocina” con las características de una cocina, como la presencia de refrigeradores y encimeras. Sin buenas anotaciones, el modelo podría confundirse y clasificar cocinas como vacas, lo que resalta la importancia de etiquetar correctamente.
La demanda de IA y la necesidad de datos etiquetados han hecho crecer el mercado de servicios de anotación, que se estima vale 838.2 millones de dólares hoy y podría alcanzar 10.34 mil millones en diez años. Aunque no hay cifras exactas sobre cuántas personas trabajan en la anotación, se estima que son millones. Muchas empresas dependen de trabajadores de firmas de anotación para crear etiquetas para los conjuntos de datos de entrenamiento de IA. Algunos trabajos son bien remunerados, especialmente aquellos que requieren conocimientos especializados, mientras que otros son muy mal pagados, especialmente en países en desarrollo.
Buscar alternativas a las etiquetas generadas por humanos tiene razones humanitarias y prácticas. Los humanos pueden etiquetar solo a cierta velocidad y pueden tener sesgos que se reflejan en sus anotaciones. Además, pagar por este trabajo es costoso y los datos en general son caros. Por ejemplo, Shutterstock cobra a los proveedores de IA decenas de millones de dólares por acceder a sus archivos, y Reddit ha ganado cientos de millones al licenciar datos a empresas como Google y OpenAI. Además, obtener datos se está volviendo más complicado, ya que muchos propietarios de datos están restringiendo su acceso por miedo a ser plagiados o no recibir crédito.
Si esta tendencia de bloqueo continúa, se estima que entre 2026 y 2032 los desarrolladores se quedarán sin datos para entrenar modelos de IA generativa. Esto, junto con el miedo a demandas por derechos de autor, ha llevado a una reevaluación en la industria de la IA.
A primera vista, los datos sintéticos parecen ser la solución a estos problemas. Se pueden generar anotaciones y más ejemplos de datos sin límites. Sin embargo, aunque esto es cierto hasta cierto punto, los datos sintéticos también tienen sus desventajas. Si los modelos que generan datos sintéticos están entrenados con datos sesgados, sus salidas también lo estarán. Por ejemplo, si en un conjunto de datos hay solo 30 personas negras y todas son de clase media, los datos generados reflejarán esa falta de diversidad.
Un estudio reciente encontró que depender demasiado de datos sintéticos puede hacer que la calidad y diversidad de los modelos disminuyan con el tiempo. Además, los modelos complejos pueden generar “alucinaciones”, que son errores que pueden ser difíciles de detectar y que afectan la precisión de los modelos entrenados con esos datos.
Aunque los datos sintéticos pueden ser útiles, no son una solución mágica. Se necesita revisar y filtrar cuidadosamente estos datos antes de usarlos para el entrenamiento. Sin una supervisión adecuada, los modelos pueden volverse menos creativos y más sesgados, lo que compromete su funcionalidad.
Por ahora, parece que seguiremos necesitando humanos en el proceso para asegurar que el entrenamiento de un modelo no se desvíe.