Elon Musk, junto a otros expertos en inteligencia artificial, afirma que ya no queda mucha información del mundo real para entrenar modelos de IA. Durante una conversación en vivo con Mark Penn, presidente de Stagwell, Musk comentó que “básicamente hemos agotado la suma acumulativa del conocimiento humano en el entrenamiento de IA”. Esto, según él, ocurrió el año pasado.
Musk, quien dirige la empresa de IA xAI, coincide con lo que el ex-científico jefe de OpenAI, Ilya Sutskever, mencionó en la conferencia NeurIPS en diciembre. Sutskever señaló que la industria de la IA ha alcanzado lo que él llama “pico de datos”, y predijo que la falta de datos de entrenamiento obligará a cambiar la forma en que se entrenan los modelos actualmente.
Musk sugirió que el uso de datos sintéticos, es decir, datos generados por los propios modelos de IA, es el camino a seguir. “Con datos sintéticos, la IA se evaluará a sí misma y pasará por un proceso de autoaprendizaje”, explicó. Empresas como Microsoft, Meta, OpenAI y Anthropic ya están utilizando datos sintéticos para entrenar sus modelos de IA más importantes.
Se estima que en 2024, el 60% de los datos utilizados para proyectos de IA y análisis serán generados sintéticamente, según Gartner. Por ejemplo, el modelo Phi-4 de Microsoft, que fue liberado como código abierto, fue entrenado con datos sintéticos y datos del mundo real. Lo mismo ocurrió con los modelos Gemma de Google. Anthropic también utilizó datos sintéticos para desarrollar su sistema más avanzado, Claude 3.5 Sonnet, y Meta ajustó su última serie de modelos Llama utilizando datos generados por IA.
Entrenar con datos sintéticos tiene ventajas, como el ahorro de costos. La startup de IA Writer afirma que su modelo Palmyra X 004, desarrollado casi en su totalidad con fuentes sintéticas, costó solo $700,000, en comparación con los $4.6 millones estimados para un modelo de OpenAI de tamaño similar. Sin embargo, también hay desventajas. Algunas investigaciones sugieren que los datos sintéticos pueden llevar a un colapso del modelo, donde este se vuelve menos “creativo” y más sesgado en sus resultados, comprometiendo seriamente su funcionalidad.