Esta semana, DeepSeek, un laboratorio de inteligencia artificial chino con buena financiación, lanzó un modelo de IA llamado DeepSeek V3 que supera a muchos competidores en pruebas populares. Este modelo es grande pero eficiente, y puede realizar tareas basadas en texto, como programar y escribir ensayos, con facilidad. Sin embargo, parece que DeepSeek V3 se confunde y se identifica a sí mismo como ChatGPT, la plataforma de chatbot de OpenAI. En publicaciones en X y pruebas realizadas por TechCrunch, DeepSeek V3 afirma ser una versión del modelo GPT-4 de OpenAI, lanzado en junio de 2023.
En 5 de 8 ocasiones, DeepSeek V3 se identifica como ChatGPT (v4), y solo se llama a sí mismo DeepSeek V3 en 3 ocasiones. Esto da una idea de cómo se distribuyó su entrenamiento. Si se le pregunta sobre la API de DeepSeek, el modelo proporciona instrucciones sobre cómo usar la API de OpenAI. Además, DeepSeek V3 cuenta algunos chistes que son idénticos a los de GPT-4, incluyendo los remates.
Los modelos como ChatGPT y DeepSeek V3 son sistemas estadísticos. Se entrenan con miles de millones de ejemplos y aprenden patrones para hacer predicciones. DeepSeek no ha revelado mucho sobre la fuente de los datos de entrenamiento de DeepSeek V3, pero hay muchos conjuntos de datos públicos que contienen texto generado por GPT-4 a través de ChatGPT. Si DeepSeek V3 fue entrenado con estos datos, podría haber memorizado algunas salidas de GPT-4 y ahora las repite textualmente.
Mike Cook, un investigador de inteligencia artificial en el King’s College de Londres, comentó que el modelo probablemente ha visto respuestas de ChatGPT en algún momento, aunque no está claro cómo. También advirtió que entrenar modelos con salidas de otros sistemas puede ser perjudicial para la calidad del modelo, ya que puede llevar a respuestas engañosas. Cook comparó esto con hacer una fotocopia de una fotocopia, lo que resulta en la pérdida de información y conexión con la realidad.
Además, esto podría violar los términos de servicio de esos sistemas. OpenAI prohíbe a los usuarios de sus productos, incluyendo a los clientes de ChatGPT, utilizar las salidas para desarrollar modelos que compitan con los de OpenAI. Tanto OpenAI como DeepSeek no respondieron de inmediato a las solicitudes de comentarios. Sin embargo, el CEO de OpenAI, Sam Altman, publicó un comentario que parecía dirigido a DeepSeek y otros competidores, sugiriendo que es fácil copiar algo que ya funciona, pero muy difícil crear algo nuevo y arriesgado.
DeepSeek V3 no es el primer modelo que se confunde a sí mismo. Modelos como Gemini de Google también han hecho afirmaciones similares. Por ejemplo, cuando se le pregunta en mandarín, Gemini dice que es el chatbot Wenxinyiyan de la empresa china Baidu. Esto se debe a que la web, de donde las empresas de IA obtienen la mayor parte de sus datos de entrenamiento, está llena de contenido generado por IA. Se estima que para 2026, el 90% de la web podría ser generado por IA.
La “contaminación” de datos ha dificultado la filtración de salidas de IA de los conjuntos de datos de entrenamiento. Es posible que DeepSeek haya entrenado a DeepSeek V3 directamente con texto generado por ChatGPT. Heidy Khlaaf, directora de ingeniería en la firma de consultoría Trail of Bits, mencionó que los ahorros de costos al “destilar” el conocimiento de un modelo existente pueden ser atractivos para los desarrolladores, a pesar de los riesgos. Si DeepSeek utilizó parcialmente modelos de OpenAI para su destilación, no sería sorprendente. Sin embargo, es más probable que muchos datos de ChatGPT/GPT-4 se hayan incluido en el conjunto de entrenamiento de DeepSeek V3. Esto significa que el modelo no puede ser confiable en su autoidentificación y podría exacerbar algunos de los sesgos y fallos de GPT-4.