Un estudio reciente publicado en la revista PNAS Nexus sugiere que el aumento de modelos de inteligencia artificial como ChatGPT podría estar desafiando la dominancia de sitios tradicionales de intercambio de conocimiento, como Reddit y el foro de programación Stack Overflow. Este cambio podría afectar la disponibilidad de información pública accesible de forma gratuita.
La investigación, realizada por Maria del Rio-Chanona y su equipo, muestra que Stack Overflow experimentó una disminución del 25% en la actividad de los usuarios en solo seis meses tras el lanzamiento de ChatGPT. Esta caída no se observó en sitios similares donde el acceso a ChatGPT está restringido, lo que resalta el impacto significativo de la rápida adopción de este modelo de IA. Según el estudio, los usuarios pueden estar optando por respuestas generadas por IA en lugar de buscar contenido creado por humanos, cambiando así la forma en que las personas obtienen información en línea.
“Los modelos de lenguaje son tan poderosos, tienen un alto valor y generan un gran impacto en el mundo. Uno comienza a preguntarse sobre su futuro”, dice Del Rio-Chanona, quien también es miembro del cuerpo docente en el Complejidad Science Hub (CSH). Los hallazgos generan preocupaciones de que una creciente dependencia de la IA podría reducir el número de contribuciones a foros públicos, llevando a una escasez de datos diversos y auténticos necesarios para entrenar modelos futuros. “Esto tiene implicaciones bastante grandes. Esto significa que podría no haber suficientes datos públicos para entrenar modelos en el futuro”, advierte.
La tendencia podría interrumpir el ecosistema de la web abierta, ya que herramientas de IA como ChatGPT dependen del conocimiento compartido públicamente para sus datos de entrenamiento. “Incluso los modelos de IA como ChatGPT se entrenan con contenido generado por humanos, como las publicaciones de Stack Overflow”, explica Johannes Wachs, miembro del cuerpo docente en CSH. Irónicamente, a medida que la IA desplaza estas plataformas, la calidad de los datos de entrenamiento podría deteriorarse con el tiempo.
El impacto es especialmente notable en publicaciones relacionadas con lenguajes de programación ampliamente utilizados como Python y JavaScript, donde la actividad ha disminuido significativamente. El estudio sugiere que este cambio no se limita a principiantes, sino que afecta a usuarios de todos los niveles de experiencia, indicando un movimiento amplio de interacciones públicas a privadas en plataformas de IA.
Con menos personas contribuyendo a plataformas públicas, los modelos de IA podrían eventualmente depender de datos de menor calidad, lo que podría degradar su rendimiento. Los investigadores hacen un llamado a un enfoque equilibrado que mantenga el intercambio abierto de conocimiento mientras se abrazan los avances de la IA.