MLCommons, un grupo sin fines de lucro dedicado a la seguridad en inteligencia artificial, se ha asociado con la plataforma de desarrollo de IA Hugging Face para lanzar una de las colecciones más grandes del mundo de grabaciones de voz de dominio público para investigación en IA. Este conjunto de datos, llamado “Discurso de la Gente No Supervisado”, contiene más de un millón de horas de audio en al menos 89 idiomas diferentes. MLCommons explica que su motivación para crear este recurso es apoyar la investigación y desarrollo en “diversas áreas de la tecnología del habla”.
La organización señala que “apoyar la investigación en procesamiento de lenguaje natural para idiomas distintos al inglés ayuda a llevar tecnologías de comunicación a más personas en todo el mundo”. Se anticipa que la comunidad de investigación podrá seguir desarrollando en áreas como la mejora de modelos de habla para idiomas con pocos recursos, el reconocimiento de voz mejorado en diferentes acentos y dialectos, y nuevas aplicaciones en síntesis de voz.
Sin embargo, los conjuntos de datos de IA como “Discurso de la Gente No Supervisado” pueden presentar riesgos para los investigadores que decidan utilizarlos. Uno de esos riesgos es el sesgo en los datos. Las grabaciones provienen de Archive.org, una organización sin fines de lucro conocida por su herramienta de archivo web Wayback Machine. Debido a que muchos de los colaboradores de Archive.org son angloparlantes, la mayoría de las grabaciones en este conjunto están en inglés con acento americano. Esto significa que, sin un filtrado cuidadoso, los sistemas de IA, como los modelos de reconocimiento de voz y síntesis de voz entrenados con este conjunto, podrían mostrar prejuicios similares. Por ejemplo, podrían tener dificultades para transcribir inglés hablado por personas no nativas o generar voces sintéticas en idiomas distintos al inglés.
Además, “Discurso de la Gente No Supervisado” podría incluir grabaciones de personas que no sabían que sus voces se estaban utilizando para fines de investigación en IA, incluyendo aplicaciones comerciales. Aunque MLCommons asegura que todas las grabaciones son de dominio público o están disponibles bajo licencias de Creative Commons, existe la posibilidad de que se hayan cometido errores. Un análisis del MIT indica que cientos de conjuntos de datos de entrenamiento de IA disponibles públicamente carecen de información sobre licencias y contienen errores.
Defensores de los creadores, como Ed Newton-Rex, CEO de la organización sin fines de lucro Fairly Trained, argumentan que no se debería exigir a los creadores “optar por salir” de los conjuntos de datos de IA, ya que esto impone una carga onerosa. Newton-Rex señala que “muchos creadores no tienen una forma significativa de optar por salir”. Además, si existiera un método universal perfecto para optar por salir, sería injusto poner esa carga sobre los creadores, dado que la IA generativa utiliza su trabajo para competir con ellos.
MLCommons afirma que está comprometido a actualizar, mantener y mejorar la calidad de “Discurso de la Gente No Supervisado”. Sin embargo, dada la posibilidad de fallas, sería prudente que los desarrolladores actúen con cautela.