Después de un informe que reveló que muchas empresas utilizaron datos de transcripción de videos de YouTube para entrenar sus inteligencias artificiales, Apple ha dado un paso al frente para aclarar su uso y planes para OpenELM, entrenado con los controvertidos datos de Pile. Apple contactó a TechRadar después de leer el informe que detallaba cómo EleutherAI, la empresa que proporcionó Pile, aparentemente utilizó el conjunto de datos de subtítulos de YouTube, lo cual va en contra de las políticas de uso de datos de la plataforma social de videos.
Aunque Apple no abordó directamente el tema de los datos de YouTube, reiteró su compromiso con los derechos de los creadores y editores, y agregó que ofrece a los sitios web la posibilidad de optar por no permitir que sus datos sean utilizados para entrenar Apple Intelligence, que Apple presentó durante la WWDC 2024 y se espera que llegue con iOS 18.
La empresa también confirmó que entrena sus modelos, incluidos los de su próximo Apple Intelligence, utilizando datos de alta calidad que incluyen datos con licencia de editores, imágenes de stock y algunos datos disponibles públicamente en la web. Los datos de transcripción de YouTube no están destinados a ser un recurso público, pero no está claro si están completamente ocultos.
Solo para investigación
Apple también construye modelos de investigación y eso es esencialmente lo que es OpenELM, una herramienta para aprender más sobre modelos de lenguaje. En un documento sobre OpenELM, los investigadores señalan que lo entrenaron con datos de Pile. Sin embargo, Apple dice que OpenELM es solo para fines de investigación y no se utiliza para impulsar funciones de IA en ningún dispositivo de Apple, lo que incluiría, entre otros, los mejores iPhones, mejores iPads y mejores Macs. Además, parece que el momento de OpenELM está llegando a su fin. Apple nos dijo que no tiene planes de construir futuras versiones del modelo.
Aunque todo esto puede ofrecer algo de consuelo a los creadores de YouTube (incluido TechRadar) cuyos datos fueron extraídos para Pile y utilizados en, entre otros modelos, OpenELM de Apple, no aborda el hecho de que EleutherAI aparentemente hizo la extracción sin el permiso de YouTube o los creadores y luego lo entregó a empresas como Apple.
Lo que queda por ver es qué hará YouTube a continuación. Por ahora, Apple ha dejado claro que OpenELM fue un proyecto único y que esos datos nunca formarán parte de Apple Intelligence.