La semana pasada, los modelos de lenguaje grandes (LLMs) se convirtieron en un tema importante en la agenda de soberanía digital de Europa. Se anunció un nuevo programa para desarrollar una serie de LLMs “realmente” de código abierto que cubran todos los idiomas de la Unión Europea (UE). Esto incluye los 24 idiomas oficiales actuales de la UE y otros idiomas de países que están en proceso de unirse al mercado de la UE, como Albania. El proyecto, llamado OpenEuroLLM, es una colaboración entre unas 20 organizaciones, lideradas por Jan Hajič, un lingüista computacional de la Universidad Charles en Praga, y Peter Sarlin, CEO y cofundador del laboratorio de IA finlandés Silo AI.
OpenEuroLLM se enmarca en un contexto más amplio donde Europa busca priorizar su soberanía digital, acercando infraestructuras y herramientas críticas a su territorio. Las grandes empresas de la nube están invirtiendo en infraestructura local para asegurar que los datos de la UE permanezcan en la región. Recientemente, la UE firmó un acuerdo de 11 mil millones de dólares para crear una constelación de satélites soberanos que rivalice con Starlink de Elon Musk.
El presupuesto declarado solo para construir los modelos es de 37.4 millones de euros, de los cuales aproximadamente 20 millones provienen del Programa Digital Europa de la UE. Aunque esto parece poco en comparación con las inversiones de las grandes empresas de IA, el presupuesto total es mayor al incluir fondos para trabajos relacionados. Los socios del proyecto OpenEuroLLM incluyen centros de supercomputación EuroHPC en España, Italia, Finlandia y los Países Bajos, que tienen un presupuesto total de alrededor de 7 mil millones de euros.
Sin embargo, la gran cantidad de organizaciones participantes ha llevado a muchos a cuestionar si los objetivos del proyecto son alcanzables. Anastasia Stasenko, cofundadora de la empresa de LLM Pleias, expresó dudas sobre si un consorcio tan grande podría tener el mismo enfoque que una empresa privada pequeña y enfocada.
El proyecto OpenEuroLLM puede estar comenzando desde cero o tener una ventaja inicial, dependiendo de cómo se vea. Desde 2022, Hajič ha estado coordinando el proyecto de Tecnologías de Lenguaje de Alto Rendimiento (HPLT), que busca desarrollar conjuntos de datos, modelos y flujos de trabajo reutilizables. Este proyecto está programado para finalizar a finales de 2025 y se considera un “predecesor” de OpenEuroLLM.
Hajič espera que las primeras versiones se lancen a mediados de 2026, con la versión final para 2028. Sin embargo, actualmente solo hay un perfil básico en GitHub. A pesar de que el proyecto comenzó recientemente, se ha estado preparando durante un año. Participan organizaciones de varios países europeos, así como empresas como Silo AI, Aleph Alpha (Alemania), Ellamind (Alemania), Prompsit Language Engineering (España) y LightOn (Francia).
Un notable ausente es Mistral, una empresa francesa de IA que se ha posicionado como una alternativa de código abierto. Hajič intentó comunicarse con ellos, pero no tuvo éxito. El proyecto podría atraer nuevos participantes, pero solo de organizaciones de la UE, lo que excluye a entidades del Reino Unido y Suiza.
El objetivo principal del proyecto es crear “una serie de modelos fundamentales para una IA transparente en Europa”, preservando la “diversidad lingüística y cultural” de todos los idiomas de la UE. Esto probablemente resultará en un LLM multilingüe diseñado para tareas generales y versiones más pequeñas para aplicaciones donde la eficiencia es clave.
Hajič también mencionó que el proyecto se beneficiará de los datos generados por el proyecto HPLT, que lanzó una versión de su conjunto de datos hace cuatro meses, entrenado con 4.5 petabytes de datos web. La iniciativa OpenEuroLLM enfrenta desafíos similares a otros proyectos de código abierto, especialmente en cuanto a la definición de “código abierto” y la disponibilidad de datos de entrenamiento.
A pesar de las críticas sobre la similitud con el proyecto EuroLLM, que se lanzó unos meses antes, Hajič espera que ambos proyectos puedan colaborar. La llegada de iniciativas como DeepSeek de China ha generado expectativas sobre lo que se puede lograr con menos recursos.
Sarlin, co-líder técnico del proyecto, confía en que OpenEuroLLM tendrá acceso a financiamiento suficiente, principalmente para cubrir costos de personal. El proyecto no está diseñado para crear productos comerciales, sino para desarrollar modelos que sirvan como infraestructura de IA para empresas en Europa.
En resumen, OpenEuroLLM busca construir modelos de lenguaje abiertos y de alta calidad que sirvan a Europa, con el objetivo de lograr una soberanía digital y un enfoque en la diversidad lingüística.