En la comunidad de inteligencia artificial de código abierto, muchos creen que la diferencia entre ellos y las grandes empresas privadas va más allá del poder de computación. AI2 está trabajando para cerrar esta brecha, comenzando con bases de datos y modelos completamente de código abierto, y ahora con un régimen de post-entrenamiento abierto y fácil de adaptar para transformar modelos de lenguaje grandes “en bruto” en modelos utilizables.
Contrario a lo que muchos piensan, los modelos de lenguaje “fundacionales” no salen del proceso de entrenamiento listos para usar. El pre-entrenamiento es necesario, pero no suficiente. Algunos expertos opinan que el post-entrenamiento podría convertirse pronto en la parte más importante del proceso. Esto se debe a que es en el post-entrenamiento donde se puede crear un valor real. En esta etapa, el modelo se ajusta para evitar que produzca información errónea o inapropiada.
Las empresas suelen ser secretivas sobre sus regímenes de post-entrenamiento porque, aunque cualquiera puede recopilar datos de la web y crear un modelo, hacer que ese modelo sea útil para un terapeuta o un analista de investigación es un desafío completamente diferente. AI2 ha criticado la falta de transparencia en proyectos de IA que se presentan como “abiertos”, como Llama de Meta. Aunque el modelo es gratuito, los métodos de creación y entrenamiento del modelo en bruto son secretos bien guardados.
Por otro lado, AI2 se compromete a ser lo más transparente posible, desde la recolección y limpieza de datos hasta los métodos de entrenamiento utilizados para producir modelos de lenguaje como OLMo. Sin embargo, pocos desarrolladores tienen la capacidad de gestionar sus propios modelos de lenguaje grandes, y aún menos pueden realizar el post-entrenamiento de la manera en que lo hacen Meta, OpenAI o Anthropic, debido a la complejidad técnica y el tiempo que requiere.
Para democratizar este aspecto del ecosistema de IA, AI2 presenta Tulu 3, una mejora significativa sobre un proceso de post-entrenamiento anterior. En las pruebas de la organización sin fines de lucro, Tulu 3 mostró resultados comparables a los modelos “abiertos” más avanzados. Este nuevo enfoque se basa en meses de experimentación y entrenamiento iterativo.
Tulu 3 permite personalizar el modelo según los temas que se deseen priorizar, como reducir las capacidades multilingües y aumentar el enfoque en matemáticas y programación. Luego, el modelo pasa por un extenso proceso de curación de datos, aprendizaje por refuerzo, ajuste fino y otros parámetros de entrenamiento.
El objetivo principal es ofrecer una alternativa a las empresas privadas. Antes, si querías construir un modelo de lenguaje personalizado, era complicado evitar utilizar recursos de grandes empresas o contratar a un intermediario. Esto no solo era costoso, sino que también implicaba riesgos, especialmente para empresas que manejan datos sensibles.
AI2 está utilizando este nuevo enfoque y planea lanzar pronto un modelo basado en OLMo y entrenado con Tulu 3, que promete mejoras adicionales y será completamente de código abierto. Si tienes curiosidad sobre el rendimiento actual del modelo, puedes probar la demostración en vivo.