Meta lanza su modelo de IA de código abierto más grande hasta la fecha
Meta ha anunciado el lanzamiento de Llama 3.1 405B, un modelo de inteligencia artificial con 405 mil millones de parámetros. Los parámetros son como las habilidades de resolución de problemas de un modelo, y generalmente, los modelos con más parámetros funcionan mejor. Aunque Llama 3.1 405B no es el modelo de código abierto más grande, sí es el más grande en los últimos años. Fue entrenado con 16,000 GPUs Nvidia H100 y utiliza técnicas de entrenamiento avanzadas que, según Meta, lo hacen competitivo con modelos líderes como GPT-4 de OpenAI y Claude 3.5 Sonnet de Anthropic.
Llama 3.1 405B está disponible para descargar o usar en plataformas en la nube como AWS, Azure y Google Cloud. También se está utilizando en WhatsApp y Meta.ai para potenciar experiencias de chatbot en Estados Unidos. Este modelo puede realizar diversas tareas, desde codificación y resolver preguntas matemáticas básicas hasta resumir documentos en ocho idiomas (inglés, alemán, francés, italiano, portugués, hindi, español y tailandés). Sin embargo, solo maneja texto, por lo que no puede responder preguntas sobre imágenes.
Meta está experimentando con modelos que pueden reconocer imágenes y videos, y entender y generar habla, aunque estos modelos aún no están listos para su lanzamiento público. Para entrenar Llama 3.1 405B, Meta utilizó un conjunto de datos de 15 billones de tokens, lo que equivale a 750 mil millones de palabras. La empresa también usó datos sintéticos generados por otros modelos de IA para afinar Llama 3.1 405B.
El modelo tiene una ventana de contexto más grande que sus predecesores: 128,000 tokens, aproximadamente la longitud de un libro de 50 páginas. Esto le permite resumir textos más largos y es menos probable que olvide temas discutidos recientemente en conversaciones de chatbot. Meta también presentó dos modelos más pequeños, Llama 3.1 8B y Llama 3.1 70B, que también tienen ventanas de contexto de 128,000 tokens.
Los modelos Llama 3.1 pueden usar herramientas, aplicaciones y APIs de terceros para completar tareas, como responder preguntas sobre eventos recientes con Brave Search, resolver consultas matemáticas y científicas con Wolfram Alpha, y validar código con un intérprete de Python. Según evaluaciones humanas, Llama 3.1 405B es comparable a GPT-4 de OpenAI, aunque tiene algunas limitaciones en capacidades multilingües y razonamiento general.
Meta está promoviendo el uso de datos sintéticos y ha actualizado la licencia de Llama para permitir que los desarrolladores utilicen los resultados de Llama 3.1 para desarrollar modelos generativos de IA de terceros. Sin embargo, los desarrolladores con más de 700 millones de usuarios mensuales deben solicitar una licencia especial a Meta.
Meta también está lanzando nuevas herramientas de seguridad y un “sistema de referencia” para fomentar el uso de Llama en más aplicaciones. Además, está trabajando en la Llama Stack, una API para afinar modelos Llama y generar datos sintéticos.
En una carta abierta, el CEO de Meta, Mark Zuckerberg, expresó su visión de que las herramientas y modelos de IA lleguen a más desarrolladores en todo el mundo, asegurando que las personas tengan acceso a los beneficios y oportunidades de la IA. Meta está invirtiendo fuertemente en esta área, buscando competir con empresas como OpenAI y Anthropic.
Meta ha afirmado que los modelos Llama han sido descargados más de 300 millones de veces y se han creado más de 20,000 modelos derivados de Llama. Aunque los modelos Llama 3.1 no resuelven todos los problemas de la tecnología de IA generativa actual, avanzan en el objetivo de Meta de convertirse en sinónimo de IA generativa.