Cerebras ha logrado un nuevo récord en el rendimiento de inteligencia artificial con el modelo Llama 3.1 405B de Meta, alcanzando una velocidad de generación de 969 tokens por segundo. Esto es 75 veces más rápido que las ofertas basadas en GPU de grandes empresas como AWS. Comparado con otros competidores, Cerebras es casi seis veces más rápido que SambaNova, que alcanza 164 tokens por segundo, y más de 14 veces más rápido que Google Vertex, que solo llega a 30 tokens por segundo. Además, su rendimiento supera a Azure con 20 tokens por segundo y a AWS con 13 tokens por segundo.
El sistema también estableció un nuevo récord mundial en el tiempo de respuesta, generando el primer token en solo 240 milisegundos. Esto es casi el doble de rápido que Google Vertex, que tarda 430 milisegundos, y mucho más rápido que AWS, que necesita 1,770 milisegundos.
Andrew Feldman, cofundador y CEO de Cerebras, destacó que “Cerebras tiene el récord mundial en rendimiento de Llama 3.1 8B y 70B, y con este anuncio, ampliamos nuestra ventaja con el Llama 3.1 405B, entregando 969 tokens por segundo”. Esto permite respuestas en tiempo real de uno de los modelos más avanzados del mundo, abriendo nuevas posibilidades para la inteligencia artificial, como el razonamiento y la colaboración entre múltiples agentes.
El sistema de inferencia de Cerebras, impulsado por la supercomputadora CS-3 y su procesador Wafer Scale Engine 3 (WSE-3), soporta una longitud de contexto completa de 128K con precisión de 16 bits. El WSE-3, conocido como el “chip de IA más rápido del mundo”, cuenta con 44GB de SRAM en chip, cuatro billones de transistores y 900,000 núcleos optimizados para IA. Ofrece un rendimiento máximo de IA de 125 petaflops y tiene 7,000 veces el ancho de banda de memoria del Nvidia H100.
Ahmad Al-Dahle, vicepresidente de GenAI de Meta, también elogió los últimos resultados de Cerebras, afirmando que “es fundamental escalar la inferencia para acelerar la IA y la innovación de código abierto. Gracias al increíble trabajo del equipo de Cerebras, Llama 3.1 405B es ahora el modelo de frontera más rápido del mundo”.
Las pruebas del sistema están en curso, y se espera que esté disponible para el público en el primer trimestre de 2025. Los precios comienzan en $6 por cada millón de tokens de entrada y $12 por cada millón de tokens de salida.