Anjney “Anj” Midha, socio general de Andreessen Horowitz y miembro de la junta de Mistral, se sorprendió hace seis meses por el impresionante rendimiento de DeepSeek. En ese momento, DeepSeek presentó Coder V2, que competía con GPT-4 Turbo de OpenAI en tareas de programación, según un documento que publicaron el año pasado. Esto llevó a DeepSeek a lanzar modelos mejorados cada pocos meses, culminando en R1, su nuevo modelo de razonamiento de código abierto que ha revolucionado la industria tecnológica al ofrecer un rendimiento estándar de la industria a un costo mucho menor.
A pesar de la caída en las acciones de Nvidia, Midha afirma que R1 no significa que los modelos de inteligencia artificial dejarán de gastar miles de millones en chips GPU y en construir más centros de datos rápidamente. En cambio, se trata de hacer más con el poder de cómputo que pueden conseguir. Midha explica que, aunque Mistral ha recaudado mil millones de dólares, eso no hace que esos fondos sean innecesarios. Por el contrario, es muy valioso para ellos observar las mejoras de eficiencia de DeepSeek y aplicar ese conocimiento, incluso invirtiendo grandes sumas de dinero.
Midha asegura que ahora pueden obtener diez veces más rendimiento con la misma capacidad de cómputo. Esto no significa que Mistral esté muy atrás en comparación con OpenAI y Anthropic, que han recaudado mucho más dinero. OpenAI, por ejemplo, está en conversaciones para recaudar otros 40 mil millones de dólares. Sin embargo, Mistral se mantiene competitivo porque es de código abierto, lo que le permite acceder a mano de obra técnica gratuita de quienes usan el proyecto. Los competidores de código cerrado deben pagar por todo el trabajo y el poder de cómputo.
El modelo de inteligencia artificial Llama de Facebook, el mayor rival de Mistral en el ámbito de código abierto, también recibirá más inversiones. El CEO Mark Zuckerberg anunció que planea gastar “cientos de miles de millones de dólares” en inteligencia artificial, incluyendo 60 mil millones de dólares en 2025 para centros de datos.
Midha, que también es miembro de la junta de Black Forest Labs y Luma, tiene otra razón para creer que la demanda de GPUs no disminuirá pronto. Él lidera el programa Oxygen de a16z, que compró GPUs para sus empresas de cartera debido a su escasez. Actualmente, la demanda de GPUs para entrenar modelos de IA y para ejecutar productos de IA es insaciable.
Además, Midha considera que los avances de DeepSeek no afectarán a StarGate, la asociación de 500 mil millones de dólares de OpenAI con SoftBank y Oracle para centros de datos de IA. La gran transformación que trae DeepSeek es el reconocimiento por parte de los estados nacionales de que la IA es una infraestructura fundamental, similar a la electricidad y el internet. Midha aboga por la “independencia de infraestructura”, sugiriendo que los países occidentales deberían optar por modelos occidentales en lugar de depender de modelos chinos.
Sin embargo, no todos comparten el temor hacia los modelos de código abierto chinos, ya que las empresas pueden ejecutarlos localmente en sus propios centros de datos. DeepSeek ya está disponible como un servicio en la nube seguro a través de empresas estadounidenses como Microsoft Azure Foundry, lo que permite a los desarrolladores no depender del servicio en la nube de DeepSeek.
Por último, el ex CEO de Intel, Pat Gelsinger, mencionó que su startup Gloo está construyendo servicios de chat de IA basados en su propia versión de DeepSeek R1. Si alguien considera abandonar sus planes de centros de datos debido a DeepSeek, Midha se ríe y hace una solicitud: “Si tienes GPUs de sobra, por favor, envíalas a Anj”.