DeepSeek ha ganado popularidad rápidamente. Este laboratorio de inteligencia artificial de China se hizo conocido esta semana cuando su aplicación de chatbot alcanzó el primer lugar en la App Store de Apple. Los modelos de IA de DeepSeek, que fueron entrenados con técnicas eficientes, han llevado a analistas de Wall Street y expertos en tecnología a cuestionar si Estados Unidos podrá mantener su liderazgo en la carrera de la IA y si la demanda de chips de IA se sostendrá. Pero, ¿de dónde proviene DeepSeek y cómo logró fama internacional tan rápido?
DeepSeek cuenta con el respaldo de High-Flyer Capital Management, un fondo de cobertura cuantitativo chino que utiliza IA para tomar decisiones de inversión. Liang Wenfeng, un entusiasta de la IA, cofundó High-Flyer en 2015. Wenfeng, quien comenzó a interesarse en el trading mientras estudiaba en la Universidad de Zhejiang, lanzó High-Flyer como un fondo de cobertura en 2019, enfocado en desarrollar y aplicar algoritmos de IA. En 2023, High-Flyer creó DeepSeek como un laboratorio dedicado a investigar herramientas de IA, separado de su negocio financiero. Con High-Flyer como uno de sus inversores, el laboratorio se convirtió en su propia empresa, también llamada DeepSeek.
Desde el principio, DeepSeek construyó sus propios centros de datos para entrenar modelos. Sin embargo, al igual que otras empresas de IA en China, DeepSeek se ha visto afectada por las prohibiciones de exportación de hardware de EE. UU. Para entrenar uno de sus modelos más recientes, la empresa tuvo que usar chips Nvidia H800, una versión menos potente que el H100, que está disponible para empresas estadounidenses. Se dice que el equipo técnico de DeepSeek es mayoritariamente joven y que la empresa recluta agresivamente a investigadores de IA con doctorado de las principales universidades chinas. También contrata personas sin experiencia en informática para ayudar a su tecnología a comprender mejor una amplia gama de temas.
DeepSeek presentó su primer conjunto de modelos —DeepSeek Coder, DeepSeek LLM y DeepSeek Chat— en noviembre de 2023. Pero no fue hasta la primavera pasada, cuando la startup lanzó su familia de modelos DeepSeek-V2, que la industria de la IA comenzó a prestar atención. DeepSeek-V2, un sistema de análisis de texto e imágenes de propósito general, tuvo un buen rendimiento en varias pruebas de IA y resultó ser mucho más barato de operar que modelos comparables en ese momento. Esto obligó a la competencia en China, incluyendo a ByteDance y Alibaba, a reducir los precios de uso de algunos de sus modelos y a ofrecer otros de forma gratuita.
DeepSeek-V3, lanzado en diciembre de 2024, solo aumentó la notoriedad de DeepSeek. Según las pruebas internas de DeepSeek, el modelo V3 supera tanto a modelos descargables y de acceso abierto como el Llama de Meta, como a modelos “cerrados” que solo se pueden acceder a través de una API, como el GPT-4 de OpenAI. Igualmente impresionante es el modelo de razonamiento R1 de DeepSeek. Lanzado en enero, DeepSeek afirma que R1 tiene un rendimiento similar al modelo o1 de OpenAI en pruebas clave. Al ser un modelo de razonamiento, R1 se verifica a sí mismo, lo que le ayuda a evitar algunos errores comunes en otros modelos. Los modelos de razonamiento tardan un poco más —generalmente segundos a minutos más— en llegar a soluciones en comparación con un modelo típico sin razonamiento. La ventaja es que tienden a ser más confiables en áreas como física, ciencia y matemáticas.
Sin embargo, hay un inconveniente para R1, DeepSeek V3 y otros modelos de DeepSeek. Al ser IA desarrollada en China, están sujetos a regulaciones del gobierno chino para asegurar que sus respuestas “incorporen valores socialistas fundamentales”. Por ejemplo, en la aplicación de chatbot de DeepSeek, R1 no responderá preguntas sobre la Plaza de Tiananmen o la autonomía de Taiwán.
No está claro cuál es el modelo de negocio de DeepSeek. La empresa fija los precios de sus productos y servicios muy por debajo del valor de mercado y ofrece algunos de forma gratuita. Según DeepSeek, los avances en eficiencia le han permitido mantener una competitividad extrema en costos. Sin embargo, algunos expertos cuestionan las cifras que la empresa ha proporcionado. Sea cual sea el caso, los desarrolladores han adoptado los modelos de DeepSeek, que no son de código abierto en el sentido común, pero están disponibles bajo licencias permisivas que permiten su uso comercial. Según Clem Delangue, CEO de Hugging Face, una de las plataformas que alberga los modelos de DeepSeek, los desarrolladores en Hugging Face han creado más de 500 modelos “derivados” de R1, que han acumulado 2.5 millones de descargas en total.
El éxito de DeepSeek frente a rivales más grandes y establecidos ha sido descrito como “revolucionando la IA” y marcando el inicio de “una nueva era de competencia en IA”. El éxito de la empresa fue al menos en parte responsable de la caída del 18% en el precio de las acciones de Nvidia el lunes y provocó una respuesta pública del CEO de OpenAI, Sam Altman. En cuanto al futuro de DeepSeek, no está claro. Se espera que haya modelos mejorados, pero el gobierno de EE. UU. parece estar cada vez más preocupado por lo que percibe como una influencia extranjera perjudicial.