"DeepSeek V3: el nuevo modelo de IA de código abierto que supera a sus competidores y desafía las restricciones chinas"

December 26, 2024 / Pablo

“DeepSeek V3: el nuevo modelo de IA de código abierto que supera a sus competidores y desafía las restricciones chinas”

Un laboratorio en China ha creado uno de los modelos de inteligencia artificial “abiertos” más potentes hasta la fecha. Este modelo, llamado DeepSeek V3, fue desarrollado por la empresa de IA DeepSeek y se lanzó el miércoles bajo una licencia que permite a los desarrolladores descargarlo y modificarlo para diversas aplicaciones, incluidas las comerciales. DeepSeek V3 puede manejar una variedad de tareas basadas en texto, como programar, traducir y redactar ensayos y correos electrónicos a partir de una descripción.

Según las pruebas internas de DeepSeek, su modelo supera tanto a los modelos “abiertos” descargables como a los modelos “cerrados” que solo se pueden acceder a través de una API. En competiciones de programación en la plataforma Codeforces, DeepSeek V3 ha demostrado ser superior a modelos como Llama 3.1 de Meta, GPT-4o de OpenAI y Qwen 2.5 de Alibaba. Además, destaca en Aider Polgyglot, una prueba que mide la capacidad de un modelo para escribir nuevo código que se integre en código existente.

DeepSeek afirma que su modelo fue entrenado con un conjunto de datos de 14.8 billones de tokens. En ciencia de datos, los tokens representan fragmentos de datos; 1 millón de tokens equivale aproximadamente a 750,000 palabras. DeepSeek V3 también es enorme en tamaño, con 685 mil millones de parámetros, lo que es alrededor de 1.6 veces más que Llama 3.1. Generalmente, un mayor número de parámetros se relaciona con un mejor rendimiento, aunque también requiere hardware más potente para funcionar.

DeepSeek logró entrenar este modelo utilizando un centro de datos con GPUs Nvidia H800 en aproximadamente dos meses, a pesar de que recientemente se han impuesto restricciones a las empresas chinas para adquirir estos dispositivos. La empresa afirma que solo gastó 5.576 millones de dólares en el entrenamiento de DeepSeek V3, una fracción del costo de desarrollo de modelos como GPT-4 de OpenAI.

Sin embargo, el modelo tiene limitaciones en cuanto a sus respuestas políticas. Por ejemplo, si se le pregunta sobre la Plaza de Tiananmén, no responderá. Esto se debe a que DeepSeek, como empresa china, debe cumplir con regulaciones que aseguran que sus modelos reflejen “valores socialistas fundamentales”. Muchos sistemas de IA en China evitan responder a temas que podrían incomodar a los reguladores.

DeepSeek, que recientemente presentó DeepSeek-R1 como respuesta al modelo de razonamiento de OpenAI, está respaldada por High-Flyer Capital Management, un fondo de cobertura cuantitativo chino que utiliza IA para sus decisiones de inversión. Los modelos de DeepSeek han obligado a competidores como ByteDance, Baidu y Alibaba a reducir los precios de uso de algunos de sus modelos e incluso a ofrecer otros de forma gratuita. High-Flyer construye sus propios clústeres de servidores para el entrenamiento de modelos, uno de los cuales tiene 10,000 GPUs Nvidia A100 y costó alrededor de 138 millones de dólares.

Fundada por Liang Wenfeng, un graduado en ciencias de la computación, High-Flyer busca lograr una IA “superinteligente” a través de DeepSeek. En una entrevista, Liang describió la apertura de código como un “acto cultural” y caracterizó la IA de código cerrado como un “foso temporal”. “Incluso el enfoque de código cerrado de OpenAI no ha impedido que otros se pongan al día”, señaló.

Pablo

"El acuerdo entre Microsoft y OpenAI revela una definición de AGI basada en ganancias, dejando a la startup a años de alcanzarla"

"ChatGPT Search, el motor de búsqueda impulsado por IA, puede ser engañado para generar resúmenes falsos y código malicioso, revela The Guardian"

Categorías

Now Reading: “DeepSeek V3: el nuevo modelo de IA de código abierto que supera a sus competidores y desafía las restricciones chinas”