Las empresas chinas siguen lanzando modelos de inteligencia artificial que compiten con los desarrollados por OpenAI y otras compañías estadounidenses. Esta semana, MiniMax, una startup respaldada por Alibaba y Tencent que ha recaudado alrededor de 850 millones de dólares en capital de riesgo y tiene un valor de más de 2.5 mil millones de dólares, presentó tres nuevos modelos: MiniMax-Text-01, MiniMax-VL-01 y T2A-01-HD.
MiniMax-Text-01 es un modelo solo de texto, mientras que MiniMax-VL-01 puede entender tanto imágenes como texto. Por su parte, T2A-01-HD genera audio, específicamente voz. MiniMax afirma que MiniMax-Text-01, que tiene 456 mil millones de parámetros, supera a modelos como Gemini 2.0 Flash de Google en pruebas como MATH y SimpleQA, que miden la capacidad de un modelo para resolver problemas matemáticos y responder preguntas basadas en hechos. Los parámetros son una medida de las habilidades de resolución de problemas de un modelo; en general, los modelos con más parámetros funcionan mejor que los que tienen menos.
En cuanto a MiniMax-VL-01, MiniMax dice que compite con Claude 3.5 Sonnet de Anthropic en evaluaciones que requieren comprensión multimodal, como ChartQA, que desafía a los modelos a responder preguntas relacionadas con gráficos y diagramas. Sin embargo, MiniMax-VL-01 no supera a Gemini 2.0 Flash en muchas de estas pruebas. También, GPT-4o de OpenAI y Llama 3.1 de Meta lo superan en varias ocasiones.
Es importante destacar que MiniMax-Text-01 tiene una ventana de contexto extremadamente grande. La ventana de contexto de un modelo se refiere a la información que considera antes de generar una respuesta. Con una ventana de contexto de 4 millones de tokens, MiniMax-Text-01 puede analizar alrededor de 3 millones de palabras a la vez, lo que equivale a más de cinco copias de “Guerra y Paz”. Para ponerlo en perspectiva, la ventana de contexto de MiniMax-Text-01 es aproximadamente 31 veces más grande que la de GPT-4o y Llama 3.1.
El último modelo de MiniMax presentado esta semana, T2A-01-HD, es un generador de audio optimizado para voz. Puede crear una voz sintética con cadencia, tono y tenor ajustables en alrededor de 17 idiomas diferentes, incluyendo inglés y chino, y clonar una voz a partir de solo 10 segundos de grabación. MiniMax no publicó resultados de pruebas comparando T2A-01-HD con otros modelos de generación de audio, pero a oído, sus resultados suenan comparables a los modelos de audio de Meta y startups como PlayAI.
A excepción de T2A-01-HD, que está disponible exclusivamente a través de la API de MiniMax y la plataforma Hailuo AI, los nuevos modelos de MiniMax se pueden descargar desde GitHub y la plataforma de desarrollo de IA Hugging Face. Sin embargo, aunque los modelos están “abiertamente” disponibles, no son completamente de código abierto, ya que MiniMax no ha publicado los componentes necesarios para recrearlos desde cero. Además, están bajo una licencia restrictiva de MiniMax que prohíbe a los desarrolladores usar los modelos para mejorar modelos de IA rivales y requiere que las plataformas con más de 100 millones de usuarios activos mensuales soliciten una licencia especial.
MiniMax fue fundada en 2021 por ex-empleados de SenseTime, una de las mayores empresas de IA de China. Entre sus proyectos se encuentran aplicaciones como Talkie, una plataforma de rol impulsada por IA similar a Character AI, y modelos de texto a video que MiniMax ha lanzado en Hailuo. Algunos de los productos de MiniMax han generado controversia. Talkie fue retirado de la App Store de Apple en diciembre por razones “técnicas” no especificadas y presenta avatares de figuras públicas como Donald Trump, Taylor Swift, Elon Musk y LeBron James, quienes aparentemente no han dado su consentimiento para aparecer en la aplicación. En diciembre, la revista Broadcast informó que los generadores de video de MiniMax pueden reproducir los logotipos de canales de televisión británicos, lo que sugiere que los modelos de MiniMax fueron entrenados con contenido de esos canales. Además, se informa que MiniMax está siendo demandada por iQIYI, un servicio de streaming chino que alega que MiniMax entrenó ilícitamente sus modelos con grabaciones protegidas por derechos de autor de iQIYI.
Los nuevos modelos de MiniMax llegan días después de que la administración saliente de Biden propusiera reglas de exportación más estrictas y restricciones sobre tecnologías de IA para empresas chinas. Las empresas en China ya tenían prohibido comprar chips avanzados de IA, pero si las nuevas reglas entran en vigor tal como están escritas, las compañías enfrentarán límites más estrictos tanto en la tecnología de semiconductores como en los modelos necesarios para desarrollar sistemas de IA sofisticados. El miércoles, la administración Biden anunció medidas adicionales enfocadas en evitar que chips avanzados lleguen a China. Las fábricas de chips y las empresas de empaquetado que deseen exportar ciertos chips estarán sujetas a requisitos de licencia más amplios, a menos que ejerzan un mayor control y diligencia para evitar que sus productos lleguen a clientes chinos.