Nvidia está incursionando en los modelos del mundo, que son modelos de inteligencia artificial inspirados en la forma en que los humanos comprenden su entorno. En la feria Consumer Electronics Show en Las Vegas, la compañía anunció que pondrá a disposición de todos una serie de modelos que pueden predecir y generar videos “conscientes de la física”. Esta nueva familia se llama Cosmos World Foundation Models, o Cosmos WFM para abreviar.
Estos modelos se pueden ajustar para diferentes aplicaciones y están disponibles a través de la API de Nvidia, sus catálogos NGC y la plataforma para desarrolladores de inteligencia artificial Hugging Face. Nvidia afirmó en un blog que está lanzando la primera ola de Cosmos WFM para simulaciones basadas en física y generación de datos sintéticos. Los investigadores y desarrolladores, sin importar el tamaño de su empresa, pueden usar estos modelos de forma gratuita bajo una licencia abierta que permite su uso comercial.
La familia Cosmos WFM incluye varios modelos divididos en tres categorías: Nano, para aplicaciones de baja latencia y en tiempo real; Super, para modelos de alto rendimiento; y Ultra, para la máxima calidad y fidelidad. Los modelos varían en tamaño de 4 a 14 mil millones de parámetros, siendo Nano el más pequeño y Ultra el más grande. Los parámetros son una medida de las habilidades de resolución de problemas de un modelo, y generalmente, los modelos con más parámetros funcionan mejor.
Nvidia también está lanzando un “modelo de aumento de resolución”, un decodificador de video optimizado para realidad aumentada, y modelos de seguridad para garantizar un uso responsable. Estos modelos, junto con otros de la familia Cosmos WFM, fueron entrenados con 9 billones de tokens provenientes de 20 millones de horas de interacciones humanas en el mundo real, datos ambientales, industriales, robóticos y de conducción.
Aunque Nvidia no ha revelado la fuente de estos datos de entrenamiento, se ha informado que la compañía utilizó videos de YouTube protegidos por derechos de autor sin permiso. Nvidia afirmó que los modelos Cosmos WFM pueden generar datos sintéticos “controlables y de alta calidad” a partir de texto o fotogramas de video, lo que ayuda en el entrenamiento de modelos para robótica y vehículos autónomos.
Las empresas como Waabi, Wayve, Fortellix y Uber ya están probando los modelos Cosmos WFM para diferentes usos, desde búsqueda y curaduría de videos hasta la creación de modelos de inteligencia artificial para vehículos autónomos. Es importante mencionar que los modelos de Nvidia no son “código abierto” en el sentido más estricto. Para que un modelo de IA se considere realmente de código abierto, debe proporcionar suficiente información sobre su diseño y detalles sobre los datos utilizados para su entrenamiento. Nvidia no ha publicado detalles sobre los datos de entrenamiento de Cosmos WFM ni ha proporcionado todas las herramientas necesarias para recrear los modelos desde cero, por lo que se refiere a ellos como “abiertos” en lugar de de código abierto.