Nvidia presentó un prototipo de asistente de inteligencia artificial llamado R2X en la feria CES 2025. Este asistente, que se asemeja a un personaje de videojuego, puede ayudarte a navegar por las aplicaciones de tu computadora. R2X utiliza modelos de inteligencia artificial de Nvidia para su animación y apariencia, y los usuarios pueden ejecutarlo con modelos de lenguaje populares como GPT-4o de OpenAI o Grok de xAI.
Puedes interactuar con R2X a través de texto y voz, subir archivos para que los procese, o incluso permitir que el asistente vea lo que ocurre en tu pantalla o cámara en tiempo real. Las empresas tecnológicas están creando muchos avatares de inteligencia artificial, no solo para videojuegos, sino también para clientes empresariales y consumidores. Aunque las primeras demostraciones son un poco extrañas, algunos creen que estos avatares pueden ser una interfaz prometedora para asistentes de IA.
Nvidia busca combinar las capacidades generativas de los videojuegos con asistentes de IA avanzados para crear un asistente que se sienta humano. Al igual que la función Recall de Microsoft, que ha sido retrasada por preocupaciones de privacidad, R2X puede tomar capturas de pantalla de tu escritorio y procesarlas con un modelo de IA, aunque esta función está desactivada por defecto. Cuando está activa, puede ofrecerte retroalimentación sobre las aplicaciones en uso y ayudarte con tareas complejas, como la programación.
R2X sigue siendo un prototipo, y Nvidia reconoce que aún hay errores por resolver. En demostraciones, el avatar a veces mostraba expresiones faciales extrañas y su tono podía parecer agresivo. Aunque generalmente ofrecía instrucciones útiles y podía ver lo que había en la pantalla, en una ocasión dio instrucciones incorrectas y luego dejó de poder ver la pantalla por completo. Esto podría ser un problema con el modelo de IA subyacente, lo que resalta las limitaciones de esta tecnología temprana.
En una demostración, R2X ayudó a utilizar la función de relleno generativo de Adobe Photoshop, aunque inicialmente dio instrucciones incorrectas. Sin embargo, al cambiar al modelo de IA Grok, el avatar recuperó su capacidad de ver la pantalla. En otra prueba, R2X pudo analizar un PDF desde el escritorio y responder preguntas sobre su contenido, gracias a una función de generación aumentada que le permite extraer información de documentos.
Nvidia utiliza algunos modelos de su división de videojuegos para crear la apariencia de estos avatares, empleando su algoritmo RTX neural faces. Para automatizar los movimientos de la cara, labios y lengua, utilizan un nuevo modelo llamado Audio2Face™-3D, que a veces se detenía, dejando la cara del avatar en posiciones incómodas. Además, se espera que estos avatares R2X puedan unirse a reuniones de Microsoft Teams como asistentes personales.
Un líder de producto de Nvidia mencionó que están trabajando para dotar a estos avatares de habilidades para realizar acciones en tu escritorio, aunque esto aún está en desarrollo y requerirá asociaciones con empresas de software como Microsoft y Adobe. No está claro cómo Nvidia genera las voces de estos productos; la voz de R2X con GPT-4o suena diferente a las voces preestablecidas de ChatGPT, y Grok de xAI aún no tiene un modo de voz.
La compañía planea hacer que estos avatares sean de código abierto en la primera mitad de 2025, viendo esto como una nueva interfaz de usuario para que los desarrolladores construyan, permitiendo a los usuarios integrar sus productos de software de IA favoritos o incluso ejecutar estos avatares localmente.