El fundador y CEO de Figure, Brett Adcock, anunció el jueves un nuevo modelo de aprendizaje automático para robots humanoides. Esta noticia llega dos semanas después de que Adcock informara que la empresa de robótica de la Bahía de San Francisco se alejaba de una colaboración con OpenAI. El enfoque principal es Helix, un modelo “generalista” de Visión-Lenguaje-Acción (VLA). Los modelos VLA son una novedad en la robótica, ya que utilizan comandos visuales y de lenguaje para procesar información. El ejemplo más conocido hasta ahora es el RT-2 de Google DeepMind, que entrena robots mediante una combinación de videos y grandes modelos de lenguaje (LLMs). Helix funciona de manera similar, combinando datos visuales y comandos de lenguaje para controlar un robot en tiempo real. Figure destaca que “Helix muestra una fuerte generalización de objetos, pudiendo recoger miles de artículos del hogar de diferentes formas, tamaños, colores y propiedades materiales que nunca se habían encontrado antes en su entrenamiento, simplemente pidiendo en lenguaje natural”.
En un mundo ideal, podrías simplemente decirle a un robot que haga algo y él lo haría. Ahí es donde entra Helix, según Figure. La plataforma está diseñada para cerrar la brecha entre el procesamiento visual y el de lenguaje. Después de recibir un comando de voz en lenguaje natural, el robot evalúa visualmente su entorno y luego realiza la tarea. Figure ofrece ejemplos como: “Pásale la bolsa de galletas al robot a tu derecha” o “Recibe la bolsa de galletas del robot a tu izquierda y colócala en el cajón abierto”. Ambos ejemplos implican que un par de robots trabajen juntos, ya que Helix está diseñado para controlar dos robots a la vez, con uno ayudando al otro en diversas tareas del hogar.
Figure está mostrando el modelo VLA destacando el trabajo que la empresa ha realizado con su robot humanoide 02 en entornos domésticos. Las casas son notoriamente complicadas para los robots, ya que carecen de la estructura y consistencia de almacenes y fábricas. Las dificultades con el aprendizaje y el control son grandes obstáculos que separan a los sistemas robóticos complejos de los hogares. Estos problemas, junto con precios que oscilan entre cinco y seis cifras, son la razón por la que los robots domésticos no han sido una prioridad para la mayoría de las empresas de robótica humanoide. Generalmente, el enfoque es construir robots para clientes industriales, mejorando la fiabilidad y reduciendo costos antes de abordar el ámbito doméstico. Las tareas del hogar son un tema para discutir en unos años.
Cuando TechCrunch visitó las oficinas de Figure en la Bahía de San Francisco en 2024, Adcock mostró algunas de las pruebas que la empresa estaba realizando con su robot humanoide en un entorno doméstico. En ese momento, parecía que este trabajo no era una prioridad, ya que Figure se enfocaba en pilotos laborales con corporaciones como BMW. Con el anuncio de Helix, Figure deja claro que el hogar debe ser una prioridad por derecho propio. Es un entorno desafiante y complejo para probar estos modelos de entrenamiento. Enseñar a los robots a realizar tareas complejas en la cocina, por ejemplo, les abre a una amplia gama de acciones en diferentes entornos. “Para que los robots sean útiles en los hogares, necesitarán ser capaces de generar comportamientos nuevos e inteligentes bajo demanda, especialmente para objetos que nunca han visto antes”, afirma Figure. “Enseñar a los robots incluso un solo nuevo comportamiento actualmente requiere un esfuerzo humano sustancial: ya sea horas de programación manual de nivel de doctorado o miles de demostraciones”.
La programación manual no es escalable para el hogar. Simplemente hay demasiadas incógnitas. Las cocinas, salas de estar y baños varían drásticamente de uno a otro. Lo mismo se puede decir de las herramientas utilizadas para cocinar y limpiar. Además, las personas dejan desorden, reorganizan los muebles y prefieren diferentes tipos de iluminación ambiental. Este método consume demasiado tiempo y dinero, aunque Figure ciertamente tiene mucho de lo último. La otra opción es el entrenamiento, y mucho de él. Los brazos robóticos entrenados para recoger y colocar objetos en laboratorios a menudo utilizan este método. Lo que no se ve son las cientos de horas de repetición necesarias para que una demostración sea lo suficientemente robusta como para abordar tareas altamente variables. Para recoger algo correctamente la primera vez, un robot necesita haberlo hecho cientos de veces antes.
Como ocurre con muchos aspectos de la robótica humanoide en este momento, el trabajo en Helix aún está en una etapa muy temprana. Se debe advertir a los espectadores que gran parte del trabajo ocurre detrás de escena para crear los tipos de videos cortos y bien producidos que se ven en esta publicación. El anuncio de hoy es, en esencia, una herramienta de reclutamiento diseñada para atraer a más ingenieros y ayudar a hacer crecer el proyecto.