El equipo de robótica de Google DeepMind está enseñando a los robots a aprender como lo haría un pasante humano: viendo un video. Han publicado un nuevo estudio que demuestra cómo los robots RT-2 de Google, equipados con el modelo de IA generativa Gemini 1.5 Pro, pueden absorber información de videos para aprender a moverse y realizar tareas en su destino.
Gracias a la ventana de contexto extendida del modelo Gemini 1.5 Pro, entrenar a un robot como a un nuevo pasante es posible. Esta ventana permite que la IA procese grandes cantidades de información simultáneamente. Los investigadores filman un recorrido en video de un área designada, como una casa u oficina. Luego, el robot ve el video y aprende sobre el entorno.
Los detalles en los recorridos en video permiten que el robot complete tareas basadas en el conocimiento adquirido, utilizando tanto salidas verbales como de imagen. Es una forma impresionante de mostrar cómo los robots pueden interactuar con su entorno de manera similar a los humanos. Puedes ver cómo funciona en el video a continuación, así como ejemplos de diferentes tareas que el robot podría realizar.
Una longitud de contexto limitada hace que sea un desafío para muchos modelos de IA recordar entornos. Con una longitud de contexto de 1 millón de tokens del modelo 1.5 Pro, nuestros robots pueden usar instrucciones humanas, recorridos en video y razonamiento de sentido común para encontrar su camino en un espacio.
Experiencia en IA Robótica
Estas demostraciones no son casualidades raras. En pruebas prácticas, los robots impulsados por Gemini operaron en un área de 9,000 pies cuadrados y siguieron con éxito más de 50 instrucciones diferentes de usuarios con una tasa de éxito del 90%. Este alto nivel de precisión abre muchas posibilidades de uso real para los robots con IA, ayudando en casa con tareas domésticas o en el trabajo con tareas meniales o incluso más complejas.
Una de las características más destacadas del modelo Gemini 1.5 Pro es su capacidad para completar tareas de múltiples pasos. La investigación de DeepMind ha encontrado que los robots pueden responder preguntas como si hay una bebida específica disponible, navegando hasta un refrigerador, procesando visualmente lo que hay dentro y luego regresando y respondiendo la pregunta.
La idea de planificar y llevar a cabo toda la secuencia de acciones demuestra un nivel de comprensión y ejecución que va más allá del estándar actual de órdenes de un solo paso para la mayoría de los robots.
No esperes ver este robot a la venta pronto. Por un lado, toma hasta 30 segundos procesar cada instrucción, lo cual es mucho más lento que hacer algo tú mismo en la mayoría de los casos. El caos de los hogares y oficinas del mundo real será mucho más difícil de navegar para un robot que un entorno controlado, sin importar cuán avanzado sea el modelo de IA.
Aún así, integrar modelos de IA como Gemini 1.5 Pro en la robótica es parte de un gran avance en el campo. Los robots equipados con modelos como Gemini o sus rivales podrían transformar la atención médica, el envío e incluso las tareas de limpieza.
More from TechRadar Pro.