OpenAI me dio una semana para probar su nuevo agente de inteligencia artificial, llamado Operator. Este sistema puede realizar tareas en internet de forma independiente. Operator se asemeja a la visión de la industria tecnológica sobre los agentes de IA, que buscan automatizar las partes aburridas de la vida, permitiéndonos enfocarnos en lo que realmente nos gusta. Sin embargo, mi experiencia con este agente muestra que los sistemas de IA verdaderamente “autónomos” aún están lejos de ser una realidad.
OpenAI ha entrenado un nuevo modelo para impulsar a Operator, combinando la comprensión visual de GPT-4o con las capacidades de razonamiento de o1. Este modelo parece funcionar bien para tareas básicas; vi a Operator hacer clic en botones, navegar por menús y llenar formularios. A veces, el agente logró actuar de manera independiente y es mucho más rápido que otros agentes web que he visto de Anthropic y Google. Sin embargo, durante mi prueba, me encontré asistiendo al agente más de lo que me gustaría. Sentí que estaba guiando a Operator a través de cada problema, cuando realmente quería que se encargara de ciertas tareas por completo.
A menudo, tuve que responder preguntas, otorgar permisos, llenar información personal y ayudar al agente cuando se quedaba atascado. En términos de automóviles, Operator es como conducir un coche con control de crucero: a veces puedes quitar el pie del pedal y dejar que el coche se maneje solo, pero no es un piloto automático completo. De hecho, OpenAI menciona que las pausas frecuentes de Operator son intencionales. La IA que impulsa a Operator, al igual que la que alimenta chatbots como ChatGPT, no puede trabajar de manera independiente durante largos períodos y es propensa a errores. Por eso, OpenAI no quiere darle al sistema demasiado poder de decisión o información sensible del usuario. Tal vez sea una elección segura, pero reduce la practicidad de Operator.
Dicho esto, el primer agente de OpenAI es una prueba de concepto impresionante para una IA que puede usar la interfaz de cualquier sitio web. Sin embargo, para crear sistemas de IA verdaderamente independientes, las empresas tecnológicas necesitarán desarrollar modelos de IA más confiables que no requieran tanta supervisión.
Mi prueba de Operator coincidió con la semana en que me mudaba de apartamento, así que le pedí ayuda con la logística de mudanza. Le pregunté a Operator si podía ayudarme a comprar un nuevo permiso de estacionamiento. El agente respondió: “Claro”, y luego abrió una ventana en mi navegador. Operator buscó un permiso de estacionamiento en San Francisco, me llevó al sitio web correcto y a la página adecuada. Además, Operator me permite seguir usando el resto de mi computadora mientras trabaja, algo que no se puede decir del Proyecto Mariner de Google.
Sin embargo, para obtener mi permiso de estacionamiento, tuve que otorgar permisos a Operator para iniciar diferentes procesos más veces de las que me gustaría. También se detuvo para pedirme que llenara formularios con información personal, como mi nombre, número de teléfono y correo electrónico. En ocasiones, Operator se perdió, lo que me obligó a tomar el control del navegador para volver a encaminar al agente.
En otra prueba, le pedí a Operator que hiciera una reserva en un restaurante griego. Operator encontró un buen lugar en mi área a precios razonables, pero tuve que responder más de media docena de preguntas durante el proceso. Si tienes que intervenir seis o más veces solo para hacer una reserva a través de un agente de IA, ¿en qué momento es más fácil hacerlo tú mismo? Esa fue una pregunta que me hice a menudo mientras probaba a Operator.
En algunas de mis pruebas, me encontré con sitios web que bloqueaban a Operator por diversas razones. Por ejemplo, intenté reservar un electricista usando TaskRabbit, pero el agente me dijo que se encontró con un error y preguntó si podía usar un servicio alternativo. Expedia, Reddit y YouTube también bloquearon al agente de IA en sus plataformas. Sin embargo, otros servicios están recibiendo a Operator con los brazos abiertos. Instacart, Uber y eBay colaboraron con OpenAI para el lanzamiento de Operator, permitiendo que el agente navegue por sus sitios web en nombre de los usuarios.
A pesar de que los agentes de IA están ganando popularidad, algunos ejecutivos creen que los usuarios siempre acudirán a los sitios web de estas empresas. Por ejemplo, el director de producto de Instacart, Daniel Danker, mencionó que ven a Operator como un nuevo punto de entrada para los clientes.
Tuve algunos problemas de confianza con Operator después de que cometió errores que casi me costaron varios cientos de dólares. Por ejemplo, le pedí que encontrara un garaje cerca de mi nuevo apartamento y sugirió dos que, según decía, estaban a solo unos minutos a pie. Sin embargo, resultaron estar muy lejos y fuera de mi presupuesto. Esto es exactamente por qué OpenAI no le da a su agente acceso a información sensible como números de tarjeta de crédito o contraseñas. Si OpenAI no me hubiera permitido intervenir, Operator podría haber desperdiciado cientos de dólares en un lugar de estacionamiento que no necesitaba.
Los errores como este son un gran obstáculo para tener agentes autónomos realmente útiles que puedan encargarse de tareas molestas. Nadie confiará en los agentes si son propensos a cometer errores básicos, especialmente aquellos con consecuencias en el mundo real. Con Operator, OpenAI ha construido herramientas impresionantes para que los sistemas de IA naveguen por la web. Pero estas herramientas no servirán de mucho hasta que la IA subyacente pueda hacer lo que los usuarios le piden de manera confiable. Hasta entonces, los humanos seguirán asistiendo a los agentes, y eso va en contra del propósito original.