OpenAI ha lanzado oficialmente su primer Agente de IA: Operator. Este nuevo asistente funciona dentro de un navegador web para realizar tareas por ti y ya está disponible como una vista previa de investigación limitada. Operator puede hacer reservas para cenar, completar formularios y llevar a cabo otras tareas en la web.
Operator es un Agente que utiliza las habilidades visuales de GPT-4o para navegar y buscar información en internet. Esto significa que puede entender el contexto de lo que necesita buscar y, gracias a su capacidad multimodal, también comprende lo que ve mientras busca. Actualmente, está disponible como una vista previa de investigación para suscriptores de ChatGPT Pro en Estados Unidos.
Se describe a Operator como “un agente que puede usar su propio navegador para realizar tareas por ti”. OpenAI ha mostrado una demostración donde Operator navega por la web de manera similar a como lo haríamos los humanos. Puedes pedirle a Operator que reserve una cena, complete un largo formulario, pida comestibles o incluso reserve un vuelo. Puede utilizar OpenTable para encontrar y hacer una reserva en un restaurante, como se mostró en la demostración. Además, Operator te guiará a través de los pasos que sigue.
Es importante tener en cuenta que Operator es una “vista previa de investigación”, lo que significa que está en sus primeras etapas. OpenAI ha establecido algunas limitaciones. Aunque aún no hemos podido probarlo, parece bastante impresionante. Este es el primer paso de OpenAI en el mundo de los agentes de IA, que probablemente será un tema importante en el ámbito de la inteligencia artificial este año.
OpenAI menciona en un blog que “es uno de nuestros primeros agentes, que son IA capaces de realizar trabajos de manera independiente: tú le das una tarea y ella la ejecuta”. Esto sugiere que hay otros agentes en desarrollo, como confirmó Altman durante la demostración en vivo, todos enfocados en hacer cosas por ti, lo que representa un gran avance en la búsqueda de hacer la IA más útil y darnos más tiempo libre.
Operator está impulsado por el nuevo modelo de Agente que utiliza un ordenador (CUA), que combina las habilidades visuales de GPT-4o con un razonamiento avanzado. Esto permite que Operator entienda y utilice elementos dentro de un navegador, como la barra de búsqueda, varios botones y el contenido en pantalla.
OpenAI explica que “Operator puede ‘ver’ (a través de capturas de pantalla) e ‘interactuar’ (usando todas las acciones que permiten un ratón y un teclado) con un navegador”, lo que le permite usar funcionalmente un navegador para completar tareas. Esto es bastante interesante, especialmente si logra un alto índice de éxito, y según el blog, puede autocorregirse.
Sin embargo, como ocurre con la mayoría de las nuevas herramientas y habilidades de IA, probablemente tomará tiempo para que esto sea realmente útil en el mundo real. También será necesario que OpenAI lo abra a más personas, aunque como vista previa de investigación, sigue siendo una demostración impresionante.
Por ahora, si estás en Estados Unidos y eres suscriptor de ChatGPT Pro, puedes probarlo en el sitio web de OpenAI. El CEO de OpenAI, Sam Altman, insinuó que eventualmente estará disponible en otros países y se añadirá a la suscripción de ChatGPT Plus. Como recordamos de algunos anuncios de OpenAI, Europa probablemente tardará un poco más en recibirlo.