OpenAI presentó recientemente su primer Agente de IA, llamado Operator, pero ya tiene un competidor que ofrece una herramienta de IA llamada Browser Use, que puede realizar tareas en línea por ti. Este Agente que utiliza la computadora (CUA) puede escribir, buscar, hacer clic en botones y copiar información de sitios web sin que necesites tocar el mouse o el teclado, y sin requerir la suscripción de $200 al mes de ChatGPT Pro.
Browser Use es gratuito, al menos si estás dispuesto a dedicar tiempo a jugar con el código de la API. Aunque no soy experto en programación, pensé que sabía lo suficiente sobre cómo funciona GitHub para usar la versión de la API. Después de horas revisando documentación y ajustando configuraciones, me di cuenta de que necesitaba un nivel de conocimiento en programación más profundo del que tengo, y eso es un desafío para la mayoría de las personas que navegan por la web.
Afortunadamente, Browser Use lanzó una versión en la nube que utiliza el modelo GPT-4o de OpenAI. Esta versión simplifica mucho el proceso técnico y lo presenta en un formato de chat más familiar sin necesidad de trabajo adicional. Tiene algunas limitaciones y cuesta $30, pero después de mi experiencia complicada con la API, me pareció una buena oferta. Sin embargo, aún necesitas esforzarte para formular las solicitudes y entender cómo funciona la IA. La principal limitación es que solo puedes emitir una solicitud antes de tener que iniciar una nueva interacción. A pesar de tener un cuadro de texto, no puedes responder a lo que hace la IA ni refinar tu solicitud.
Una vez configurado todo, puse a prueba Browser Use con algunas tareas del mundo real. Primero, realicé una comparación de precios. Ingresé la solicitud: “Navega a Amazon, Best Buy y Walmart y busca ‘MacBook Air M2’. Extrae el nombre del producto, precio y disponibilidad de stock de los primeros cinco resultados en cada sitio. Compara los precios y identifica el más bajo. Si hay descuentos o cupones, regístralos. Proporciona un resumen final con la mejor oferta y dónde comprarlo.”
Browser Use cumplió bien con la tarea, aunque no encontró descuentos ocultos. Aun así, la posibilidad de automatizar el seguimiento de precios en varios sitios fue emocionante. Un problema recurrente para cualquier agente como este es cuando un sitio web quiere verificar que eres humano. Browser Use tiene un botón que te permite tomar el control cuando lo necesites y te alertará cuando sea necesario. Puedes demostrar que eres humano y luego reanudar para que la IA continúe.
Luego, probé la planificación de viajes con la solicitud: “Busca un vuelo de ida y vuelta de Nueva York a Londres el 15 de diciembre de 2025 en British Air. Selecciona la opción más barata y extrae detalles, incluyendo precio, aerolínea y hora de salida.” Browser Use cumplió, mostrando un vuelo de British Airways a $750, con la hora de salida y otros detalles relevantes. Esto podría ser muy útil para quienes reservan mucho viaje, especialmente si lo automatizas para verificar caídas de precios regularmente.
Finalmente, probé la predicción del clima con la solicitud: “Consulta el pronóstico del clima de 7 días para Nueva York en weather.com y resume las tendencias de temperatura, probabilidades de lluvia y cualquier advertencia de clima severo, y sugiere cómo vestirse para ello.” El clima es uno de los usos más populares para los asistentes de voz, así que quería ver cómo manejaba la IA una solicitud más compleja. Lo hizo muy bien, extrayendo la información del pronóstico y sugiriendo qué días usar un abrigo ligero y cuáles días necesitaría “abrigo y bufanda, ya que hará frío con baja probabilidad de lluvia.”
La principal diferencia entre ambos es la accesibilidad. Browser Use es como una navaja suiza para desarrolladores. Tiene la flexibilidad de hacer casi cualquier cosa dentro de un navegador, pero necesitas saber cómo usar las herramientas. Puedes profundizar en el código, ajustarlo y moldearlo a tus necesidades exactas. Si falta una función, nada te impide agregarla. Browser Use, al ser de código abierto, también tiene una comunidad activa de desarrolladores que lo están refinando constantemente. Eso significa que si encuentras problemas, hay foros y discusiones en GitHub donde probablemente encontrarás respuestas.
Por otro lado, Operator de OpenAI es como contratar a un mayordomo. Hace mucho por ti, pero dentro de ciertas limitaciones. La fortaleza de Operator es su integración con el ecosistema más amplio de IA de OpenAI, lo que le da acceso a modelos propietarios que pueden tomar decisiones más matizadas. Sin embargo, estás limitado a la estructura de precios de OpenAI y a opciones de personalización restringidas.
Browser Use no es perfecto. Incluso su versión en la nube requiere paciencia. Necesitas formular tus solicitudes cuidadosamente, prepararte para solucionar problemas y, a veces, comenzar de nuevo. La versión en la nube puede compensar algunas de estas limitaciones más adelante, pero por ahora, la imposibilidad de editar o responder dentro de la conversación impone límites a su naturaleza flexible.
Y la velocidad también puede ser frustrante. En este momento, Browser Use es más adecuado para personas que disfrutan experimentar, como desarrolladores, investigadores y entusiastas de la automatización que no temen ensuciarse las manos. Si estás dispuesto a esforzarte, obtendrás una herramienta poderosa y flexible que cuesta mucho menos que su competencia.
Pero si prefieres no pasar tu fin de semana lidiando con archivos de configuración, Operator puede ser la opción más indulgente. De cualquier manera, la automatización web está lista para un gran auge.