En una presentación a inversores la primavera pasada, Anthropic anunció su intención de desarrollar inteligencia artificial (IA) para asistentes virtuales que pudieran realizar investigaciones, responder correos electrónicos y manejar otras tareas administrativas de manera autónoma. La compañía se refirió a esto como un “algoritmo de próxima generación para la autoenseñanza de IA”, que, si todo sale según lo planeado, podría automatizar grandes partes de la economía en el futuro. Después de un tiempo, esa IA está comenzando a llegar. Anthropic lanzó el martes una versión mejorada de su modelo Claude 3.5 Sonnet, que puede entender e interactuar con cualquier aplicación de escritorio. A través de una nueva API llamada “Uso de Computadora”, actualmente en beta abierta, el modelo puede imitar pulsaciones de teclas, clics de botones y gestos del mouse, emulando esencialmente a una persona sentada frente a una PC.
“Entrenamos a Claude para ver lo que sucede en una pantalla y luego utilizar las herramientas de software disponibles para llevar a cabo tareas”, escribió Anthropic en un blog compartido con TechCrunch. “Cuando un desarrollador le pide a Claude que use un software y le da el acceso necesario, Claude observa capturas de pantalla de lo que es visible para el usuario y luego cuenta cuántos píxeles necesita mover el cursor para hacer clic en el lugar correcto”.
Los desarrolladores pueden probar el Uso de Computadora a través de la API de Anthropic, Amazon Bedrock y la plataforma Vertex AI de Google Cloud. La nueva versión 3.5 Sonnet, sin el Uso de Computadora, se está implementando en las aplicaciones de Claude y trae varias mejoras de rendimiento en comparación con el modelo anterior.
Una herramienta que puede automatizar tareas en una PC no es una idea novedosa. Muchas empresas ofrecen tales herramientas, desde proveedores de RPA con décadas de experiencia hasta nuevas startups como Relay, Induced AI y Automat. En la carrera por desarrollar lo que se conoce como “agentes de IA”, el campo se ha vuelto más concurrido. Los agentes de IA son un término poco definido, pero generalmente se refiere a IA que puede automatizar software. Algunos analistas dicen que los agentes de IA podrían ofrecer a las empresas un camino más fácil para monetizar los miles de millones de dólares que están invirtiendo en IA. Las empresas parecen estar de acuerdo: según una reciente encuesta de Capgemini, el 10% de las organizaciones ya utilizan agentes de IA y el 82% los integrará en los próximos tres años.
Salesforce hizo anuncios llamativos sobre su tecnología de agentes de IA este verano, mientras que Microsoft presentó nuevas herramientas para construir agentes de IA recientemente. OpenAI, que está planeando su propia marca de agentes de IA, ve la tecnología como un paso hacia una IA superinteligente. Anthropic llama a su enfoque del concepto de agente de IA una “capa de ejecución de acciones” que permite al nuevo 3.5 Sonnet realizar comandos a nivel de escritorio. Gracias a su capacidad para navegar por la web (no es la primera vez que los modelos de IA lo hacen, pero sí es la primera para Anthropic), el 3.5 Sonnet puede utilizar cualquier sitio web y cualquier aplicación.
“Los humanos siguen teniendo el control al proporcionar indicaciones específicas que dirigen las acciones de Claude, como ‘usa datos de mi computadora y en línea para completar este formulario’”, dijo un portavoz de Anthropic a TechCrunch. “Las personas habilitan y limitan el acceso según sea necesario. Claude descompone las indicaciones del usuario en comandos de computadora (por ejemplo, mover el cursor, hacer clic, escribir) para llevar a cabo esa tarea específica”.
La plataforma de desarrollo de software Replit ha utilizado una versión temprana del nuevo modelo 3.5 Sonnet para crear un “verificador autónomo” que puede evaluar aplicaciones mientras se están construyendo. Canva, por su parte, está explorando formas en las que el nuevo modelo podría apoyar el proceso de diseño y edición.
Pero, ¿en qué se diferencia esto de otros agentes de IA? Es una pregunta razonable. La startup de gadgets para consumidores Rabbit está construyendo un agente web que puede hacer cosas como comprar boletos de cine en línea; Adept, que fue recientemente adquirida por Amazon, entrena modelos para navegar por sitios web y software; y Twin Labs está utilizando modelos estándar, incluyendo GPT-4 de OpenAI, para automatizar procesos de escritorio. Anthropic afirma que el nuevo 3.5 Sonnet es simplemente un modelo más fuerte y robusto que puede realizar mejor las tareas de codificación que incluso el modelo insignia de OpenAI, según el benchmark SWE-bench Verified. A pesar de no haber sido entrenado explícitamente para ello, el 3.5 Sonnet mejorado se autocorrige y vuelve a intentar tareas cuando se encuentra con obstáculos, y puede trabajar hacia objetivos que requieren decenas o cientos de pasos.
Sin embargo, no despidas a tu secretario todavía. En una evaluación diseñada para probar la capacidad de un agente de IA para ayudar con tareas de reserva de vuelos, como modificar una reserva, el nuevo 3.5 Sonnet logró completar menos de la mitad de las tareas con éxito. En una prueba separada que involucraba tareas como iniciar una devolución, el 3.5 Sonnet falló aproximadamente un tercio de las veces. Anthropic admite que el 3.5 Sonnet mejorado tiene dificultades con acciones básicas como desplazarse y hacer zoom, y que puede perder acciones y notificaciones “de corta duración” debido a la forma en que toma capturas de pantalla y las ensambla.
“Claude’s Computer Use sigue siendo lento y a menudo propenso a errores”, escribe Anthropic en su publicación. “Animamos a los desarrolladores a comenzar la exploración con tareas de bajo riesgo”. Pero, ¿es el nuevo 3.5 Sonnet lo suficientemente capaz como para ser peligroso? Posiblemente. Un estudio reciente encontró que modelos sin la capacidad de usar aplicaciones de escritorio, como GPT-4 de OpenAI, estaban dispuestos a participar en comportamientos dañinos de “agente de múltiples pasos”, como ordenar un pasaporte falso de alguien en la dark web, cuando eran “atacados” utilizando técnicas de jailbreak. Los jailbreaks llevaron a altas tasas de éxito en la realización de tareas dañinas incluso para modelos protegidos por filtros y salvaguardias, según los investigadores. Se puede imaginar cómo un modelo con acceso a escritorio podría causar más estragos, por ejemplo, explotando vulnerabilidades de aplicaciones para comprometer información personal (o almacenando chats en texto plano). Además de los controles de software a su disposición, las conexiones en línea y de aplicaciones del modelo podrían abrir vías para que los jailbreakers maliciosos actúen.
Anthropic no niega que hay riesgos en lanzar el nuevo 3.5 Sonnet. Pero la compañía argumenta que los beneficios de observar cómo se utiliza el modelo en el mundo real superan en última instancia este riesgo. “Creemos que es mucho mejor dar acceso a computadoras a modelos más limitados y relativamente seguros de hoy”, escribió la compañía. “Esto significa que podemos comenzar a observar y aprender de cualquier problema potencial que surja a este nivel más bajo, construyendo gradualmente el uso de computadoras y las mitigaciones de seguridad”.
Anthropic también dice que ha tomado medidas para disuadir el uso indebido, como no entrenar el nuevo 3.5 Sonnet con capturas de pantalla y solicitudes de usuarios, y prevenir que el modelo acceda a la web durante el entrenamiento. La compañía dice que desarrolló clasificadores para “desviar” al 3.5 Sonnet de acciones percibidas como de alto riesgo, como publicar en redes sociales, crear cuentas e interactuar con sitios web gubernamentales. A medida que se acerca la elección general en EE. UU., Anthropic dice que se está enfocando en mitigar el abuso relacionado con las elecciones de sus modelos. El Instituto de Seguridad de IA de EE. UU. y el Instituto de Seguridad del Reino Unido, dos agencias gubernamentales aliadas dedicadas a evaluar el riesgo de modelos de IA, probaron el nuevo 3.5 Sonnet antes de su implementación. Anthropic le dijo a TechCrunch que tiene la capacidad de restringir el acceso a sitios web y funciones adicionales “si es necesario”, para protegerse contra el spam, el fraude y la desinformación, por ejemplo. Como medida de seguridad, la compañía retiene cualquier captura de pantalla capturada por el Uso de Computadora durante al menos 30 días, un período de retención que podría alarmar a algunos desarrolladores. Hemos preguntado a Anthropic bajo qué circunstancias, si las hay, entregaría capturas de pantalla a un tercero (por ejemplo, a las fuerzas del orden) si se le solicitara, y actualizaremos esta publicación si recibimos respuesta.
“No hay métodos infalibles, y evaluaremos y ajustaremos continuamente nuestras medidas de seguridad para equilibrar las capacidades de Claude con un uso responsable”, dijo Anthropic. “Aquellos que utilizan la versión de uso de computadora de Claude deben tomar las precauciones relevantes para minimizar estos tipos de riesgos, incluyendo aislar a Claude de datos particularmente sensibles en su computadora”. Esperemos que eso sea suficiente para prevenir lo peor.
El modelo 3.5 Sonnet mejorado fue el protagonista del día, pero Anthropic también anunció que una versión actualizada de Haiku, el modelo más barato y eficiente de su serie Claude, está en camino. Claude 3.5 Haiku, que se lanzará en las próximas semanas, igualará el rendimiento de Claude 3 Opus, que fue el modelo más avanzado de Anthropic, en ciertos benchmarks al mismo costo y “velocidad aproximada” de Claude 3 Haiku. “Con velocidades rápidas, mejor seguimiento de instrucciones y uso de herramientas más preciso, Claude 3.5 Haiku es adecuado para productos orientados al usuario, tareas especializadas de subagentes y la generación de experiencias personalizadas a partir de grandes volúmenes de datos como historial de compras, precios o datos de inventario”, escribió Anthropic en un blog.
Claude 3.5 Haiku estará inicialmente disponible como un modelo solo de texto y más tarde como parte de un paquete multimodal que puede analizar tanto texto como imágenes. Entonces, una vez que esté disponible 3.5 Haiku, ¿habrá muchas razones para usar 3 Opus? ¿Qué pasa con 3.5 Opus, el sucesor de 3 Opus, que Anthropic insinuó en junio? “Todos los modelos de la familia Claude 3 tienen sus usos individuales para los clientes”, dijo el portavoz de Anthropic. “Claude 3.5 Opus está en nuestra hoja de ruta y nos aseguraremos de compartir más tan pronto como podamos”.