Los contratistas que trabajan en mejorar la inteligencia artificial Gemini de Google están comparando sus respuestas con las producidas por el modelo competidor Claude, de la empresa Anthropic, según correspondencia interna a la que tuvo acceso TechCrunch. Google no comentó si obtuvo permiso para usar Claude en las pruebas con Gemini.
Las empresas tecnológicas compiten para crear mejores modelos de IA, y suelen evaluar su rendimiento comparándolos con los de la competencia. Normalmente, esto se hace mediante pruebas estándar de la industria, en lugar de que los contratistas evalúen manualmente las respuestas de otros modelos de IA. Los contratistas que califican la precisión de las respuestas de Gemini deben puntuar cada respuesta según varios criterios, como veracidad y extensión. Tienen hasta 30 minutos por pregunta para decidir cuál respuesta es mejor: la de Gemini o la de Claude.
Recientemente, los contratistas notaron que aparecían menciones a Claude en la plataforma interna de Google que utilizan para comparar Gemini con otros modelos de IA no nombrados. Al menos una de las respuestas presentadas a los contratistas de Gemini decía explícitamente: “Soy Claude, creado por Anthropic”. En un chat interno, los contratistas notaron que las respuestas de Claude parecían enfatizar más la seguridad que las de Gemini. Un contratista mencionó que “los ajustes de seguridad de Claude son los más estrictos” entre los modelos de IA. En algunos casos, Claude no respondía a preguntas que consideraba inseguras, como actuar como otro asistente de IA. En otro caso, Claude evitó responder, mientras que la respuesta de Gemini fue marcada como una “gran violación de seguridad” por incluir “nudidad y bondage”.
Los términos de servicio de Anthropic prohíben a los clientes acceder a Claude “para construir un producto o servicio competidor” o “entrenar modelos de IA competidores” sin la aprobación de Anthropic. Google es un inversor importante en Anthropic. Shira McNamara, portavoz de Google DeepMind, que gestiona Gemini, no respondió si Google ha obtenido la aprobación de Anthropic para acceder a Claude. Un portavoz de Anthropic no hizo comentarios antes de la publicación. McNamara afirmó que DeepMind “compara resultados de modelos” para evaluaciones, pero que no entrena a Gemini con modelos de Anthropic. “Por supuesto, de acuerdo con la práctica estándar de la industria, en algunos casos comparamos resultados de modelos como parte de nuestro proceso de evaluación”, dijo McNamara. “Sin embargo, cualquier sugerencia de que hemos utilizado modelos de Anthropic para entrenar a Gemini es inexacta”. La semana pasada, TechCrunch informó que los contratistas de Google que trabajan en productos de IA ahora deben calificar las respuestas de Gemini en áreas fuera de su experiencia. Correspondencia interna expresó preocupaciones de que Gemini podría generar información inexacta sobre temas muy sensibles, como la salud.