OpenAI ha explicado que una de las interrupciones más largas en su historia se debió a un “nuevo servicio de telemetría” que falló. El miércoles, su plataforma de chatbot impulsada por inteligencia artificial, ChatGPT; su generador de videos, Sora; y su API para desarrolladores, sufrieron grandes problemas a partir de las 3 p.m. hora del Pacífico. OpenAI reconoció el problema rápidamente y comenzó a trabajar en una solución, pero tardó aproximadamente tres horas en restaurar todos los servicios.
En un informe publicado el jueves, OpenAI aclaró que la interrupción no fue causada por un incidente de seguridad ni por un lanzamiento de producto reciente, sino por un servicio de telemetría que se implementó ese miércoles para recopilar métricas de Kubernetes. Kubernetes es un programa de código abierto que ayuda a gestionar contenedores, que son paquetes de aplicaciones y archivos relacionados utilizados para ejecutar software en entornos aislados.
OpenAI explicó que “los servicios de telemetría tienen un alcance muy amplio, por lo que la configuración de este nuevo servicio causó involuntariamente operaciones de API de Kubernetes que consumen muchos recursos”. Esto provocó que los servidores de API de Kubernetes se sobrecargaran, afectando el control de Kubernetes en la mayoría de sus grandes clústeres.
En términos simples, el nuevo servicio de telemetría impactó las operaciones de Kubernetes de OpenAI, incluyendo un recurso esencial para la resolución de DNS, que convierte direcciones IP en nombres de dominio. Gracias a la caché de DNS, que almacena información sobre nombres de dominio previamente consultados y sus direcciones IP correspondientes, la situación se complicó, ya que esto “retrasó la visibilidad” del problema.
OpenAI pudo detectar el problema “unos minutos” antes de que los clientes comenzaran a notar el impacto, pero no pudo implementar rápidamente una solución debido a la sobrecarga de los servidores de Kubernetes. La empresa comentó que fue una combinación de múltiples sistemas y procesos que fallaron al mismo tiempo y de maneras inesperadas.
Para evitar que esto vuelva a suceder, OpenAI planea adoptar varias medidas, como mejorar los lanzamientos por fases con mejor monitoreo de los cambios en la infraestructura y crear nuevos mecanismos para garantizar que los ingenieros de OpenAI puedan acceder a los servidores de API de Kubernetes en cualquier circunstancia. OpenAI se disculpó por el impacto que este incidente causó a todos sus clientes, desde usuarios de ChatGPT hasta desarrolladores y empresas que dependen de sus productos. “No hemos cumplido con nuestras propias expectativas”, concluyó la empresa.