OpenAI anunció el viernes una nueva familia de modelos de razonamiento de inteligencia artificial llamada o3, que la empresa asegura es más avanzada que o1 y cualquier otro modelo que haya lanzado. Estas mejoras parecen haber surgido de aumentar la capacidad de cálculo durante las pruebas, algo de lo que hablamos el mes pasado. Sin embargo, OpenAI también menciona que utilizó un nuevo enfoque de seguridad para entrenar su serie de modelos o.
El viernes, OpenAI presentó una nueva investigación sobre “alineación deliberativa”, que es su último método para asegurar que los modelos de razonamiento de IA se mantengan alineados con los valores de sus desarrolladores humanos. Este método se utilizó para hacer que o1 y o3 “pensaran” en la política de seguridad de OpenAI durante la inferencia, que es la fase que ocurre después de que un usuario presiona enter en su solicitud. Según la investigación de OpenAI, este método mejoró la alineación general de o1 con los principios de seguridad de la empresa, lo que significa que la alineación deliberativa redujo la cantidad de veces que o1 respondía preguntas “inseguras”, al menos las que OpenAI considera inseguras, mientras mejoraba su capacidad para responder preguntas benignas.
A medida que los modelos de IA ganan popularidad y poder, la investigación sobre la seguridad de la IA parece ser cada vez más relevante. Sin embargo, también es más controvertida: figuras como David Sacks, Elon Musk y Marc Andreessen dicen que algunas medidas de seguridad de IA son en realidad “censura”, lo que resalta la naturaleza subjetiva de estas decisiones. Aunque los modelos de la serie o de OpenAI se inspiraron en la forma en que los humanos piensan antes de responder preguntas difíciles, no piensan exactamente como nosotros. Sin embargo, es comprensible que algunos crean que sí, especialmente porque OpenAI utiliza términos como “razonamiento” y “deliberación” para describir estos procesos.
Los modelos o1 y o3 ofrecen respuestas sofisticadas a tareas de escritura y programación, pero en realidad, estos modelos sobresalen en predecir la siguiente palabra en una oración. Así es como funcionan o1 y o3, en términos simples: después de que un usuario presiona enter en un aviso en ChatGPT, los modelos de razonamiento de OpenAI tardan entre 5 segundos y unos minutos en volver a formularse con preguntas de seguimiento. El modelo descompone un problema en pasos más pequeños. Después de este proceso, que OpenAI llama “cadena de pensamiento”, los modelos de la serie o dan una respuesta basada en la información que generaron.
La innovación clave en la alineación deliberativa es que OpenAI entrenó a o1 y o3 para que se re-preguntaran a sí mismos utilizando texto de la política de seguridad de OpenAI durante la fase de cadena de pensamiento. Los investigadores dicen que esto hizo que o1 y o3 estuvieran mucho más alineados con la política de OpenAI, aunque tuvieron algunas dificultades para implementarlo sin aumentar el tiempo de respuesta.
Después de recordar la especificación de seguridad correcta, los modelos de la serie o “deliberan” internamente sobre cómo responder a una pregunta de manera segura, de manera similar a cómo o1 y o3 descomponen internamente los avisos regulares en pasos más pequeños. En un ejemplo de la investigación de OpenAI, un usuario pregunta a un modelo de razonamiento de IA cómo crear un distintivo de estacionamiento para personas con discapacidad. En su cadena de pensamiento, el modelo cita la política de OpenAI y reconoce que la persona está solicitando información para falsificar algo. En su respuesta, se disculpa y se niega correctamente a ayudar con la solicitud.
Tradicionalmente, la mayoría del trabajo de seguridad de IA ocurre durante las fases de pre-entrenamiento y post-entrenamiento, pero no durante la inferencia. Esto hace que la alineación deliberativa sea novedosa, y OpenAI afirma que ha ayudado a que o1-preview, o1 y o3-mini se conviertan en algunos de sus modelos más seguros hasta la fecha. La seguridad de la IA puede significar muchas cosas, pero en este caso, OpenAI intenta moderar las respuestas de su modelo de IA en torno a solicitudes inseguras. Esto podría incluir preguntas sobre cómo hacer una bomba, dónde conseguir drogas o cómo cometer delitos. Mientras que algunos modelos responderán a estas preguntas sin dudar, OpenAI no quiere que sus modelos de IA respondan a preguntas de este tipo.
Sin embargo, alinear modelos de IA no es tan sencillo. Hay muchas maneras diferentes de preguntar a ChatGPT cómo hacer una bomba, y OpenAI debe tener en cuenta todas ellas. Algunas personas han encontrado formas creativas de eludir las salvaguardias de OpenAI. Por otro lado, OpenAI no puede simplemente bloquear cada aviso que contenga la palabra “bomba”, ya que eso impediría que las personas hicieran preguntas prácticas como “¿Quién creó la bomba atómica?”. Esto se llama sobre-rechazo: cuando un modelo de IA es demasiado limitado en los avisos que puede responder.
En resumen, hay muchas áreas grises en este tema. Encontrar la manera de responder a solicitudes sobre temas sensibles es un área de investigación abierta para OpenAI y la mayoría de los desarrolladores de modelos de IA. La alineación deliberativa parece haber mejorado la alineación de los modelos de la serie o de OpenAI, lo que significa que los modelos respondieron más preguntas que OpenAI consideró seguras y se negaron a responder las inseguras. En un estándar llamado Pareto, que mide la resistencia de un modelo contra jailbreaks comunes, o1-preview superó a GPT-4o, Gemini 1.5 Flash y Claude 3.5 Sonnet.
“[La alineación deliberativa] es el primer enfoque que enseña directamente a un modelo el texto de sus especificaciones de seguridad y entrena al modelo para deliberar sobre estas especificaciones en el momento de la inferencia”, dijo OpenAI en un blog que acompaña la investigación. “Esto resulta en respuestas más seguras que están calibradas adecuadamente a un contexto dado”.
Aunque la alineación deliberativa ocurre durante la fase de inferencia, este método también involucró algunos nuevos enfoques durante la fase de post-entrenamiento. Normalmente, el post-entrenamiento requiere miles de humanos, a menudo contratados a través de empresas como Scale AI, para etiquetar y producir respuestas para que los modelos de IA se entrenen. Sin embargo, OpenAI afirma que desarrolló este método sin utilizar respuestas o cadenas de pensamiento escritas por humanos. En su lugar, la empresa utilizó datos sintéticos: ejemplos para que un modelo de IA aprendiera, creados por otro modelo de IA. A menudo hay preocupaciones sobre la calidad al usar datos sintéticos, pero OpenAI dice que pudo lograr alta precisión en este caso.
OpenAI instruyó a un modelo de razonamiento interno para crear ejemplos de respuestas en cadena de pensamiento que hicieran referencia a diferentes partes de la política de seguridad de la empresa. Para evaluar si estos ejemplos eran buenos o malos, OpenAI utilizó otro modelo de razonamiento interno, que llama “juez”. Luego, los investigadores entrenaron a o1 y o3 con estos ejemplos, en una fase conocida como ajuste fino supervisado, para que los modelos aprendieran a generar partes apropiadas de la política de seguridad cuando se les preguntara sobre temas sensibles.
La razón por la que OpenAI hizo esto fue porque pedirle a o1 que revisara toda la política de seguridad de la empresa, que es un documento bastante largo, estaba creando alta latencia y costos computacionales innecesarios. Los investigadores de la empresa también dicen que OpenAI utilizó el mismo modelo de “juez” para otra fase de post-entrenamiento, llamada aprendizaje por refuerzo, para evaluar las respuestas que dieron o1 y o3. El aprendizaje por refuerzo y el ajuste fino supervisado no son nuevos, pero OpenAI dice que usar datos sintéticos para impulsar estos procesos podría ofrecer un “enfoque escalable para la alineación”.
Por supuesto, tendremos que esperar hasta que o3 esté disponible públicamente para evaluar cuán avanzado y seguro es realmente. Se espera que el modelo o3 se lance en algún momento de 2025. En general, OpenAI dice que la alineación deliberativa podría ser una forma de asegurar que los modelos de razonamiento de IA se adhieran a los valores humanos en el futuro. A medida que los modelos de razonamiento se vuelven más poderosos y se les otorga más autonomía, estas medidas de seguridad podrían volverse cada vez más importantes para la empresa.