ChatGPT podría parecer que piensa como tú, pero espera a que también suene como tú. Esto es posible gracias al nuevo Modo de Voz Avanzado para ChatGPT, específicamente en el modelo más avanzado GPT-4o. OpenAI lanzó la tarjeta del sistema la semana pasada explicando lo que GPT-4o puede y no puede hacer, incluyendo la posibilidad, aunque poco probable, de que el Modo de Voz Avanzado imite las voces de los usuarios sin su consentimiento.
El Modo de Voz Avanzado permite a los usuarios tener conversaciones habladas con el chatbot de IA. La idea es hacer las interacciones más naturales y accesibles. La IA tiene algunas voces preestablecidas entre las que los usuarios pueden elegir. Sin embargo, la tarjeta del sistema informa que esta función ha mostrado comportamientos inesperados en ciertas condiciones. Durante las pruebas, un ruido de fondo hizo que la IA imitara la voz del usuario.
El modelo GPT-4o produce voces utilizando un “prompt” del sistema, un conjunto oculto de instrucciones que guía el comportamiento del modelo durante las interacciones. En el caso de la síntesis de voz, este “prompt” se basa en una muestra de voz autorizada. Pero, aunque el “prompt” del sistema guía el comportamiento de la IA, no es infalible. La capacidad del modelo para sintetizar voz a partir de clips de audio cortos significa que, bajo ciertas condiciones, podría generar otras voces, incluida la tuya. Puedes escuchar lo que sucedió en el clip a continuación cuando la IA interviene con un “¡No!” y de repente suena como el primer hablante.
Clon de Voz Propia
“La generación de voz también puede ocurrir en situaciones no adversas, como nuestro uso de esa capacidad para generar voces en el modo de voz avanzado de ChatGPT. Durante las pruebas, también observamos casos raros donde el modelo generaba de manera no intencional una salida que emulaba la voz del usuario”, explicó OpenAI en la tarjeta del sistema. “Aunque la generación de voz no intencional sigue existiendo como una debilidad del modelo, usamos clasificadores secundarios para asegurar que la conversación se interrumpa si esto ocurre, minimizando el riesgo de generación de voz no intencional”.
Como dijo OpenAI, desde entonces ha implementado salvaguardas para prevenir tales ocurrencias. Esto significa usar un clasificador de salida diseñado para detectar desviaciones de las voces autorizadas preseleccionadas. Este clasificador actúa como una medida de seguridad, ayudando a asegurar que la IA no genere audio no autorizado. Aun así, el hecho de que haya sucedido refuerza lo rápido que esta tecnología está evolucionando y cómo cualquier medida de seguridad debe evolucionar para igualar lo que la IA puede hacer. El estallido del modelo, donde exclamó repentinamente “¡No!” en una voz similar a la del probador, subraya el potencial de la IA para difuminar inadvertidamente las líneas entre las interacciones humanas y de máquina.