OpenAI ha lanzado finalmente la capacidad de video en tiempo real para ChatGPT, una función que mostró hace casi siete meses. Durante una transmisión en vivo el jueves, la empresa anunció que el Modo de Voz Avanzado, que permite conversaciones similares a las humanas, ahora también tiene visión. Los usuarios que están suscritos a ChatGPT Plus o Pro pueden usar la aplicación de ChatGPT para apuntar sus teléfonos inteligentes a objetos y recibir respuestas casi en tiempo real.
El Modo de Voz Avanzado con visión también puede entender lo que aparece en la pantalla de un dispositivo a través de la opción de compartir pantalla. En una reciente demostración en el programa 60 Minutes de CNN, el presidente de OpenAI, Greg Brockman, utilizó esta función para hacer preguntas a Anderson Cooper sobre sus habilidades en anatomía. Mientras Cooper dibujaba partes del cuerpo en una pizarra, ChatGPT pudo “entender” lo que estaba dibujando. “La ubicación es correcta”, dijo el asistente. “El cerebro está justo ahí en la cabeza. En cuanto a la forma, es un buen comienzo. El cerebro es más ovalado”.
Sin embargo, en la misma demostración, el Modo de Voz Avanzado con visión cometió un error en un problema de geometría, lo que sugiere que puede tener fallos. Esta función se había retrasado varias veces, en parte porque OpenAI anunció la característica antes de que estuviera lista para su uso. En abril, OpenAI prometió que el Modo de Voz Avanzado se lanzaría para los usuarios “en unas pocas semanas”, pero meses después, la empresa indicó que necesitaba más tiempo. Cuando finalmente llegó en otoño para algunos usuarios de ChatGPT, no incluía el componente de análisis visual. En los días previos a este lanzamiento, OpenAI se centró en llevar la experiencia de Modo de Voz Avanzado solo de voz a más plataformas y usuarios en la Unión Europea.