"El Modo de Voz Avanzado con Visión de OpenAI: ¿Un paso hacia una IA similar a "Her" o una decepción en la confiabilidad?"

December 18, 2024 / Pablo

“El Modo de Voz Avanzado con Visión de OpenAI: ¿Un paso hacia una IA similar a “Her” o una decepción en la confiabilidad?”

Hola a todos, bienvenidos al boletín semanal de Noticias IA. Si quieres recibirlo cada miércoles, puedes suscribirte aquí. La semana pasada, OpenAI lanzó el Modo de Voz Avanzado con Visión, que permite a ChatGPT recibir video en tiempo real, dándole al chatbot la capacidad de “ver” más allá de su aplicación. La idea es que al darle a ChatGPT una mayor conciencia contextual, puede responder de manera más natural e intuitiva. Sin embargo, en mi primer intento, me mintió. “¡Ese sofá se ve cómodo!” dijo ChatGPT mientras sostenía mi teléfono y le pedía que describiera nuestra sala. Había confundido un otomano con un sofá. “¡Mi error!” respondió ChatGPT al corregirlo. “Bueno, sigue pareciendo un lugar acogedor.”

Han pasado casi un año desde que OpenAI mostró por primera vez el Modo de Voz Avanzado con Visión, que la compañía presentó como un paso hacia una IA similar a la de la película “Her”. OpenAI prometió que este modo le daría superpoderes a ChatGPT, permitiéndole resolver problemas matemáticos, leer emociones y responder cartas cariñosas. ¿Lo ha logrado? Más o menos. Pero este nuevo modo no ha resuelto el mayor problema de ChatGPT: su fiabilidad. De hecho, la función hace que las “alucinaciones” del bot sean más evidentes.

Curioso por ver si el Modo de Voz Avanzado con Visión podía ayudar a ChatGPT a dar consejos de moda, lo activé y le pedí que calificara un atuendo mío. Lo hizo con gusto, pero mientras opinaba sobre mis jeans y mi camisa color oliva, no mencionó la chaqueta marrón que llevaba puesta. No soy el único que ha tenido errores. Cuando el presidente de OpenAI, Greg Brockman, mostró el Modo de Voz Avanzado con Visión en “60 Minutes” este mes, ChatGPT cometió un error en un problema de geometría, confundiendo la altura de un triángulo.

Entonces, mi pregunta es: ¿de qué sirve una IA similar a “Her” si no puedes confiar en ella? Con cada error de ChatGPT, me sentí menos inclinado a sacar mi teléfono, desbloquearlo, abrir ChatGPT, activar el Modo de Voz Avanzado y habilitar la Visión, un proceso engorroso incluso en las mejores circunstancias. A pesar de su apariencia alegre, este modo está diseñado para generar confianza. Cuando no cumple con esa promesa, resulta desconcertante y decepcionante. Quizás algún día OpenAI pueda resolver el problema de las alucinaciones. Hasta entonces, seguimos con un bot que ve el mundo a través de un enredo de cables. Y sinceramente, no estoy seguro de quién podría querer eso.

OpenAI continúa lanzando nuevos productos cada día hasta el 20 de diciembre. YouTube ahora permite a los creadores decidir cómo terceros pueden usar su contenido para entrenar modelos de IA. Meta ha actualizado sus gafas inteligentes Ray-Ban, permitiendo conversaciones continuas con su IA y traducciones entre idiomas. Google DeepMind anunció Veo 2, una IA generadora de videos que puede crear clips de más de dos minutos en resolución 4K. Un ex-empleado de OpenAI fue encontrado muerto en su apartamento en San Francisco, tras expresar preocupaciones sobre la legalidad de la empresa. Grammarly adquirió la startup de productividad Coda, y Cohere se asoció con Palantir, una firma de análisis de datos. Anthropic presentó Clio, un sistema que ayuda a entender cómo los clientes utilizan sus modelos de IA, y Pika lanzó su modelo de generación de video, Pika 2, que puede crear clips a partir de referencias proporcionadas por los usuarios.

A pesar de que las herramientas están mejorando rápidamente en el ámbito del video, también generan interés y preocupación entre los creativos. El Future of Life Institute lanzó un “Índice de Seguridad de IA” para evaluar las prácticas de seguridad de las principales empresas de IA. Meta fue la peor evaluada, mientras que Anthropic obtuvo la mejor calificación, aunque aún tiene margen de mejora.

Pablo

GitHub lanza versión gratuita de Copilot con inteligencia artificial para aumentar su base de 150 millones de desarrolladores.

"Microsoft lidera la carrera por la inteligencia artificial con su compra masiva de chips Nvidia Hopper en 2024"

Categorías

Now Reading: “El Modo de Voz Avanzado con Visión de OpenAI: ¿Un paso hacia una IA similar a “Her” o una decepción en la confiabilidad?”