Si has estado al tanto de las últimas noticias sobre inteligencia artificial, sabrás que ya existen chatbots con los que puedes hablar usando tu voz. OpenAI fue uno de los primeros en mostrar esta tecnología con su modo de voz avanzado de ChatGPT (actualmente gratis solo por 10 minutos al mes), pero Google llegó primero al mercado con Gemini Live (ahora gratuito para todos los usuarios de Android). Recientemente, Microsoft también se unió al juego al actualizar su sitio web y aplicación de Copilot (que es gratis para todos) para incluir conversaciones por voz.
La capacidad de hablar con una IA y que esta responda como un humano ha sido un sueño de ciencia ficción desde que el Capitán James T. Kirk se dirigió a la computadora de la nave en Star Trek. Sin embargo, fueron creaciones de ciencia ficción posteriores, como HAL 9000 y los replicantes de Blade Runner, las que encendieron nuestra imaginación sobre las posibilidades de una IA que pudiera interactuar como un humano.
Ahora parece que estamos viviendo en el futuro, porque puedes tener una conversación con una IA usando el smartphone o la computadora que estás utilizando. Aunque hemos avanzado mucho hacia un compañero similar a un humano, todavía queda un largo camino por recorrer. Después de probar los últimos AIs controlados por voz – ChatGPT Advanced Voice mode, Gemini Live y Copilot – durante un par de semanas, aquí están mis tres principales conclusiones:
1. Las interrupciones son una buena idea, pero no funcionan correctamente.
El mayor problema que encontré al hablar con las IA es la dificultad para interrumpirlas o su capacidad de interrumpirte cuando no lo deseas. Es genial que ChatGPT, Gemini Live y Copilot te permitan interrumpir, ya que tienden a dar respuestas largas y pesadas. Sin embargo, este proceso a menudo falla; a veces no captan tu interrupción o responden a ella con más charla. Normalmente, dicen algo como: “Ok, ¿qué te gustaría saber en su lugar?”, cuando solo quieres que dejen de hablar para que puedas hacerlo tú. Esto resulta en una serie desordenada de saltos que arruina el flujo natural de la conversación.
2. Necesitan navegar por la web.
Si le preguntas a alguno de los chatbots actuales dónde conseguir la mejor pizza local, a excepción de Gemini Live, te dirán que no pueden buscar en la web. Gemini Live está muy por delante en este aspecto; hará una recomendación de un buen lugar para comer pizza. Las recomendaciones no son malas, y aunque no puede hacer una reserva, te dará el número de teléfono del restaurante. Los chatbots activados por voz necesitan poder navegar por la web, al igual que los chatbots basados en texto, pero actualmente ChatGPT Advanced Voice mode y Copilot no pueden hacerlo, lo que es una gran desventaja.
3. No son lo suficientemente personales.
Para que la IA por voz sea útil, necesita conocer mucha información sobre ti y acceder a tus aplicaciones importantes, como tu bandeja de entrada y tu calendario. En este momento, no puede hacerlo. Si le preguntas: “¿Estoy libre a las 4 p.m. este viernes?” o “¿Cuándo es el próximo cumpleaños familiar?”, te dirá que no puede hacerlo en este momento. Sin esa capacidad, la utilidad de la IA por voz disminuye considerablemente.
Entonces, ¿para qué es buena una IA que habla?
Ahora mismo, el mejor uso de la IA por voz es para hacer preguntas, motivarte a hacer algo o generar ideas que no se te ocurrirían por tu cuenta. Elige un tema y haz que la IA converse contigo; descubrirás que sabe bastante sobre muchos temas. Por ejemplo, sé mucho sobre Jiu-Jitsu brasileño y pude tener una buena conversación sobre ello con cada uno de los chatbots, incluso en un nivel sorprendente de detalle sobre técnicas y posiciones. Según mi experiencia, Copilot me dio las mejores respuestas, mientras que Gemini parecía más propenso a inventar cosas que no eran ciertas.
En términos de interfaz, creo que ChatGPT está liderando el camino. Me gusta cómo su esfera giratoria parece reaccionar con un pulso que coincide con lo que dices, lo que te da confianza de que realmente está escuchando. En contraste, Gemini Live tiene una pantalla oscura con un área brillante en la parte inferior, lo que no te da un punto de enfoque, resultando en una experiencia un poco más fría.
La IA con la que puedes hablar ahora es excelente para investigar temas, pero también se siente un poco incompleta y necesitará mucha más integración con nuestros smartphones antes de poder funcionar al nivel que naturalmente quisiéramos. Por supuesto, mejorará con el tiempo. En este momento, el gran ausente es Apple Intelligence y su asistente Siri, que aún no han llegado. Estamos esperando una fecha de lanzamiento para Apple Intelligence, y incluso entonces no obtendremos la versión completa de Siri hasta el próximo año.
En resumen, la promesa de una IA con la que podamos hablar como si fuera un amigo o un asistente virtual real parece estar cerca, pero aún queda un largo camino por recorrer.