“Impecable y sorprendente.” Así describí la primera demostración de Siri que vi hace 13 años en el lanzamiento del iPhone 4S en la sede original de Apple en One Infinite Loop. Fue un evento trascendental, rápidamente eclipsado por la trágica muerte de Steve Jobs por cáncer un día después. Antes de esa noticia, estábamos asimilando varios desarrollos importantes de Apple: era el primer lanzamiento de producto de Tim Cook como CEO. Aunque su enfoque era muy diferente al de Jobs, parecía perfectamente cómodo. Esperábamos un iPhone 5, pero Apple nos sorprendió con el iPhone 4S. Parecía una medida a medias, pero la “S” significaba más que “Segundo”. Era por “Siri”, el nuevo “Asistente Inteligente” de Apple.
Apple nos dijo que Siri tenía una forma de inteligencia artificial, pero nunca la describió como “IA”. Mi reacción a la primera Siri fue menos sobre su inteligencia incipiente y más sobre su capacidad asombrosa para entender fácilmente todo lo que decíamos. Esto se logró gracias a Nuance, una empresa con décadas de experiencia en reconocimiento de voz. Microsoft la adquirió en 2022, y hoy en día, Apple dedica poco tiempo a hablar sobre la capacidad de Siri para entender el habla, una habilidad básica para la mayoría de los chatbots.
En los más de doce años desde su introducción, la capacidad de Siri para entender y responder a nuestras consultas ha mejorado, principalmente gracias a una serie de “trasplantes de cerebro”. Ahora tiene una voz más natural, no necesita el comando “Oye Siri” y puede mantener el hilo de una conversación durante un par de consultas. Sin embargo, esta descripción de las capacidades originales de Siri de un artículo de Mashable del 4 de octubre de 2011 encapsula bastante bien lo que puede lograr hoy:
“Debido a que es capaz de analizar el lenguaje humano natural, puede responder a una pregunta como ‘¿Cómo está el clima hoy?’ con una respuesta que encuentra en línea, como un informe meteorológico. Puede leer mensajes, buscar en Wikipedia, hacer una cita en el calendario, establecer un recordatorio, buscar en Google Maps y más.”
Y eso es un problema.
Siri fue impresionante hasta que Amazon introdujo Alexa en 2014. De repente, Siri parecía limitada por su entorno de smartphone. Eventualmente, Siri y Alexa parecían alcanzar cierta paridad, pero fueron superadas por una serie de poderosos chatbots de IA que comenzaron a llegar en 2022. Desde entonces, nuestras expectativas sobre lo que un “Asistente Inteligente” debería ser y hacer han cambiado. Es como si estuviéramos mirando a nuestro confiable caballo, Siri, pensando en lo bueno que era para moverse, y luego llegaron los autos de carrera. Siri sigue avanzando, pero la mayoría de nosotros estamos abrochándonos el cinturón, despegando y dejando a nuestro primer asistente de voz en el polvo.
Las noticias de que Apple podría estar hablando con OpenAI sobre la integración de ChatGPT en iOS 18 son intrigantes y podrían tener sentido, especialmente dado que Apple no ha avanzado significativamente en su propia IA en los últimos 18 meses.
No tengo dudas de que la WWDC 2024 será el evento de desarrolladores de IA más grande de Apple. Es probable que Siri reciba un trasplante de cerebro completo y un nuevo cuerpo, haciéndola casi irreconocible del Asistente Inteligente que conocí en 2011. Pero la idea de que Tim Cook y el CEO de OpenAI, Sam Altman, suban al escenario de la WWDC, se den la mano y proclamen que Siri es ahora un producto de ChatGPT, o al menos que el cerebro de Siri es más GPT-4 que el Siri original programado por Apple, no cuadra.
Apple podría usar los modelos de lenguaje grande de OpenAI para informar la inteligencia de Siri. También podría estar utilizando Gemini de Google. No sospecho que esté usando ambos, pero creo que, sea lo que sea que Apple use, no dedicarán mucho tiempo a hablar sobre el núcleo del modelo de lenguaje detrás del nuevo Siri.
El estilo de Apple
Según entiendo, el estilo de Apple se trata de control y propiedad. Apple trabaja con innumerables socios para construir sus teléfonos, laptops, relojes y tabletas, pero las cajas dicen “Diseñado por Apple”. Nunca promocionó que usaba Gorilla Glass o que trabajaba con TSMC para construir cualquiera de sus chips de clase A (A16 Bionic, por ejemplo). Si presionas a la compañía, podría decirte que, incluso si trabaja con estas empresas, insiste en componentes personalizados que no podrían compararse con hardware similar en productos de competidores, incluidos aquellos que usan los mismos socios.
Hay una preocupación razonable de que Apple no tenga las habilidades de IA generativa para construir un nuevo Siri desde cero. Pero eso ignora los equipos que Apple ha construido (a veces captando expertos en IA de competidores como Google) específicamente para abordar estos problemas de IA.
Cualquiera que sea el plan de Apple, no puede permitirse jugar a lo seguro. Siri pudo haber sido la primera, pero ahora está vergonzosamente atrasada. El tiempo para profundizar solo en tu teléfono ha terminado. Obtener excelentes recomendaciones de música no es suficiente. Siri debe transformarse de un Asistente Inteligente a algo más grande, una idea de lo que la IA Generativa podría ser cuando se case con uno de los mejores ecosistemas de la industria.
Esa es la ventaja que Apple tiene sobre Google, Microsoft, Amazon e incluso OpenAI: una colección de hardware y plataformas que se conocen entre sí tan bien como se conocen a sí mismos. Un Siri que se convierta en una plataforma que pueda abarcar todos estos sistemas operativos y tipos de hardware será el competidor formidable que hemos estado esperando. Lo llamarán SiriOS, y lo recibiremos con los brazos abiertos.
Si Apple no hace esto (o algo similar), es hora de admitir la derrota. Siri no puede terminar lo que comenzó.