Grok, el chatbot de inteligencia artificial integrado en X.com, ha añadido de forma silenciosa la capacidad de analizar imágenes. He estado probándolo y parece hacerlo bastante bien, aunque el límite de uso en una cuenta gratuita es bastante bajo, permitiendo solo tres cargas de imágenes.
Para utilizar las nuevas funciones de análisis de imágenes de Grok en el móvil, solo necesitas abrir la aplicación X, tocar la pestaña de Grok en la parte inferior de la pantalla (un cuadrado con una línea a través) y luego presionar el botón + para cargar una imagen. Si estás en un navegador, ve a X.com, haz clic en Grok en el menú de la izquierda y utiliza el botón de clip para adjuntar una imagen. Una vez que la hayas subido, puedes hacerle preguntas sobre ella.
Para comenzar, subí un dibujo de caricatura de Odiseo, un rey de la mitología griega que aparece en la Odisea de Homero, para ver si Grok podía reconocerlo. Grok hizo un excelente trabajo al identificar que era una figura histórica a partir del estilo de la caricatura, e incluso pude pedirle que generara más imágenes similares solo escribiendo indicaciones como “refaz la imagen pero hazla de una mujer caricaturesca”.
La capacidad de analizar el contenido de una imagen y reproducirlo con cambios es útil, aunque no es algo que sus competidores como ChatGPT no puedan hacer igualmente bien. Pero, ¿qué pasa con la comprensión del texto en las imágenes?
Grok puede generar imágenes además de analizarlas. Subí la imagen de un volante de una clase de fitness local y le pedí a Grok que me dijera qué texto había encontrado en la imagen. Extrajo todo el texto perfectamente y proporcionó enlaces clicables a las direcciones web que encontró. Sin embargo, no pareció ofrecer un enlace al nombre de una cuenta de Instagram; aunque ChatGPT tampoco lo hizo cuando lo probé. Extraer texto de una imagen es una cosa, pero Grok también necesita poder analizar ese texto. Para probarlo, subí un horario de mi gimnasio de artes marciales y le pregunté si había una clase de BJJ los jueves a la que pudiera asistir. Respondió con la respuesta perfecta: “Sí, hay una clase de BJJ los jueves a las 7:00 AM (BJJ Gi para adultos y adolescentes) y a las 8:00 PM (BJJ No Gi para adultos y adolescentes)”. Una función como esta podría ser realmente útil para personas que tienen dificultades para procesar información visual.
Para llevar el análisis de imágenes de Grok aún más lejos, intenté subir un texto académico en formato PDF para ver qué hacía con eso, pero resulta que la carga de PDF no está disponible en Grok a menos que actualices a Premium. Sin desanimarme, tomé una captura de pantalla de la primera página del documento y le pedí a Grok que resumiera el texto. Nuevamente, hizo un trabajo ejemplar, dividiendo su respuesta en subtítulos como “Hallazgos de la investigación”, “Contribución académica” y “Contexto histórico”, mientras que ChatGPT simplemente produjo un par de párrafos de resumen. Parece que Grok tiene la ventaja sobre ChatGPT en este aspecto.
El mayor problema de Grok en este momento es que rápidamente alcanzas el límite de uso gratuito para cargar imágenes, y para ser justos, también lo alcanzas bastante rápido en la versión gratuita de ChatGPT. Tres cargas no son muchas para un día. Aparte de eso, Grok es sorprendentemente bueno en el análisis de imágenes, incluso superando a ChatGPT en algunas áreas, y vale la pena investigar si esta función te parece útil.