Uno de los puntos de venta de los modelos de inteligencia artificial generativa de Google, Gemini 1.5 Pro y 1.5 Flash, es la cantidad de datos que supuestamente pueden procesar y analizar. En presentaciones y demostraciones, Google ha afirmado repetidamente que los modelos pueden realizar tareas antes imposibles gracias a su “contexto largo”, como resumir documentos de cientos de páginas o buscar en escenas de películas. Sin embargo, nuevas investigaciones sugieren que los modelos no son tan buenos en estas tareas.
Dos estudios investigaron cómo los modelos Gemini de Google y otros manejan grandes cantidades de datos, como obras del tamaño de “Guerra y Paz”. Ambos estudios encontraron que Gemini 1.5 Pro y 1.5 Flash tienen dificultades para responder correctamente a preguntas sobre grandes conjuntos de datos; en una serie de pruebas basadas en documentos, los modelos dieron la respuesta correcta solo entre el 40% y el 50% de las veces.
“Si bien modelos como Gemini 1.5 Pro pueden procesar contextos largos técnicamente, hemos visto muchos casos que indican que los modelos no ‘entienden’ realmente el contenido”, dijo Marzena Karpinska, investigadora postdoctoral en UMass Amherst y coautora de uno de los estudios.
El contexto de un modelo se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar una salida (por ejemplo, texto adicional). A medida que los contextos crecen, también lo hace el tamaño de los documentos que se pueden incluir en ellos. Las versiones más recientes de Gemini pueden tomar hasta 2 millones de tokens como contexto, lo que equivale a aproximadamente 1.4 millones de palabras, dos horas de video o 22 horas de audio, el contexto más grande de cualquier modelo disponible comercialmente.
En una demostración, Google mostró cómo Gemini 1.5 Pro buscaba en la transcripción de la transmisión del alunizaje del Apollo 11, alrededor de 402 páginas, para encontrar citas con chistes y luego encontrar una escena en la transmisión que se pareciera a un boceto a lápiz. Oriol Vinyals, vicepresidente de investigación en Google DeepMind, describió el modelo como “mágico”.
Sin embargo, en uno de los estudios, los investigadores pidieron a los modelos que evaluaran declaraciones verdaderas o falsas sobre libros de ficción escritos en inglés. Los modelos tuvieron que decir si la declaración era verdadera o falsa y explicar su razonamiento. Probado en un libro de unas 260,000 palabras (~520 páginas), Gemini 1.5 Pro respondió correctamente el 46.7% de las veces, mientras que Flash solo el 20% de las veces.
El segundo estudio, realizado por investigadores de UC Santa Barbara, probó la capacidad de Gemini 1.5 Flash para “razonar sobre” videos, es decir, buscar y responder preguntas sobre el contenido en ellos. Flash no tuvo un buen desempeño, obteniendo alrededor del 50% de las transcripciones correctas en una prueba con seis dígitos escritos a mano y alrededor del 30% con ocho dígitos.
Ninguno de los estudios ha sido revisado por pares, y ambos probaron las versiones de contexto de 1 millón de tokens, no las de 2 millones de tokens. Flash no está diseñado para ser tan capaz como Pro en términos de rendimiento; Google lo anuncia como una alternativa de bajo costo. Sin embargo, ambos estudios sugieren que Google ha estado prometiendo más de lo que puede cumplir con Gemini desde el principio.
Google no respondió a una solicitud de comentarios. Tanto Saxon como Karpinska creen que los antídotos para las afirmaciones exageradas sobre la IA generativa son mejores puntos de referencia y una mayor énfasis en la crítica de terceros.