Google DeepMind, el laboratorio de investigación de inteligencia artificial de Google, está trabajando para superar a OpenAI en la creación de videos. Este lunes, DeepMind presentó Veo 2, una nueva inteligencia artificial para generar videos, que es la sucesora de Veo y que ya se utiliza en varios productos de Google. Veo 2 puede crear clips de más de dos minutos en resoluciones de hasta 4K (4096 x 2160 píxeles), lo que es cuatro veces la resolución y más de seis veces la duración que puede lograr Sora de OpenAI. Sin embargo, por ahora, esto es solo una ventaja teórica. En la herramienta experimental de creación de videos de Google, VideoFX, donde Veo 2 está disponible, los videos están limitados a 720p y ocho segundos de duración.
Eli Collins, vicepresidente de producto en DeepMind, comentó que Google planea hacer Veo 2 accesible a través de su plataforma para desarrolladores Vertex AI “cuando el modelo esté listo para su uso a gran escala”. A lo largo de los próximos meses, DeepMind continuará mejorando el modelo basándose en la retroalimentación de los usuarios y espera compartir más actualizaciones el próximo año.
Veo 2 puede generar videos a partir de un texto (por ejemplo, “Un coche corriendo por una autopista”) o de un texto y una imagen de referencia. Entre las novedades de Veo 2, DeepMind destaca que el modelo tiene una mejor “comprensión” de la física y los controles de cámara, lo que permite producir imágenes más “nítidas”, especialmente en escenas con mucho movimiento. También mejora el posicionamiento de la “cámara” virtual en los videos que genera, permitiendo capturar objetos y personas desde diferentes ángulos.
DeepMind asegura que Veo 2 puede modelar el movimiento, la dinámica de fluidos (como el café al ser servido) y las propiedades de la luz (como sombras y reflejos) de manera más realista. La compañía mostró algunos ejemplos de Veo 2, que se ven bastante bien para ser videos generados por inteligencia artificial. Sin embargo, a pesar de que DeepMind afirma que el modelo es menos propenso a generar elementos extraños, Veo 2 aún tiene dificultades para evitar lo que se conoce como el “valle inquietante”, donde los personajes pueden parecer poco realistas.
Collins admitió que hay áreas que necesitan mejorar, como la coherencia y la consistencia en los videos generados. Veo 2 fue entrenado con una gran cantidad de videos, lo que es común en los modelos de inteligencia artificial. Aunque DeepMind no revela de dónde obtuvo los videos para entrenar a Veo 2, YouTube es una posible fuente, ya que Google es dueño de YouTube.
DeepMind también está trabajando en colaboración con artistas y productores para perfeccionar sus modelos de generación de video. La compañía se compromete a trabajar de manera colaborativa con los creadores y a escuchar sus comentarios. Además, DeepMind está implementando tecnología de marca de agua para mitigar el riesgo de videos falsos generados por inteligencia artificial.
Junto con Veo 2, Google DeepMind anunció mejoras en Imagen 3, su modelo comercial de generación de imágenes, que ahora puede crear imágenes más brillantes y mejor compuestas en estilos como el fotorrealismo y el anime.