Las empresas como Runway, OpenAI y Meta están invirtiendo millones en el desarrollo de modelos de video generativos, aunque aún no se sabe bien para qué son útiles. El último modelo de Meta se llama Movie Gen y convierte textos en videos relativamente realistas con sonido, aunque por ahora no incluye voces. Este modelo no se lanzará al público. Movie Gen es un conjunto de modelos de base, siendo el más importante el de texto a video. Meta asegura que supera a otros modelos como Gen3 de Runway y LumaLabs, aunque esto suele ser más una forma de mostrar que están en la competencia que una prueba de que Movie Gen sea el mejor.
El audio se genera para coincidir con el contenido del video, añadiendo sonidos como el ruido de un motor o el murmullo de una cascada. Fue entrenado con una combinación de conjuntos de datos licenciados y disponibles públicamente, aunque Meta no ha dado más detalles sobre esto. Se puede suponer que incluye muchos videos de Instagram y Facebook, así como otros que no están bien protegidos.
Meta busca no solo ser el mejor por un corto tiempo, sino ofrecer un enfoque práctico donde se pueda crear un producto final a partir de un simple texto, como “imagina que soy un panadero haciendo un pastel de hipopótamo brillante en una tormenta”. Un problema que han tenido estos generadores de video es la dificultad para editarlos. Si pides un video de alguien cruzando la calle y luego quieres que camine de derecha a izquierda, el resultado puede ser muy diferente. Meta está añadiendo un método de edición simple donde puedes decir “cambia el fondo a una intersección concurrida” y el sistema intentará hacer solo ese cambio.
Los movimientos de cámara también se comprenden, aunque de manera básica. El modelo genera videos de 768 píxeles de ancho y los escala a 1080p, aunque no genera realmente en esa resolución. Curiosamente, produce hasta 16 segundos de video a 16 fotogramas por segundo, una velocidad que nadie ha deseado. Sin embargo, también puedes hacer 10 segundos a 24 FPS.
En cuanto a la falta de voces, hay dos razones. Primero, es muy complicado. Aunque generar habla es fácil, sincronizarla con los movimientos de los labios y la cara es mucho más difícil. La segunda razón es política: lanzar un generador de deepfake antes de una gran elección no es lo mejor. Limitar sus capacidades es un paso preventivo práctico.
Un representante de Meta comentó que Movie Gen es solo un concepto de investigación en inteligencia artificial y que la seguridad es una prioridad. A diferencia de otros modelos, Movie Gen no estará disponible públicamente. Se pueden replicar algunas técnicas siguiendo el documento de investigación, pero el código no se publicará, excepto por el conjunto de datos de evaluación subyacente.