Generadores de video con IA como Sora de OpenAI, Dream Machine de Luma AI y Runway Gen-3 Alpha han estado en boca de todos últimamente. Sin embargo, una nueva herramienta de Google DeepMind podría solucionar la debilidad que todos comparten: la falta de audio.
Google DeepMind ha presentado una herramienta de video a audio (o ‘V2A’) que utiliza una combinación de píxeles y textos para generar automáticamente bandas sonoras y efectos de sonido para videos creados por IA. En resumen, es un gran paso hacia la creación de escenas de películas totalmente automatizadas.
Esta tecnología V2A puede combinarse con generadores de video con IA (incluyendo Veo de Google) para crear música ambiental, efectos de sonido oportunos o incluso diálogos que, según Google DeepMind, “coinciden con los personajes y el tono de un video”. Los creadores no están limitados a una sola opción de audio; la herramienta V2A de DeepMind puede generar un “número ilimitado de bandas sonoras para cualquier video”, lo que permite ajustar el resultado con simples indicaciones de texto.
Google afirma que su herramienta se destaca de la competencia gracias a su capacidad para generar audio basándose únicamente en píxeles, siendo las indicaciones de texto opcionales. Sin embargo, DeepMind es consciente del potencial de mal uso y deepfakes, por lo que esta herramienta V2A se está utilizando como un proyecto de investigación por ahora.
DeepMind asegura que “antes de considerar abrir el acceso al público en general, nuestra tecnología V2A pasará por rigurosas evaluaciones de seguridad y pruebas”. Esto es crucial, ya que los diez ejemplos de video muestran que la tecnología tiene un potencial explosivo, tanto positivo como negativo.
El potencial para la creación de películas y animaciones amateur es enorme, como se muestra en el clip de ‘horror’ y en uno de un bebé dinosaurio de dibujos animados. Una escena al estilo Blade Runner con autos derrapando en una ciudad y una banda sonora electrónica también muestra cómo podría reducir drásticamente los presupuestos para películas de ciencia ficción.
Los creadores preocupados pueden encontrar algo de consuelo en las limitaciones obvias del diálogo mostradas en el video de ‘familia de plastilina’. Pero si el último año nos ha enseñado algo, es que la tecnología V2A de DeepMind solo mejorará drásticamente a partir de aquí.
La combinación de videos generados por IA con bandas sonoras y efectos de sonido creados por IA es un cambio de juego en muchos niveles y añade otra dimensión a una carrera armamentista que ya estaba al rojo vivo.
OpenAI ya ha dicho que planea agregar audio a su generador de video Sora, que se lanzará a finales de este año. Pero la nueva herramienta V2A de DeepMind muestra que la tecnología ya está en una etapa avanzada y puede crear audio basándose únicamente en videos, sin necesidad de interminables indicaciones.
La herramienta de DeepMind funciona utilizando un modelo de difusión que combina información tomada de los píxeles del video y las indicaciones de texto del usuario, luego genera audio comprimido que se decodifica en una forma de onda de audio. Al parecer, fue entrenada con una combinación de video, audio y anotaciones generadas por IA.
No está claro exactamente con qué contenido se entrenó esta herramienta V2A, pero Google tiene una ventaja potencialmente enorme al ser dueño de la plataforma de videos más grande del mundo, YouTube. Ni YouTube ni sus términos de servicio son completamente claros sobre cómo se pueden usar sus videos para entrenar IA, pero el CEO de YouTube, Neal Mohan, dijo recientemente a Bloomberg que algunos creadores tienen contratos que permiten usar su contenido para entrenar modelos de IA.
Claramente, la tecnología aún tiene algunas limitaciones con el diálogo y está lejos de producir un artículo terminado listo para Hollywood. Pero ya es una herramienta potencialmente poderosa para la creación de guiones gráficos y cineastas amateurs, y la competencia con empresas como OpenAI significa que solo mejorará rápidamente a partir de aquí.