Crear videos atractivos no solo se trata de las imágenes. Gran parte del atractivo de un buen contenido en video radica en el audio, pero encontrar o crear los efectos de sonido adecuados puede llevar mucho tiempo. En su conferencia anual Max, Adobe presentó Project Super Sonic, un prototipo experimental que muestra cómo en el futuro podrías usar texto para audio, reconocimiento de objetos e incluso tu propia voz para generar rápidamente audio de fondo y efectos de sonido para tus proyectos de video.
Generar efectos de audio a partir de un texto es interesante, pero dado que empresas como ElevenLabs ya ofrecen esto comercialmente, puede que no sea tan innovador. Lo que realmente destaca es que Adobe está llevando esto un paso más allá al agregar dos modos adicionales para crear estas bandas sonoras. El primero utiliza modelos de reconocimiento de objetos que te permiten hacer clic en cualquier parte de un fotograma de video, crear un aviso y luego generar ese sonido. Esta es una forma inteligente de combinar múltiples modelos en un solo flujo de trabajo.
El momento más impresionante llega con el tercer modo, que te permite grabarte imitando los sonidos que buscas (sincronizados con el video) y luego hacer que Project Super Sonic genere automáticamente el audio apropiado. Justin Salamon, jefe de Diseño de Sonido AI en Adobe, explicó que el equipo comenzó con el modelo de texto a audio y que, como en todos los proyectos de inteligencia artificial generativa de Adobe, solo usaron datos con licencia.
“Lo que realmente queríamos es dar a nuestros usuarios control sobre el proceso. Queremos que esto sea una herramienta para creadores, diseñadores de sonido y para todos los que quieran mejorar su video con sonido. Por eso, queríamos ir más allá del flujo de trabajo inicial de texto a sonido, y por eso trabajamos en el control vocal que realmente te da un control preciso sobre la energía y el tiempo, convirtiéndolo en una herramienta expresiva”, explicó Salamon.
Para el control vocal, la herramienta analiza las diferentes características de la voz y el espectro del sonido que estás produciendo y utiliza eso para guiar el proceso de generación. Salamon mencionó que, aunque la demostración usa la voz, los usuarios también podrían aplaudir o tocar un instrumento.
Es importante destacar que Adobe Max siempre presenta una serie de lo que llama “sneaks”. Estos, como Project Super Sonic, están destinados a mostrar algunas de las características experimentales en las que la compañía está trabajando actualmente. Aunque muchos de estos proyectos terminan formando parte de la suite creativa de Adobe, no hay garantía de que lo hagan. Y aunque Project Super Sonic sería una adición útil a algo como Adobe Premiere, también existe la posibilidad de que nunca lo volvamos a ver.
Una razón por la que creo que este proyecto podría llegar a producción es que el mismo grupo también trabajó en la parte de audio de Generative Extend, una función de su modelo de inteligencia artificial generativa Firefly que extiende clips de video cortos por unos segundos, incluyendo su pista de audio. Sin embargo, por ahora, Project Super Sonic sigue siendo una demostración.