Meta ha lanzado un nuevo modelo de inteligencia artificial que puede etiquetar y seguir cualquier objeto en un video mientras se mueve. El Segment Anything Model 2 (SAM 2) amplía las capacidades de su predecesor, SAM, que solo funcionaba con imágenes, abriendo nuevas oportunidades para la edición y análisis de videos.
La segmentación en tiempo real de SAM 2 es un avance técnico significativo. Demuestra cómo la IA puede procesar imágenes en movimiento y distinguir entre los elementos en pantalla, incluso cuando se mueven o salen del cuadro y vuelven a entrar. La segmentación es el proceso mediante el cual el software determina qué píxeles en una imagen pertenecen a qué objetos. Un asistente de IA que puede hacer esto facilita mucho el procesamiento o la edición de imágenes complicadas. Este fue el gran avance del SAM original de Meta.
SAM ha ayudado a segmentar imágenes de sonar de arrecifes de coral, analizar imágenes satelitales para ayudar en esfuerzos de socorro en desastres e incluso analizar imágenes celulares para detectar cáncer de piel. SAM 2 amplía esta capacidad a los videos, lo cual es un logro considerable que no hubiera sido posible hasta hace poco. Como parte del debut de SAM 2, Meta compartió una base de datos de 50,000 videos creados para entrenar el modelo, además de los 100,000 videos adicionales mencionados anteriormente. Junto con todos estos datos de entrenamiento, la segmentación de video en tiempo real requiere una cantidad significativa de poder de cómputo, por lo que, aunque SAM 2 es abierto y gratuito por el momento, probablemente no seguirá siendo así para siempre.
Éxito en la Segmentación
Con SAM 2, los editores de video podrían aislar y manipular objetos dentro de una escena más fácilmente que con las capacidades limitadas del software de edición actual, y mucho más allá de ajustar manualmente cada cuadro. Meta imagina que SAM 2 revolucionará también los videos interactivos. Los usuarios podrían seleccionar y manipular objetos dentro de videos en vivo o espacios virtuales gracias al modelo de IA.
Meta cree que SAM 2 también podría desempeñar un papel crucial en el desarrollo y entrenamiento de sistemas de visión por computadora, especialmente en vehículos autónomos. El seguimiento preciso y eficiente de objetos es esencial para que estos sistemas interpreten y naveguen sus entornos de manera segura. Las capacidades de SAM 2 podrían acelerar el proceso de anotación de datos visuales, proporcionando datos de entrenamiento de alta calidad para estos sistemas de IA.
Gran parte del entusiasmo en torno a los videos de IA se centra en generar videos a partir de indicaciones de texto. Modelos como Sora de OpenAI, Runway y Google Veo reciben mucha atención por una razón. Aún así, la capacidad de edición proporcionada por SAM 2 podría desempeñar un papel aún más importante en la integración de la IA en la creación de videos.
Y, aunque Meta podría tener una ventaja ahora, otros desarrolladores de video con IA están interesados en producir su propia versión. Por ejemplo, la reciente investigación de Google ha llevado a características de resumen de video y reconocimiento de objetos que está probando en YouTube. Adobe y sus herramientas de IA Firefly también se centran en la edición de fotos y videos e incluyen funciones de relleno consciente del contenido y reencuadre automático.