Netflix presenta VOID: marco de código abierto para la eliminación de objetos de video físicamente coherente

En resumen

Netflix ha lanzado VOID, un marco de IA de código abierto que elimina objetos del video preservando interacciones físicas realistas, ofreciendo una alternativa más avanzada que las herramientas tradicionales de inpainting para la producción profesional de video.

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object RemovalEl servicio global de streaming Netflix ha presentado VOID, un marco de código abierto diseñado para eliminar objetos del video mientras preserva las interacciones físicas que generan, abordando limitaciones observadas en herramientas tradicionales de inpainting y de borrado de objetos.

Históricamente, eliminar un objeto de una escena ha sido sencillo, pero lograr que el entorno se comporte de forma realista después ha planteado desafíos importantes. Por ejemplo, al borrar a una persona que sostiene una guitarra, el instrumento queda suspendido de manera antinatural, y al quitar a un buzo de una piscina, el agua puede quedar sin moverse. Los equipos de efectos visuales tradicionalmente corregían estos problemas de forma manual, un proceso que consume mucho tiempo y puede ir desde días hasta semanas para una sola escena.

VOID, abreviatura de Video Object and Interaction Deletion, está pensado para resolver estas complicaciones. A diferencia de los métodos convencionales que simplemente rellenan los píxeles faltantes, el sistema predice resultados físicamente consistentes para la escena una vez que se elimina el objeto

Aprovecha una combinación de tecnologías para lograrlo. El Gemini de Google analiza la escena para identificar las áreas que se verán afectadas por la eliminación, mientras que el SAM2 de Meta segmenta los objetos que deben eliminarse. Estas salidas se codifican en un quadmask, un mapa de cuatro valores que indica qué áreas borrar, cuáles se solapan, cuáles se ven afectadas físicamente y cuáles permanecen intactas. Luego, un modelo de difusión de video construido sobre CogVideoX de Alibaba reconstruye la escena de una manera físicamente plausible. Una segunda pasada opcional aplica optical flow para corregir cualquier distorsión de la reconstrucción inicial.

Demostrando una eliminación de objetos físicamente consistente en producción de video

Las demostraciones de VOID muestran resultados convincentes: los globos ascienden de forma natural cuando se retira el portador, los bloques mantienen la estabilidad cuando se eliminan bloques no relacionados, y las superficies de la piscina permanecen inalteradas después de que se borra a una persona. En un estudio de preferencia humana con 25 participantes, VOID fue preferido el 64,8 por ciento de las veces, superando a Runway, una alternativa comercial líder, que logró solo el 18,4 por ciento.

Este lanzamiento marca la primera herramienta de IA disponible públicamente de Netflix Research. Con licencia bajo Apache 2.0, VOID puede usarse de forma comercial y se aloja en Hugging Face. Los requisitos de hardware limitan actualmente el acceso: se necesita una GPU con 40GB de VRAM para ejecutar el modelo, pero futuras optimizaciones y una reducción de los costos de infraestructura podrían ampliar la disponibilidad. VOID representa un cambio en la tecnología de producción de video, pasando de herramientas simples de borrado a sistemas capaces de comprender y reconstruir escenas de manera realista, un desarrollo con implicaciones significativas para los flujos de trabajo profesionales.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Gate Fun en tendencia

    Ver más
  • Cap.M.:$2.24KHolders:1
    0.00%
  • Cap.M.:$2.24KHolders:0
    0.00%
  • Cap.M.:$2.23KHolders:1
    0.00%
  • Cap.M.:$2.24KHolders:1
    0.00%
  • Cap.M.:$0.1Holders:0
    0.00%
  • Anclado