Netflix giới thiệu VOID: Khung làm việc mã nguồn mở cho loại bỏ đối tượng video nhất quán về mặt vật lý

Tóm tắt nhanh

Netflix đã phát hành VOID, một khung AI mã nguồn mở loại bỏ các đối tượng khỏi video trong khi vẫn giữ lại các tương tác vật lý chân thực, cung cấp một lựa chọn tiên tiến hơn so với các công cụ inpainting truyền thống cho sản xuất video chuyên nghiệp.

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object RemovalDịch vụ phát trực tuyến toàn cầu Netflix đã giới thiệu VOID, một khung mã nguồn mở được thiết kế để xóa các đối tượng khỏi video trong khi vẫn bảo toàn các tương tác vật lý mà chúng tạo ra, giải quyết các hạn chế được thấy ở các công cụ inpainting truyền thống và xóa đối tượng.

Về mặt lịch sử, việc xóa một đối tượng khỏi cảnh đã khá đơn giản, nhưng đảm bảo môi trường vẫn hoạt động một cách chân thực sau đó lại là một thách thức đáng kể. Ví dụ, việc xóa một người đang cầm đàn guitar có thể khiến nhạc cụ bị treo một cách không tự nhiên, và việc xóa một người thợ lặn khỏi bể bơi có thể khiến nước vẫn không bị xáo động. Các đội hiệu ứng hình ảnh trước đây thường phải sửa các vấn đề như vậy thủ công, một quy trình tốn thời gian có thể kéo dài từ vài ngày đến vài tuần cho riêng một cảnh.

VOID, viết tắt của Video Object and Interaction Deletion, được dự định để giải quyết những rắc rối này. Không giống với các phương pháp thông thường chỉ đơn giản lấp đầy các pixel bị thiếu, hệ thống dự đoán các kết quả phù hợp về mặt vật lý cho cảnh sau khi đối tượng bị xóa

Nó tận dụng kết hợp nhiều công nghệ để đạt được điều đó. Gemini của Google phân tích cảnh để xác định các khu vực sẽ bị ảnh hưởng bởi việc xóa, trong khi SAM2 của Meta phân đoạn các đối tượng cần loại bỏ. Các đầu ra này được mã hóa thành quadmask, một bản đồ bốn giá trị cho biết khu vực nào cần xóa, khu vực nào chồng lấn, khu vực nào bị tác động về mặt vật lý và khu vực nào vẫn giữ nguyên. Một mô hình khuếch tán video được xây dựng trên CogVideoX của Alibaba sau đó tái tạo cảnh theo cách có tính khả thi về mặt vật lý. Một lượt xử lý thứ hai tùy chọn sẽ áp dụng optical flow để sửa mọi biến dạng phát sinh từ quá trình tái dựng ban đầu.

Minh họa việc loại bỏ đối tượng nhất quán về mặt vật lý trong sản xuất video

Các bản demo về VOID cho thấy kết quả thuyết phục: bóng bay bay lên một cách tự nhiên khi bị loại bỏ người cầm, các khối duy trì sự ổn định khi xóa các khối không liên quan, và mặt bể bơi vẫn không bị ảnh hưởng sau khi một người bị xóa. Trong một nghiên cứu về sở thích của con người với 25 người tham gia, VOID được ưa chọn 64.8% số lần, vượt trội so với Runway, một lựa chọn thương mại hàng đầu, vốn chỉ đạt 18.4%.

Bản phát hành này đánh dấu công cụ AI đầu tiên do Netflix Research cung cấp ra công chúng. Được cấp phép theo Apache 2.0, VOID có thể được sử dụng cho mục đích thương mại và được lưu trữ trên Hugging Face. Yêu cầu phần cứng hiện giới hạn việc tiếp cận: cần một GPU VRAM 40GB để chạy mô hình, nhưng các tối ưu hóa trong tương lai và chi phí hạ tầng giảm có thể mở rộng khả năng sẵn có. VOID đại diện cho một sự thay đổi trong công nghệ sản xuất video, chuyển từ các công cụ xóa đơn giản sang các hệ thống có khả năng hiểu và tái dựng cảnh một cách thực tế, một sự phát triển mang ý nghĩa quan trọng đối với quy trình làm việc chuyên nghiệp.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.24KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:0
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:2
    0.07%
  • Ghim