VOID Видео Инпейтинг ComfyUI: удаление объектов с учетом взаимодействия для чистого, согласованного видео#
Этот рабочий процесс VOID Видео Инпейтинг ComfyUI удаляет объекты и их визуальные взаимодействия из клипа с временной согласованностью. Он сочетает текстово-ориентированное сегментирование Meta’s SAM3 для определения маски с двухпроходным видео инпейтингом Netflix VOID для заполнения "дыры" со временем, обеспечивая результаты, которые выглядят так, будто нежелательный объект и его близлежащие эффекты никогда не существовали.
Создатели, редакторы и VFX команды могут полагаться на VOID Видео Инпейтинг ComfyUI, когда очистка одного кадра мерцает или ломается при движении. Рабочий процесс выдает два клипа: Pass 1 как быстрый промежуточный и Pass 2 как улучшенный результат с более сильной временной стабильностью. Предоставьте исходное видео, короткую фразу SAM3, описывающую объект для удаления, и подсказку для инпейтинга, описывающую сцену, которую вы хотите сохранить.
Ключевые модели в рабочем процессе ComfyUI VOID Видео Инпейтинг ComfyUI#
- VOID: Удаление Видео Объектов и Взаимодействий. Двухпроходная диффузия для удаления объектов из видео с временным обоснованием; эталонная реализация и контрольные точки предоставлены Netflix. GitHub и Hugging Face
- Segment Anything Model 3.1 Multiplex (SAM3.1). Текстовое и подсказываемое сегментирование изображений, используемое для генерации маски объекта, которая направляет инпейтинг. Hugging Face
- RAFT: Рекуррентные Трансформации Поля Всех Пар. Оптический поток, используемый для деформации шума из Pass 1 в Pass 2, чтобы движение оставалось согласованным в кадрах. arXiv и веса в пакете модели VOID на Hugging Face
- CogVideoX VAE. Латентный кодек для кодирования и декодирования видеокадров во время инпейтинга. Hugging Face
- T5-XXL текстовый кодировщик (fp16). Язык основа, который преобразует положительные и отрицательные подсказки в кондиционирование для модели диффузии. Hugging Face
Как использовать рабочий процесс ComfyUI VOID Видео Инпейтинг ComfyUI#
Этот граф VOID Видео Инпейтинг ComfyUI следует четкому пути: загрузите модели и исходный клип, создайте маску объекта с помощью SAM3, постройте общее кондиционирование из ваших подсказок и маски, выполните Pass 1, чтобы установить содержимое, затем выполните Pass 2 с деформированным шумом для стабильного движения. Аудио при необходимости обрезается, чтобы соответствовать обработанному сегменту. Рабочий процесс сохраняет как Pass 1, так и Pass 2 видео, чтобы вы могли сравнить или быстро двигаться.
Модели#
Эта группа загружает все необходимые компоненты для VOID Видео Инпейтинг ComfyUI. CLIPLoader (#2) приносит текстовый кодировщик T5-XXL, а VAELoader (#3) предоставляет CogVideoX VAE. UNETLoader (#144) инициализирует VOID UNet для Pass 1, а UNETLoader (#143) настраивает VOID UNet для Pass 2. OpticalFlowLoader (#142) загружает модель RAFT, которая затем управляет деформацией шума между проходами.
Входные видео (разместите файлы в ComfyUI/input/)#
Укажите загрузчику Source video (ComfyUI/input/) на ваш клип, затем GetVideoComponents (#166) разделяет его на кадры, аудио и fps. ImageFromBatch (#145) выбирает представительный кадр для предварительного просмотра маски. GetImageSize (#43) и простые математические узлы вычисляют длину клипа и индексы для согласованного нарезания. Укажите начальный кадр и продолжительность, чтобы нацелиться только на секцию, которую вы хотите обработать.
Создание Маски#
Подграф Image Segmentation (SAM3) генерирует покадровую маску объекта для VOID Видео Инпейтинг ComfyUI. SAM3_Detect (#75) использует вашу текстовую подсказку SAM3 для сегментации объекта на выбранном кадре, с CLIPTextEncode (#78), кодирующим фразу. Маска предварительно просматривается в MaskPreview (#132), чтобы вы могли проверить покрытие и уточнить формулировку, если необходимо. Чистая, конкретная фраза, такая как "красная чашка на столе" или "человек в синей куртке", помогает SAM3 изолировать правильный объект.
Общее: Текстовое и Масковое Кондиционирование#
Positive Prompt (CLIPTextEncode (#6)) должен описывать сцену, как она должна выглядеть после удаления, а не акт удаления. Negative Prompt (CLIPTextEncode (#7)) при необходимости перечисляет артефакты, которые вы не хотите. VOIDInpaintConditioning (#10) объединяет подсказки, VAE, входящие кадры, вашу маску SAM3 и целевые размеры в латентный кондиционирующий пакет, используемый обоими проходами. Думайте об этом как о том, что говорит VOID, что сохранить и как движение и внешний вид должны ощущаться, когда объект исчез.
Pass 1: Образец (Случайный Шум → DDIM)#
Pass 1 в VOID Видео Инпейтинг ComfyUI устанавливает правдоподобное заполнение, используя стандартный случайный шум. RandomNoise (#141) запускает процесс, BasicScheduler (#138) и VOIDSampler (#133) определяют график диффузии, и CFGGuider (#140) смешивает ваши подсказки в модель. SamplerCustomAdvanced (#49) синтезирует латентный клип, и VAEDecode (#45) превращает его обратно в кадры. CreateVideo (#46) при необходимости присоединяет аудио и записывает промежуточное видео Pass 1, которое вы можете проверить перед уточнением.
Pass 2: Образец (Деформированный Шум → DDIM)#
Pass 2 улучшает временную стабильность, инициализируясь с шумом, деформированным из Pass 1, а не с новой случайностью. VOIDWarpedNoise (#31) использует RAFT оптический поток с кадрами Pass 1 для создания выровненного шума со временем, затем VOIDWarpedNoiseSource (#32) подает это в выборку. CFGGuider (#136), BasicScheduler (#137), и VOIDSampler (#134) настраивают второй семплер, и SamplerCustomAdvanced (#35) уточняет инпейтированное содержимое. VAEDecode (#36) производит окончательные кадры. Если вы переключите пропуск, ComfySwitchNode (#150) направляет кадры Pass 1 непосредственно на вывод для быстрых предварительных просмотров.
Размер Выходного Видео#
Управление шириной и высотой определяет латентное разрешение для Pass 2 и генератора деформированного шума. Эти значения влияют на резкость, стабильность и нагрузку на вычисления в VOID Видео Инпейтинг ComfyUI. Выберите размеры, которые соответствуют вашим целям содержания и доступной памяти. Один и тот же размер используется последовательно по всему каналу, чтобы сохранить движение и маски выровненными.
Пропустить Pass 2#
Когда вам нужно быстро проверить, используйте контроль пропуска, чтобы VOID Видео Инпейтинг ComfyUI повторно использовал Pass 1 без выполнения Pass 2. ComfySwitchNode (#150) автоматически выбирает между изображениями Pass 1 и Pass 2. Это полезно для черновых вариантов или когда вы корректируете фразы маски или подсказки. Включите Pass 2 обратно, чтобы зафиксировать временную согласованность для окончательной рендеринга.
Обрезка Аудио#
Если в вашем клипе есть аудио, VOID Видео Инпейтинг ComfyUI обрезает и повторно присоединяет его, чтобы длина вывода соответствовала обработанному сегменту. TrimAudioDuration (#158) сохраняет синхронизацию звука, и ComfySwitchNode (#174) безопасно обрабатывает беззвучные клипы. Частота кадров из GetVideoComponents (#166) управляет как узлами CreateVideo Pass 1, так и Pass 2, чтобы избежать дрейфа. Установите переключатель "видео имеет аудио?" правильно, чтобы получить ожидаемый результат.
Ключевые узлы в рабочем процессе ComfyUI VOID Видео Инпейтинг ComfyUI#
SAM3_Detect (#75)#
Генерирует маску объекта из короткой фразы SAM3. Если маска слишком рыхлая или плотная, уточните формулировку, чтобы лучше описать цель и ее контекст. Вы также можете настроить внутренние элементы управления для уточнения краев, когда это необходимо. Сильные маски делают последующий инпейтинг более стабильным.
VOIDInpaintConditioning (#10)#
Создает пакет кондиционирования из вашей положительной подсказки, отрицательной подсказки, VAE, кадров и маски SAM3. Положительная подсказка должна описывать сцену, которая остается; избегайте формулировки, такой как "удалить X". Используйте отрицательную подсказку только когда появляются согласованные артефакты. Полученные латентные и кондиционирующие сигналы питают оба прохода.
SamplerCustomAdvanced (#49) - Pass 1#
Запускает выборку VOID для первого прохода со случайным шумом. Семя шума управляет повторяемостью; измените его, когда вы хотите другой образец заполнения. Держите семплер и планировщик в паре с Pass 1 UNet. Проверьте этот проход, чтобы подтвердить композицию и основное движение перед уточнением.
VOIDWarpedNoise (#31)#
Создает временно выровненный шум, используя RAFT оптический поток, вычисленный из кадров Pass 1. Это сохраняет подсказки движения в Pass 2 и уменьшает мерцание. Если движение выглядит нестабильным, пересмотрите качество маски или попробуйте другое семя в Pass 1, чтобы создать лучшую основу для деформации.
SamplerCustomAdvanced (#35) - Pass 2#
Уточняет инпейтированную область, начиная с деформированного шума. Используйте его, чтобы зафиксировать текстуры и стабилизировать мелкие детали с течением времени. Когда результаты уже стабильны, вы можете пропустить Pass 2, чтобы сэкономить время; в противном случае оставьте его включенным для окончательной доставки.
ComfySwitchNode (#150) - Контроль пропуска#
Переключается между кадрами Pass 1 и Pass 2 для окончательного вывода. Используйте это для A/B проверки качества или для ускорения итераций, пока вы корректируете подсказки и маску SAM3. Отключите его для окончательного результата VOID Видео Инпейтинг ComfyUI.
Дополнительные возможности#
- Напишите положительные подсказки для мира, который вы хотите увидеть после удаления, например "пустая кухонная стойка, дневной свет, чистые плитки" вместо "удалить чашку".
- Держите фразы SAM3 конкретными, такими как "человек в синей куртке" или "красная чашка на столе", и повторно запускайте после небольших правок, чтобы подтвердить покрытие в предварительном просмотре маски.
- Используйте начальный кадр и продолжительность, чтобы ограничить обработку только соответствующим разделом; длинные клипы лучше обрабатываются сегментами.
- Пропустите Pass 2 для черновиков, затем включите его для окончательной стабилизации в VOID Видео Инпейтинг ComfyUI.
- Настройте ширину и высоту, чтобы сбалансировать детали с памятью GPU; более высокие разрешения выглядят резче, но требуют больше вычислений.
Признания#
Этот рабочий процесс реализует и расширяет следующие работы и ресурсы. Мы искренне благодарим Netflix за модель VOID, Comfy-Org за файлы моделей VOID и SAM3.1, и RunComfy за исходный код Cloud Save Workflow за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы#
- Netflix/void-model
- GitHub: netflix/void-model
- Comfy-Org/void-model
- Hugging Face: Comfy-Org/void-model
- Comfy-Org/sam3.1
- Hugging Face: Comfy-Org/sam3.1
- RunComfy/Cloud Save source
- Документация / Примечания к выпуску: Cloud Save source
Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

