VOID Video Inpainting ComfyUI: remoção de objetos com consciência de interação para vídeo limpo e consistente#
Este fluxo de trabalho de VOID Video Inpainting ComfyUI remove objetos e suas interações visuais de um clipe com coerência temporal. Ele combina a segmentação orientada por texto do SAM3 da Meta para definir a máscara com o inpainting de vídeo em duas passagens do Netflix VOID para preencher o espaço ao longo do tempo, produzindo resultados que parecem que o objeto indesejado e seus efeitos próximos nunca estiveram lá.
Criadores, editores e equipes de VFX podem confiar no VOID Video Inpainting ComfyUI quando a limpeza de quadro único pisca ou quebra durante o movimento. O fluxo de trabalho produz dois clipes: Passagem 1 como um intermediário rápido e Passagem 2 como um resultado refinado com estabilidade temporal mais forte. Forneça um vídeo de origem, uma frase curta do SAM3 descrevendo o objeto a ser removido e um prompt de inpainting que descreve a cena que você deseja manter.
Modelos principais no fluxo de trabalho de ComfyUI VOID Video Inpainting ComfyUI#
- VOID: Deleção de Objeto e Interação de Vídeo. Difusão em duas passagens para remoção de objetos de vídeo com raciocínio temporal; a implementação de referência e os pontos de verificação são fornecidos pela Netflix. GitHub e Hugging Face
- Segment Anything Model 3.1 Multiplex (SAM3.1). Segmentação de imagem orientada por texto e prompts usada para gerar a máscara do objeto que orienta o inpainting. Hugging Face
- RAFT: Transformações de Campo de Todos os Pares Recorrentes. Fluxo óptico usado para distorcer o ruído da Passagem 1 na Passagem 2 para que o movimento permaneça consistente entre os quadros. arXiv e pesos no pacote de modelos VOID no Hugging Face
- CogVideoX VAE. Codec latente para codificação e decodificação de quadros de vídeo durante o inpainting. Hugging Face
- T5-XXL codificador de texto (fp16). Base de linguagem que transforma os prompts positivos e negativos em condicionamento para o modelo de difusão. Hugging Face
Como usar o fluxo de trabalho de ComfyUI VOID Video Inpainting ComfyUI#
Este gráfico de VOID Video Inpainting ComfyUI segue um caminho claro: carregar modelos e o clipe de origem, criar uma máscara de objeto com SAM3, construir condicionamento compartilhado a partir de seus prompts e máscara, executar a Passagem 1 para estabelecer conteúdo e depois executar a Passagem 2 com ruído distorcido para movimento estável. O áudio é opcionalmente cortado para corresponder ao segmento processado. O fluxo de trabalho salva vídeos de Passagem 1 e Passagem 2 para que você possa comparar ou mover rapidamente.
Modelos#
Este grupo carrega todos os componentes necessários para VOID Video Inpainting ComfyUI. CLIPLoader (#2) traz o codificador de texto T5-XXL, e VAELoader (#3) fornece o CogVideoX VAE. UNETLoader (#144) inicializa o VOID UNet para a Passagem 1 e UNETLoader (#143) configura o VOID UNet para a Passagem 2. OpticalFlowLoader (#142) carrega o modelo RAFT que mais tarde impulsiona a distorção de ruído entre as passagens.
Vídeos de entrada (coloque arquivos em ComfyUI/input/)#
Aponte o carregador Source video (ComfyUI/input/) para o seu clipe, depois GetVideoComponents (#166) divide-o em quadros, áudio e fps. ImageFromBatch (#145) seleciona um quadro representativo para visualizar a máscara. GetImageSize (#43) e nós de matemática simples calculam o comprimento do clipe e índices para corte consistente. Forneça o quadro inicial e a duração para direcionar apenas a seção que você deseja processar.
Criar Máscara#
O subgrafo Image Segmentation (SAM3) gera uma máscara de objeto por quadro para VOID Video Inpainting ComfyUI. SAM3_Detect (#75) usa seu prompt de texto SAM3 para segmentar o objeto no quadro selecionado, com CLIPTextEncode (#78) codificando a frase. A máscara é visualizada em MaskPreview (#132) para que você possa verificar a cobertura e refinar a redação, se necessário. Uma frase limpa e específica, como "xícara vermelha na mesa" ou "pessoa com jaqueta azul" ajuda o SAM3 a isolar o sujeito correto.
Compartilhado: Condicionamento de Texto e Máscara#
Positive Prompt (CLIPTextEncode (#6)) deve descrever a cena como ela deve parecer após a remoção, não o ato de remoção. Negative Prompt (CLIPTextEncode (#7)) lista opcionalmente artefatos que você não deseja. VOIDInpaintConditioning (#10) funde os prompts, VAE, quadros de entrada, sua máscara SAM3 e as dimensões alvo em um pacote de condicionamento latente usado por ambas as passagens. Pense nisso como dizer ao VOID o que manter e como o movimento e a aparência devem parecer uma vez que o objeto tenha desaparecido.
Passagem 1: Amostra (Ruído Aleatório → DDIM)#
A Passagem 1 em VOID Video Inpainting ComfyUI estabelece um preenchimento plausível usando ruído aleatório padrão. RandomNoise (#141) inicia o processo, BasicScheduler (#138) e VOIDSampler (#133) definem a programação de difusão, e CFGGuider (#140) mistura seus prompts no modelo. SamplerCustomAdvanced (#49) sintetiza o clipe latente, e VAEDecode (#45) o transforma de volta em quadros. CreateVideo (#46) opcionalmente anexa áudio e escreve um vídeo intermediário da Passagem 1 que você pode inspecionar antes do refinamento.
Passagem 2: Amostra (Ruído Distorcido → DDIM)#
A Passagem 2 melhora a estabilidade temporal inicializando com ruído distorcido da Passagem 1 em vez de aleatoriedade fresca. VOIDWarpedNoise (#31) usa fluxo óptico RAFT com quadros da Passagem 1 para criar ruído alinhado ao longo do tempo, então VOIDWarpedNoiseSource (#32) alimenta isso na amostragem. CFGGuider (#136), BasicScheduler (#137), e VOIDSampler (#134) configuram o segundo amostrador, e SamplerCustomAdvanced (#35) refina o conteúdo inpainted. VAEDecode (#36) produz quadros finais. Se você alternar pular, o ComfySwitchNode (#150) roteia quadros da Passagem 1 diretamente para a saída para visualizações rápidas.
Tamanho do Vídeo de Saída#
Os controles de largura e altura dirigem a resolução latente para a Passagem 2 e o gerador de ruído distorcido. Esses valores influenciam a nitidez, estabilidade e carga de computação em VOID Video Inpainting ComfyUI. Escolha dimensões que correspondam aos seus objetivos de conteúdo e memória disponível. O mesmo tamanho é usado consistentemente em todo o pipeline para manter o movimento e as máscaras alinhadas.
Pular Passagem 2#
Quando você precisa de uma verificação rápida, use o controle de pular para que VOID Video Inpainting ComfyUI reutilize a Passagem 1 sem executar a Passagem 2. ComfySwitchNode (#150) seleciona automaticamente entre imagens da Passagem 1 e Passagem 2. Isso é útil para cortes brutos ou quando você está iterando na redação de máscaras ou prompts. Ative a Passagem 2 novamente para garantir a consistência temporal para a renderização final.
Cortar Áudio#
Se seu clipe tiver áudio, VOID Video Inpainting ComfyUI corta e reanexa para que o comprimento da saída corresponda ao segmento processado. TrimAudioDuration (#158) mantém o som sincronizado, e ComfySwitchNode (#174) lida com clipes silenciosos com segurança. O fps de GetVideoComponents (#166) impulsiona os nós CreateVideo da Passagem 1 e Passagem 2 para evitar deriva. Defina corretamente o interruptor "vídeo tem áudio?" para obter o resultado esperado.
Nós principais no fluxo de trabalho de ComfyUI VOID Video Inpainting ComfyUI#
SAM3_Detect (#75)#
Gera a máscara de objeto a partir de uma frase curta do SAM3. Se a máscara estiver muito solta ou apertada, refine a redação para descrever melhor o alvo e seu contexto. Você também pode ajustar os controles de refinamento interno para bordas nítidas quando necessário. Máscaras fortes tornam o inpainting posterior mais estável.
VOIDInpaintConditioning (#10)#
Constrói o pacote de condicionamento a partir do seu prompt positivo, prompt negativo, VAE, quadros e máscara SAM3. O prompt positivo deve descrever a cena que permanece; evite frases como "remover X". Use o prompt negativo apenas quando artefatos consistentes aparecerem. Os sinais latentes e de condicionamento resultantes alimentam ambas as passagens.
SamplerCustomAdvanced (#49) - Passagem 1#
Executa a amostragem VOID para a primeira passagem com ruído aleatório. A semente de ruído controla a repetibilidade; altere-a quando desejar um padrão de preenchimento diferente. Mantenha o amostrador e o programador emparelhados com o UNet da Passagem 1. Inspecione esta passagem para validar composição e movimento básico antes do refinamento.
VOIDWarpedNoise (#31)#
Cria ruído alinhado temporalmente usando fluxo óptico RAFT calculado a partir dos quadros da Passagem 1. Isso preserva as pistas de movimento na Passagem 2 e reduz o flicker. Se o movimento parecer instável, reveja a qualidade da máscara ou tente uma semente diferente na Passagem 1 para gerar uma base melhor para distorção.
SamplerCustomAdvanced (#35) - Passagem 2#
Refina a região inpainted começando com ruído distorcido. Use-o para fixar texturas e estabilizar detalhes finos ao longo do tempo. Quando as saídas já estão estáveis, você pode pular a Passagem 2 para economizar tempo; caso contrário, mantenha-a habilitada para a entrega final.
ComfySwitchNode (#150) - Controle de pular#
Alterna entre quadros da Passagem 1 e Passagem 2 para a saída final. Use isso para checar qualidade A/B ou para acelerar as iterações enquanto ajusta prompts e a máscara SAM3. Desligue-o para o resultado definitivo do VOID Video Inpainting ComfyUI.
Extras opcionais#
- Escreva prompts positivos para o mundo que você deseja ver após a remoção, por exemplo "bancada de cozinha vazia, luz do dia, azulejos limpos" em vez de "remover caneca".
- Mantenha frases SAM3 específicas, como "pessoa com jaqueta azul" ou "xícara vermelha na mesa", e execute novamente após pequenas edições para confirmar a cobertura na visualização da máscara.
- Use o quadro inicial e a duração para limitar o processamento à seção relevante; clipes longos são melhor tratados em segmentos.
- Pule a Passagem 2 para esboços, depois habilite-a para estabilização final em VOID Video Inpainting ComfyUI.
- Ajuste a largura e a altura para equilibrar detalhe com memória GPU; resoluções mais altas parecem mais nítidas, mas custam mais computação.
Agradecimentos#
Este fluxo de trabalho implementa e constrói a partir dos seguintes trabalhos e recursos. Agradecemos a Netflix pelo modelo VOID, Comfy-Org pelos arquivos de modelo VOID e SAM3.1, e RunComfy pela fonte do fluxo de trabalho Cloud Save por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e repositórios vinculados abaixo.
Recursos#
- Netflix/void-model
- GitHub: netflix/void-model
- Comfy-Org/void-model
- Hugging Face: Comfy-Org/void-model
- Comfy-Org/sam3.1
- Hugging Face: Comfy-Org/sam3.1
- RunComfy/Cloud Save source
- Docs / Release Notes: Cloud Save source
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

