VOID Video Inpainting ComfyUI | Flusso di lavoro di pulizia temporale degli oggetti

VOID Video Inpainting ComfyUI Workflow

VOID Video Inpainting ComfyUI | Temporal Object Clean-Up Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

VOID Video Inpainting ComfyUI Examples

VOID Video Inpainting ComfyUI: rimozione degli oggetti consapevole delle interazioni per video puliti e coerenti#

Questo flusso di lavoro VOID Video Inpainting ComfyUI rimuove oggetti e le loro interazioni visive da un clip con coerenza temporale. Combina la segmentazione testuale SAM3 di Meta per definire la maschera con il video inpainting a due passaggi di Netflix VOID per riempire il vuoto nel tempo, producendo risultati che sembrano come se l'oggetto indesiderato e i suoi effetti vicini non fossero mai stati lì.

Creatori, editor e team VFX possono fare affidamento su VOID Video Inpainting ComfyUI quando la pulizia di un singolo fotogramma sfarfalla o si rompe attraverso il movimento. Il flusso di lavoro produce due clip: Pass 1 come intermedio veloce e Pass 2 come risultato raffinato con maggiore stabilità temporale. Fornisci un video sorgente, una breve frase SAM3 che descrive l'oggetto da rimuovere e un prompt di inpainting che descrive la scena che vuoi mantenere.

Modelli chiave nel flusso di lavoro ComfyUI VOID Video Inpainting ComfyUI#

VOID: Cancellazione degli oggetti e delle interazioni video. Diffusione a due passaggi per la rimozione degli oggetti video con ragionamento temporale; l'implementazione di riferimento e i checkpoint sono forniti da Netflix. GitHub e Hugging Face
Segment Anything Model 3.1 Multiplex (SAM3.1). Segmentazione delle immagini basata su testo e prompt utilizzata per generare la maschera dell'oggetto che guida l'inpainting. Hugging Face
RAFT: Recurrent All-Pairs Field Transforms. Flusso ottico utilizzato per deformare il rumore da Pass 1 a Pass 2 in modo che il movimento rimanga coerente tra i fotogrammi. arXiv e pesi nel pacchetto modello VOID su Hugging Face
CogVideoX VAE. Codec latente per codificare e decodificare i fotogrammi video durante l'inpainting. Hugging Face
T5-XXL text encoder (fp16). Backbone linguistico che trasforma i prompt positivi e negativi in condizionamenti per il modello di diffusione. Hugging Face

Come usare il flusso di lavoro ComfyUI VOID Video Inpainting ComfyUI#

Questo grafico VOID Video Inpainting ComfyUI segue un percorso chiaro: carica i modelli e il clip sorgente, crea una maschera dell'oggetto con SAM3, costruisci un condizionamento condiviso dai tuoi prompt e dalla maschera, esegui il Pass 1 per stabilire il contenuto, quindi esegui il Pass 2 con rumore deformato per un movimento stabile. L'audio viene eventualmente tagliato per adattarsi al segmento elaborato. Il flusso di lavoro salva i video Pass 1 e Pass 2 in modo da poterli confrontare o spostarsi rapidamente.

Modelli#

Questo gruppo carica tutti i componenti richiesti per VOID Video Inpainting ComfyUI. CLIPLoader (#2) porta il codificatore di testo T5-XXL e VAELoader (#3) fornisce il CogVideoX VAE. UNETLoader (#144) inizializza il VOID UNet per il Pass 1 e UNETLoader (#143) imposta il VOID UNet per il Pass 2. OpticalFlowLoader (#142) carica il modello RAFT che successivamente guida la deformazione del rumore tra i passaggi.

Video di input (posiziona i file in ComfyUI/input/)#

Punta il caricatore Source video (ComfyUI/input/) al tuo clip, quindi GetVideoComponents (#166) lo divide in fotogrammi, audio e fps. ImageFromBatch (#145) seleziona un fotogramma rappresentativo per visualizzare l'anteprima della maschera. GetImageSize (#43) e nodi matematici semplici calcolano la lunghezza del clip e gli indici per un taglio coerente. Fornisci il fotogramma iniziale e la durata per mirare solo alla sezione che vuoi elaborare.

Creare Maschera#

Il sottografo Image Segmentation (SAM3) genera una maschera dell'oggetto per fotogramma per VOID Video Inpainting ComfyUI. SAM3_Detect (#75) utilizza il tuo prompt di testo SAM3 per segmentare l'oggetto sul fotogramma selezionato, con CLIPTextEncode (#78) che codifica la frase. La maschera è visualizzata in anteprima in MaskPreview (#132) in modo da poter verificare la copertura e perfezionare la formulazione se necessario. Una frase pulita e specifica come "tazza rossa sul tavolo" o "persona con giacca blu" aiuta SAM3 a isolare il soggetto giusto.

Condivisione: Condizionamento Testo & Maschera#

Prompt Positivo (CLIPTextEncode (#6)) dovrebbe descrivere la scena come dovrebbe apparire dopo la rimozione, non l'atto di rimozione. Prompt Negativo (CLIPTextEncode (#7)) elenca opzionalmente artefatti che non vuoi. VOIDInpaintConditioning (#10) fonde i prompt, VAE, fotogrammi in ingresso, la tua maschera SAM3 e le dimensioni target in un pacchetto di condizionamento latente utilizzato da entrambi i passaggi. Pensalo come dire a VOID cosa mantenere e come dovrebbero sentirsi il movimento e l'aspetto una volta che l'oggetto è sparito.

Pass 1: Campione (Rumore Casuale → DDIM)#

Pass 1 in VOID Video Inpainting ComfyUI stabilisce un riempimento plausibile utilizzando rumore casuale standard. RandomNoise (#141) semina il processo, BasicScheduler (#138) e VOIDSampler (#133) definiscono il programma di diffusione, e CFGGuider (#140) mescola i tuoi prompt nel modello. SamplerCustomAdvanced (#49) sintetizza il clip latente, e VAEDecode (#45) lo trasforma di nuovo in fotogrammi. CreateVideo (#46) allega eventualmente l'audio e scrive un video intermedio Pass 1 che puoi ispezionare prima del raffinamento.

Pass 2: Campione (Rumore Deformato → DDIM)#

Pass 2 migliora la stabilità temporale avviando con rumore deformato da Pass 1 piuttosto che con nuova casualità. VOIDWarpedNoise (#31) utilizza il flusso ottico RAFT con i fotogrammi Pass 1 per creare rumore allineato nel tempo, quindi VOIDWarpedNoiseSource (#32) lo alimenta nel campionamento. CFGGuider (#136), BasicScheduler (#137) e VOIDSampler (#134) impostano il secondo campionatore, e SamplerCustomAdvanced (#35) perfeziona il contenuto inpaintato. VAEDecode (#36) produce i fotogrammi finali. Se si attiva il salto, ComfySwitchNode (#150) indirizza i fotogrammi Pass 1 direttamente all'output per anteprime rapide.

Dimensione Video di Output#

I controlli di larghezza e altezza guidano la risoluzione latente per Pass 2 e il generatore di rumore deformato. Questi valori influenzano nitidezza, stabilità e carico di calcolo in VOID Video Inpainting ComfyUI. Scegli dimensioni che corrispondano ai tuoi obiettivi di contenuto e alla memoria disponibile. La stessa dimensione viene utilizzata costantemente in tutta la pipeline per mantenere allineati movimento e maschere.

Salta Pass 2#

Quando hai bisogno di un controllo rapido, usa il controllo di salto in modo che VOID Video Inpainting ComfyUI riutilizzi Pass 1 senza eseguire Pass 2. ComfySwitchNode (#150) seleziona automaticamente tra le immagini Pass 1 e Pass 2. Questo è utile per tagli approssimativi o quando stai iterando sulla formulazione della maschera o sui prompt. Riattiva Pass 2 per bloccare la coerenza temporale per il rendering finale.

Taglia Audio#

Se il tuo clip ha audio, VOID Video Inpainting ComfyUI lo taglia e lo riattacca in modo che la lunghezza dell'output corrisponda al segmento elaborato. TrimAudioDuration (#158) mantiene il suono sincronizzato, e ComfySwitchNode (#174) gestisce in sicurezza i clip silenziosi. L'fps da GetVideoComponents (#166) guida entrambi i nodi CreateVideo di Pass 1 e Pass 2 per evitare derive. Imposta correttamente l'interruttore "il video ha audio?" per ottenere il risultato previsto.

Nodi chiave nel flusso di lavoro ComfyUI VOID Video Inpainting ComfyUI#

`SAM3_Detect` (#75)#

Genera la maschera dell'oggetto da una breve frase SAM3. Se la maschera è troppo larga o stretta, perfeziona la formulazione per descrivere meglio il bersaglio e il suo contesto. Puoi anche regolare i controlli di perfezionamento interni per bordi nitidi quando necessario. Maschere forti rendono l'inpainting successivo più stabile.

`VOIDInpaintConditioning` (#10)#

Costruisce il pacchetto di condizionamento dal tuo prompt positivo, prompt negativo, VAE, fotogrammi e maschera SAM3. Il prompt positivo dovrebbe descrivere la scena che rimane; evita formulazioni come "rimuovi X". Usa il prompt negativo solo quando appaiono artefatti coerenti. I segnali latenti e di condizionamento risultanti alimentano entrambi i passaggi.

`SamplerCustomAdvanced` (#49) - Pass 1#

Esegue il campionamento VOID per il primo passaggio con rumore casuale. Il seed del rumore controlla la ripetibilità; cambialo quando vuoi un modello di riempimento diverso. Mantieni il campionatore e il pianificatore accoppiati con l'UNet di Pass 1. Ispeziona questo passaggio per convalidare la composizione e il movimento di base prima del raffinamento.

`VOIDWarpedNoise` (#31)#

Crea rumore temporaneamente allineato utilizzando il flusso ottico RAFT calcolato dai fotogrammi Pass 1. Questo preserva i segnali di movimento nel Pass 2 e riduce lo sfarfallio. Se il movimento sembra instabile, rivedi la qualità della maschera o prova un seed diverso in Pass 1 per generare una base migliore per la deformazione.

`SamplerCustomAdvanced` (#35) - Pass 2#

Perfeziona la regione inpaintata partendo dal rumore deformato. Usalo per bloccare le texture e stabilizzare i dettagli fini nel tempo. Quando gli output sono già stabili, puoi saltare Pass 2 per risparmiare tempo; altrimenti, mantienilo abilitato per la consegna finale.

`ComfySwitchNode` (#150) - Controllo di salto#

Commuta tra i fotogrammi Pass 1 e Pass 2 per l'output finale. Usalo per controllare A/B la qualità o per accelerare le iterazioni mentre regoli i prompt e la maschera SAM3. Disattivalo per il risultato definitivo di VOID Video Inpainting ComfyUI.

Extra opzionali#

Scrivi prompt positivi per il mondo che vuoi vedere dopo la rimozione, ad esempio "bancone della cucina vuoto, luce del giorno, piastrelle pulite" piuttosto che "rimuovi tazza".
Mantieni le frasi SAM3 specifiche, come "persona con giacca blu" o "tazza rossa sul tavolo", e riesegui dopo piccole modifiche per confermare la copertura nell'anteprima della maschera.
Usa fotogramma iniziale e durata per limitare l'elaborazione alla sezione rilevante; i clip lunghi sono meglio gestiti in segmenti.
Salta Pass 2 per le bozze, quindi abilitalo per la stabilizzazione finale in VOID Video Inpainting ComfyUI.
Regola larghezza e altezza per bilanciare il dettaglio con la memoria GPU; risoluzioni più elevate appaiono più nitide ma richiedono più calcolo.

Ringraziamenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo calorosamente Netflix per il modello VOID, Comfy-Org per i file dei modelli VOID e SAM3.1, e RunComfy per la fonte del flusso di lavoro Cloud Save per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

Netflix/void-model
- GitHub: netflix/void-model
Comfy-Org/void-model
- Hugging Face: Comfy-Org/void-model
Comfy-Org/sam3.1
- Hugging Face: Comfy-Org/sam3.1
RunComfy/Cloud Save source
- Docs / Release Notes: Cloud Save source

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Sostituzione di Personaggio & Posizione & Sfondo V3 | Wan2.2 Animate + SAM3.1 + SDPose

Scambia rapidamente personaggi, posizioni e scene con un controllo creativo totale.

LTX 2.3 Modifica Qualsiasi Cosa | Editor Video Intelligente

Modifica video velocemente. Mantieni chiaro il movimento. Controllo visivo totale.

CorridorKey ComfyUI | Strumento di Keying Video Guidato

Keying video guidato con controllo per un'estrazione pulita del soggetto.

MatAnyone Video Matting | Rimozione Maschera Singola

Rimuovi gli sfondi video con un fotogramma maschera per un'isolamento perfetto del soggetto.

DiffuEraser | Video Inpainting

Cancella oggetti dai video con mascheramento automatico e ricostruzione realistica.

Wan 2.1 Control LoRA | Profondità e Tile

Avanza la generazione video Wan 2.1 con LoRA di profondità e tile leggeri per una struttura e dettagli migliorati.

Wan 2.2 Prompt Relay | Creatore di Video a Controllo di Scena

Controlla ogni scena video con transizioni di prompt precise.

LTX-2 First Last Frame | Generatore di Video a Fotogrammi Chiave

Trasforma fotogrammi statici in transizioni video e sonore fluide in modo rapido.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

VOID Video Inpainting ComfyUI | Rimozione intelligente degli oggetti