VOID Video Inpainting ComfyUI | Temporales Objektbereinigungs-Workflow

VOID Video Inpainting ComfyUI Workflow

VOID Video Inpainting ComfyUI | Temporal Object Clean-Up Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

VOID Video Inpainting ComfyUI Examples

VOID Video Inpainting ComfyUI: interaktionsbewusste Objektentfernung für saubere, konsistente Videos#

Dieser VOID Video Inpainting ComfyUI Workflow entfernt Objekte und ihre visuellen Interaktionen aus einem Clip mit zeitlicher Kohärenz. Er kombiniert Metas SAM3 textgesteuerte Segmentierung zur Definition der Maske mit Netflix VOID’s zweipassigem Video-Inpainting, um das Loch über die Zeit zu füllen, was zu Ergebnissen führt, die aussehen, als wären das unerwünschte Objekt und seine nahen Effekte nie da gewesen.

Kreative, Editoren und VFX-Teams können sich auf VOID Video Inpainting ComfyUI verlassen, wenn die Einzelbild-Bereinigung flackert oder über Bewegungen hinweg bricht. Der Workflow gibt zwei Clips aus: Pass 1 als schnelles Zwischenprodukt und Pass 2 als verfeinertes Ergebnis mit stärkerer zeitlicher Stabilität. Stellen Sie ein Quellvideo, einen kurzen SAM3-Satz zur Beschreibung des zu entfernenden Objekts und einen Inpaint-Prompt bereit, der die Szene beschreibt, die Sie behalten möchten.

Hauptmodelle im ComfyUI VOID Video Inpainting ComfyUI Workflow#

VOID: Videoobjekt- und Interaktionslöschung. Zweipass-Diffusion zur Entfernung von Videoobjekten mit zeitlichem Denken; die Referenzimplementierung und Checkpoints werden von Netflix bereitgestellt. GitHub und Hugging Face
Segment Anything Model 3.1 Multiplex (SAM3.1). Text- und promptfähige Bildsegmentierung zur Erzeugung der Objektmaske, die das Inpainting leitet. Hugging Face
RAFT: Recurrent All-Pairs Field Transforms. Optischer Fluss zur Verzerrung von Rauschen von Pass 1 in Pass 2, damit die Bewegung über die Frames hinweg konsistent bleibt. arXiv und Gewichte im VOID Modellpaket auf Hugging Face
CogVideoX VAE. Latenter Codec zum Kodieren und Dekodieren von Videoframes während des Inpaintings. Hugging Face
T5-XXL Text-Encoder (fp16). Sprach-Backbone, der die positiven und negativen Prompts in Konditionierung für das Diffusionsmodell umwandelt. Hugging Face

So verwenden Sie den ComfyUI VOID Video Inpainting ComfyUI Workflow#

Dieser VOID Video Inpainting ComfyUI Graph folgt einem klaren Pfad: Modelle und den Quellclip laden, eine Objektmaske mit SAM3 erstellen, gemeinsame Konditionierung aus Ihren Prompts und der Maske aufbauen, Pass 1 ausführen, um den Inhalt zu etablieren, dann Pass 2 mit verzerrtem Rauschen für stabile Bewegung ausführen. Audio wird optional auf das verarbeitete Segment zugeschnitten. Der Workflow speichert sowohl Pass 1 als auch Pass 2 Videos, sodass Sie vergleichen oder schnell voranschreiten können.

Modelle#

Diese Gruppe lädt alle erforderlichen Komponenten für VOID Video Inpainting ComfyUI. CLIPLoader (#2) bringt den T5-XXL Text-Encoder, und VAELoader (#3) liefert den CogVideoX VAE. UNETLoader (#144) initialisiert das VOID UNet für Pass 1 und UNETLoader (#143) richtet das VOID UNet für Pass 2 ein. OpticalFlowLoader (#142) lädt das RAFT Modell, das später die Rauschverzerrung zwischen den Durchgängen antreibt.

Eingabevideos (Dateien in ComfyUI/input/ platzieren)#

Weisen Sie den Source video (ComfyUI/input/) Loader Ihrem Clip zu, dann teilt GetVideoComponents (#166) es in Frames, Audio und FPS auf. ImageFromBatch (#145) wählt einen repräsentativen Frame aus, um die Maske vorzuschauen. GetImageSize (#43) und einfache Mathematik-Knoten berechnen die Clip-Länge und Indizes für konsistentes Schneiden. Geben Sie den Start-Frame und die Dauer an, um nur den Abschnitt zu verarbeiten, den Sie möchten.

Maske erstellen#

Der Image Segmentation (SAM3) Subgraph erzeugt eine pro-Frame-Objektmaske für VOID Video Inpainting ComfyUI. SAM3_Detect (#75) verwendet Ihren SAM3 Text-Prompt, um das Objekt auf dem ausgewählten Frame zu segmentieren, wobei CLIPTextEncode (#78) den Satz kodiert. Die Maske wird in MaskPreview (#132) angezeigt, damit Sie die Abdeckung überprüfen und die Formulierung bei Bedarf verfeinern können. Eine klare, spezifische Phrase wie "roter Becher auf Tisch" oder "Person in blauer Jacke" hilft SAM3, das richtige Subjekt zu isolieren.

Gemeinsame: Text & Masken-Konditionierung#

Positive Prompt (CLIPTextEncode (#6)) sollte die Szene beschreiben, wie sie nach der Entfernung aussehen sollte, nicht den Akt der Entfernung. Negative Prompt (CLIPTextEncode (#7)) listet optional Artefakte auf, die Sie nicht möchten. VOIDInpaintConditioning (#10) fusioniert die Prompts, VAE, eingehende Frames, Ihre SAM3 Maske und die Zielabmessungen in ein latentes Konditionierungspaket, das von beiden Durchgängen verwendet wird. Denken Sie daran, dass Sie VOID sagen, was beibehalten werden soll und wie sich Bewegung und Erscheinung anfühlen sollten, sobald das Objekt weg ist.

Pass 1: Muster (Zufallsrauschen → DDIM)#

Pass 1 in VOID Video Inpainting ComfyUI stellt eine plausible Füllung unter Verwendung von standardmäßigem Zufallsrauschen her. RandomNoise (#141) startet den Prozess, BasicScheduler (#138) und VOIDSampler (#133) definieren den Diffusionszeitplan, und CFGGuider (#140) mischt Ihre Prompts in das Modell. SamplerCustomAdvanced (#49) synthetisiert den latenten Clip, und VAEDecode (#45) verwandelt ihn zurück in Frames. CreateVideo (#46) fügt optional Audio an und schreibt ein Zwischenvideo von Pass 1, das Sie vor der Verfeinerung inspizieren können.

Pass 2: Muster (Verzerrtes Rauschen → DDIM)#

Pass 2 verbessert die zeitliche Stabilität, indem es mit Rauschen beginnt, das aus Pass 1 verzerrt wurde, anstatt mit frischer Zufälligkeit. VOIDWarpedNoise (#31) verwendet RAFT optischen Fluss mit Pass 1 Frames, um über die Zeit hinweg ausgerichtetes Rauschen zu erzeugen, dann speist VOIDWarpedNoiseSource (#32) das in die Abtastung ein. CFGGuider (#136), BasicScheduler (#137) und VOIDSampler (#134) richten den zweiten Sampler ein, und SamplerCustomAdvanced (#35) verfeinert den inpainted Inhalt. VAEDecode (#36) produziert die endgültigen Frames. Wenn Sie überspringen umschalten, leitet ComfySwitchNode (#150) Pass 1 Frames direkt an die Ausgabe für schnelle Vorschauen.

Ausgabevideogröße#

Breiten- und Höhensteuerungen treiben die latente Auflösung für Pass 2 und den verzerrten Rauschgenerator. Diese Werte beeinflussen Schärfe, Stabilität und Rechenlast in VOID Video Inpainting ComfyUI. Wählen Sie Dimensionen, die Ihren Inhaltszielen und dem verfügbaren Speicher entsprechen. Die gleiche Größe wird konsistent über die gesamte Pipeline verwendet, um Bewegung und Masken ausgerichtet zu halten.

Pass 2 überspringen#

Wenn Sie eine schnelle Überprüfung benötigen, verwenden Sie die Überspringen-Kontrolle, damit VOID Video Inpainting ComfyUI Pass 1 ohne Ausführen von Pass 2 wiederverwendet. ComfySwitchNode (#150) wählt automatisch zwischen Pass 1 und Pass 2 Bildern. Dies ist nützlich für Rohschnitte oder wenn Sie an der Maskenformulierung oder Prompts iterieren. Schalten Sie Pass 2 wieder ein, um die zeitliche Konsistenz für das endgültige Rendering zu sichern.

Audio zuschneiden#

Wenn Ihr Clip Audio hat, schneidet VOID Video Inpainting ComfyUI es zu und fügt es wieder an, sodass die Ausgabelänge mit dem verarbeiteten Segment übereinstimmt. TrimAudioDuration (#158) hält den Ton synchron, und ComfySwitchNode (#174) behandelt stumme Clips sicher. Die FPS von GetVideoComponents (#166) steuert sowohl die Pass 1 als auch die Pass 2 CreateVideo Knoten, um Drift zu vermeiden. Stellen Sie den "video has audio?" Schalter korrekt ein, um das erwartete Ergebnis zu erhalten.

Schlüssel-Knoten im ComfyUI VOID Video Inpainting ComfyUI Workflow#

`SAM3_Detect` (#75)#

Erzeugt die Objektmaske aus einem kurzen SAM3 Satz. Wenn die Maske zu locker oder eng ist, verfeinern Sie die Formulierung, um das Ziel und seinen Kontext besser zu beschreiben. Sie können auch interne Verfeinerungssteuerungen anpassen, um bei Bedarf Kanten zu schärfen. Starke Masken machen das spätere Inpainting stabiler.

`VOIDInpaintConditioning` (#10)#

Erstellt das Konditionierungsbündel aus Ihrem positiven Prompt, negativen Prompt, VAE, Frames und SAM3 Maske. Der positive Prompt sollte die verbleibende Szene beschreiben; vermeiden Sie Formulierungen wie "entferne X". Verwenden Sie den negativen Prompt nur, wenn konsistente Artefakte auftreten. Die resultierenden latenten und Konditionierungssignale speisen beide Durchgänge.

`SamplerCustomAdvanced` (#49) - Pass 1#

Führt VOID Sampling für den ersten Durchgang mit Zufallsrauschen durch. Der Rausch-Seed steuert die Wiederholbarkeit; ändern Sie ihn, wenn Sie ein anderes Füllmuster wünschen. Halten Sie den Sampler und den Scheduler mit dem Pass 1 UNet gepaart. Überprüfen Sie diesen Durchgang, um Komposition und grundlegende Bewegung vor der Verfeinerung zu validieren.

`VOIDWarpedNoise` (#31)#

Erzeugt zeitlich ausgerichtetes Rauschen unter Verwendung von RAFT optischem Fluss, der aus Pass 1 Frames berechnet wird. Dies bewahrt Bewegungshinweise in Pass 2 und reduziert Flackern. Wenn die Bewegung instabil aussieht, überprüfen Sie die Maskenqualität oder versuchen Sie einen anderen Seed in Pass 1, um eine bessere Basis für die Verzerrung zu erzeugen.

`SamplerCustomAdvanced` (#35) - Pass 2#

Verfeinert den inpainted Bereich ausgehend von verzerrtem Rauschen. Verwenden Sie es, um Texturen zu fixieren und feine Details über die Zeit zu stabilisieren. Wenn die Ausgaben bereits stabil sind, können Sie Pass 2 überspringen, um Zeit zu sparen; andernfalls halten Sie es aktiviert für die endgültige Lieferung.

`ComfySwitchNode` (#150) - Überspringen-Kontrolle#

Wechselt zwischen Pass 1 und Pass 2 Frames für die endgültige Ausgabe. Nutzen Sie dies, um A/B-Qualitätsprüfungen durchzuführen oder um Iterationen zu beschleunigen, während Sie Prompts und die SAM3 Maske anpassen. Schalten Sie es aus für das endgültige VOID Video Inpainting ComfyUI Ergebnis.

Optionale Extras#

Schreiben Sie positive Prompts für die Welt, die Sie nach der Entfernung sehen möchten, z. B. "leere Küchentheke, Tageslicht, saubere Fliesen" statt "Tasse entfernen".
Halten Sie SAM3 Sätze spezifisch, wie "Person in blauer Jacke" oder "roter Becher auf Tisch", und führen Sie nach kleinen Bearbeitungen erneut aus, um die Abdeckung in der Maskenvorschau zu bestätigen.
Verwenden Sie Start-Frame und Dauer, um die Verarbeitung auf den relevanten Abschnitt zu beschränken; lange Clips werden am besten in Segmenten behandelt.
Überspringen Sie Pass 2 für Entwürfe und aktivieren Sie ihn dann für die endgültige Stabilisierung in VOID Video Inpainting ComfyUI.
Passen Sie Breite und Höhe an, um Detail mit GPU-Speicher auszugleichen; höhere Auflösungen sehen schärfer aus, kosten aber mehr Rechenleistung.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Netflix für das VOID Modell, Comfy-Org für die VOID und SAM3.1 Modellen, und RunComfy für die Cloud Save Workflow-Quelle für ihre Beiträge und Pflege. Für autoritative Details verweisen Sie bitte auf die Originaldokumentation und Repositories, die unten verlinkt sind.

Ressourcen#

Netflix/void-model
- GitHub: netflix/void-model
Comfy-Org/void-model
- Hugging Face: Comfy-Org/void-model
Comfy-Org/sam3.1
- Hugging Face: Comfy-Org/sam3.1
RunComfy/Cloud Save source
- Docs / Release Notes: Cloud Save source

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

Charakter- & Pose- & Hintergrundersetzung V3 | Wan2.2 Animate + SAM3.1 + SDPose

Tauschen Sie Charaktere, Posen und Szenen schnell aus mit vollständiger kreativer Kontrolle.

LTX 2.3 Bearbeite Alles | Intelligenter Videoeditor

Videos schnell bearbeiten. Bewegung klar halten. Totale visuelle Kontrolle.

CorridorKey ComfyUI | Geführtes Video-Keying-Tool

Geführtes Video-Keying mit Kontrolle über saubere Objektextraktion.

MatAnyone Video Matting | Einfache Maskenentfernung

Entfernen Sie Videohintergründe mit einem einzigen Maskenrahmen für perfekte Subjektisolierung.

DiffuEraser | Video-Inpainting

Entfernen Sie Objekte aus Videos mit automatischem Maskieren und realistischer Rekonstruktion.

LTX 2.3 Bild zu Video | Filmischer Bewegungsersteller

Verwandeln Sie Bilder in realistische, filmische Videos mit flüssiger, konsistenter Bewegung.

Outpainting | Bild erweitern

Erweitern Sie Bilder einfach mit dem Outpainting-Knoten und dem ControlNet Inpainting-Modell.

SCAIL-Modell | Posenbasierter Animationsmacher

Posengesteuerte Animation mit Identitätsstabilität und Bewegungspräzision.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

VOID Video Inpainting ComfyUI | Intelligente Objektentfernung