Wan2.2 VACE Fun in ComfyUI | Bildanimations-Workflow

Wan2.2 VACE Fun: Referenzbild zu animiertem Video in ComfyUI

Wan2.2 VACE Fun ist ein kreativer, vorgabengesteuerter Referenz-zu-Video-Workflow für ComfyUI. Geben Sie ein einzelnes Referenzbild und eine Textbeschreibung an, und der Graph animiert Ihr Motiv in ein kohärentes Video, während Identität und Stil bewahrt werden. Basierend auf dem Wan 2.2 VACE-Modul mit einem gestuften Sampler, balanciert es Bewegung, Treue und Laufzeit aus, was es ideal für Konzeptclips, Charaktertests und kurze Erzählclips macht.

Dieser ComfyUI Wan2.2 VACE Fun-Workflow konzentriert sich auf drei Dinge: starke Motivtreue vom Referenzbild, ausdrucksstarke Bewegung, die durch Ihre Vorgabe geleitet wird, und zuverlässiger Export in ein MP4-Video. Verwenden Sie es, wenn Sie schnelle Iterationen benötigen, die sich dennoch filmisch anfühlen, oder wenn Sie ein Standbild in eine dynamische Szene verwandeln möchten, ohne komplexes Keyframing.

Schlüsselmodelle im ComfyUI Wan2.2 VACE Fun-Workflow

Alibaba PAI Wan 2.2 VACE Fun A14B. Das VACE-Modul ist der Kern, der ein Referenzbild plus Vorgaben in eine videobereite latente Sequenz verwandelt. Es ist für motivgesteuerte Animation und Identitätserhaltung konzipiert. Modellkarte
Wan 2.2 Text-to-Video A14B (HIGH/LOW). Der Workflow verwendet HIGH- und LOW-Varianten in einer gestuften Rauschunterdrückungspipeline, um Geschwindigkeit und Detail dort zu tauschen, wo jede am effektivsten ist. Verpackte Gewichte, die mit ComfyUI kompatibel sind, sind hier verfügbar: Comfy-Org/Wan_2.2_ComfyUI_Repackaged
UMT5-XXL Text-Encoder. Ein großer mehrsprachiger Text-Encoder, der von Wan 2.x für das Verständnis von Vorgaben verwendet wird; er unterstützt reichhaltige englische und chinesische Vorgaben. Sehen Sie die neu verpackten Text-Encoder in Comfy-Org/Wan_2.2_ComfyUI_Repackaged
Wan 2.1 VAE. Wird verwendet, um die finalen Videolatenten in RGB-Frames zu decodieren. Erhältlich im selben Repack: Comfy-Org/Wan_2.2_ComfyUI_Repackaged

So verwenden Sie den ComfyUI Wan2.2 VACE Fun-Workflow

Der Workflow läuft in Phasen ab: Sie setzen globale Steuerungen, bereiten das Referenzbild vor, schreiben Vorgaben, generieren ein VACE-bedingtes latentes Video, verfeinern es durch gestuftes Sampling, dann decodieren und exportieren Sie es. Gruppen sind so organisiert, dass Sie von oben nach unten mit minimaler Reibung arbeiten können.

Einstellung

Diese Gruppe zentralisiert die Steuerungen, die der Rest des Graphen liest: width, height, length (Frames), fps, steps, sampling_shift und seed. Ändern Sie diese einmal und jeder nachgelagerte Knoten übernimmt die Werte über SetNode/GetNode-Paare. Auflösung und Länge beeinflussen sowohl Qualität als auch VRAM, während fps die wahrgenommene Bewegung im finalen MP4 steuert. Halten Sie width und height im Verhältnis zu Ihrem Referenzbild, um Streckungen zu vermeiden. Der Seed ist für die Reproduzierbarkeit über Läufe hinweg freigelegt.

Ref Img

Laden Sie Ihr Motiv mit LoadImage (#118), dann wird das Bild in ImageResizeKJv2 (#112) auf Ihre Zielauflösung skaliert. RMBG (#73) entfernt den Hintergrund, sodass VACE sich zuverlässiger auf das Vordergrundmotiv konzentrieren kann, was die Konsistenz der Identität über die Frames hinweg unterstützt. Ein Vorschauknoten ermöglicht es Ihnen, den Ausschnitt vor der Generierung schnell zu überprüfen. Das verarbeitete Bild wird als Referenz gespeichert und nachgelagert eingespeist.

Vorgabe

Vorgaben werden mit CLIP Text Encode (Positive Prompt) (#56) und CLIP Text Encode (Negative Prompt) (#54) unter Verwendung des UMT5-XXL-Encoders codiert. Schreiben Sie klare Aktionsverben, Kamerasprache und Szenenkontext in die positive Vorgabe, um Bewegung und Komposition zu steuern. Verwenden Sie die negative Vorgabe, um unerwünschte Artefakte, Stile oder Unordnung zu unterdrücken; mehrsprachige Formulierungen funktionieren gut. Die Ausgaben bieten reichhaltige Konditionierung für den VACE-Schritt und die nachfolgenden Sampler.

Modelle

Der Graph lädt Wan 2.2 T2V A14B-Gewichte und wendet das Wan2.2 VACE Fun-Modul an, dann erweitert er Aufmerksamkeit und Planung für Stabilität. Der HIGH-Zweig durchläuft PathchSageAttentionKJ (#8) und ModelSamplingSD3 (#57), während der LOW-Zweig LoraLoaderModelOnly (#61), PathchSageAttentionKJ (#66) und ModelSamplingSD3 (#20) verwendet. Diese Aufteilung bietet Ihnen einen detailorientierten frühen Durchgang und eine bewegungsfokussierte Verfeinerung. Alle Modellentscheidungen sind vorverdrahtet; Sie müssen lediglich den Graphen ausführen, sobald Ihre Einstellungen und Vorgaben bereit sind.

VACE-Bedingung

WanVaceToVideo (#43) injiziert Ihr reference_image, positive/negative Konditionierung und VAE, dann erzeugt es eine initiale Videolatente Sequenz, die nach width, height und length bemessen ist. Betrachten Sie dies als den Moment, in dem das Standbild "lernt", sich gemäß Ihrer Vorgabe zu bewegen. Der Knoten gibt sowohl Konditionierungsströme zur Wiederverwendung zurück als auch eine Ganzzahl für das latente Trimmen, um die Pipeline konsistent zu halten. Kein manuelles Maskieren oder Kontrollvideo ist erforderlich, es sei denn, Sie möchten experimentieren.

Sampling

Ein dreistufiger Sampler-Stack formt das Ergebnis. Der erste Durchgang KSamplerAdvanced (#108) setzt die latente Sequenz für die Gesamtkomposition und Bewegungshinweise ein. Der zweite Durchgang KSamplerAdvanced (#107) vertieft Detail und zeitliche Stabilität unter Verwendung derselben Konditionierung, während das Szenenlayout beibehalten wird. Der letzte Durchgang KSamplerAdvanced (#109) läuft auf der LOW-Variante, um Bewegung zu polieren und Artefakte zu reduzieren, und erreicht ein praktisches Gleichgewicht zwischen Geschwindigkeit und Qualität. TrimVideoLatent (#65) richtet die Frames auf die Ziellänge aus, bevor sie decodiert werden.

Ausgabe

VAEDecode (#19) verwandelt die verfeinerten Latenten in RGB-Frames. VHS_VideoCombine (#69) fügt diese Frames dann zu einem MP4 bei Ihrem gewählten fps zusammen und speichert sie mit einem sinnvollen Dateinamenmuster. Diese Gruppe ist für schnelle Überprüfungsschleifen optimiert, sodass Sie an Vorgaben, Länge oder Auflösung iterieren können, ohne den Rest des Graphen zu berühren. Wenn Sie zufrieden sind, behalten Sie denselben Seed für Wiederholungen oder ändern Sie ihn, um Variationen zu erkunden.

Schlüsselknoten im ComfyUI Wan2.2 VACE Fun-Workflow

WanVaceToVideo (#43) Das Herzstück von Wan2.2 VACE Fun: Es bindet die semantischen Vorgaben an Ihr Referenzbild und erzeugt die initialen Videolatenten. Passen Sie width, height und length hier über die gemeinsamen Einstellungen an Ihr kreatives Ziel und Ihr VRAM-Budget an. Halten Sie das Referenzmotiv zentriert und gut beleuchtet, um die Identität optimal zu bewahren. Wenn sich die Bewegung falsch anfühlt, überarbeiten Sie die positive Vorgabe, um Aktionen, Kamerabewegungen und Zeitwörter hervorzuheben.

KSamplerAdvanced (#108, #107, #109) Eine gestufte Sampler-Kette, die Komposition, Detail und Bewegungsflüssigkeit schrittweise verbessert. Erhöhen Sie steps, wenn Sie mehr Detail oder zeitliche Stabilität benötigen, und verwenden Sie denselben seed, um Änderungen fair zu vergleichen. Der letzte Durchgang auf der LOW-Variante reinigt oft subtile Artefakte; wenn die Ergebnisse zu weich aussehen, verschieben Sie einige Schritte auf die früheren Durchgänge. sampling_shift ist freigelegt, um den Zeitplan entweder auf Bewegungsschwerpunkt oder feinere Textur zu verschieben.

RMBG (#73) Die automatische Hintergrundentfernung verbessert die Motivtreue für Wan2.2 VACE Fun, insbesondere bei unruhigen oder kontrastarmen Szenen. Verwenden Sie hochwertige, nicht verschwommene Referenzen, um Ausschneidefehler zu minimieren. Wenn Sie natürliche Hintergründe wünschen, ersetzen Sie sie später in der Nachbearbeitung oder komponieren Sie eine Platte hinter die dekodierten Frames.

TrimVideoLatent (#65) Hält die latente Sequenz auf die angeforderte length ausgerichtet. Wenn Sie einen Clip verlängern oder verkürzen, lassen Sie diesen Knoten die Buchführung übernehmen; er verhindert subtile Bildverschiebungen über die Sampler-Phasen hinweg.

VHS_VideoCombine (#69) Kodiert die finalen Frames zu MP4. Passen Sie frame_rate an, um die Clipdauer relativ zu length zu steuern (Dauer entspricht Frames geteilt durch fps). Erhöhen Sie die Qualität für die endgültige Ausgabe oder senken Sie sie für schnelle Vorschauen; höhere Qualität erhöht die Dateigröße und die Kodierungszeit.

Optionale Extras

Beginnen Sie mit einem Referenzbild, dessen Seitenverhältnis zu Ihrem Ziel width und height passt, um Streckungen und unerwünschte Zuschnitte zu vermeiden.
Schreiben Sie Vorgaben, die Aktion und Kamerabewegung beschreiben, nicht nur das Aussehen; Wan2.2 VACE Fun reagiert gut auf Verben wie "geht", "schwenkt", "dollies" und "whip tilt".
Halten Sie length und fps in Einklang mit Ihrem Ziel: Höhere fps sehen flüssiger aus, verkürzen jedoch die Gesamtdauer für dieselbe Bildanzahl.
Wenn die Identität schwankt, vereinfachen Sie den Hintergrund über RMBG und fügen Sie eine kurze Identitätsklausel in die Vorgabe ein (Kleidung, Farbe oder Ausrüstung).
Für schnellere Entwürfe reduzieren Sie die Auflösung oder die Schritte und stellen Sie sie dann für die Endversionen wieder her; behalten Sie denselben Seed, um Versionen zuverlässig zu vergleichen.

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken @BenjisAIPlayground herzlich für den "Wan2.2 VACE Fun Demo"-Workflow und für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen

PWan2.2 VACE Fun Demo
- Dokumente / Versionshinweise @BenjisAIPlayground: YouTube

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Verwalter.

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | First-Last Frame Video Generation

Erzeuge flüssige Videos aus einem Start- und Endbild mit Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Ultra Schnelle I2V & T2V

Dual Light LoRA Setup, 4X schneller.

Wan FusionX | T2V+I2V+VACE Komplett

Die bisher leistungsstärkste Videogenerierungslösung! Kinoqualität im Detail, Ihr persönliches Filmstudio.

Flux Konsistente Charaktere | Eingabebild

Erstellen Sie konsistente Charaktere und stellen Sie sicher, dass sie mit Ihren Bildern einheitlich aussehen.

Audioreactive Dancers Evolved

Verwandeln Sie Ihr Motiv mit einem audioreaktiven Hintergrund aus komplexen Geometrien.

ComfyUI Vid2Vid Dance Transfer

Überträgt die Bewegung und den Stil von einem Quellvideo auf ein Zielbild oder Objekt.

Face Restore + ControlNet + Reactor | Alte Fotos restaurieren

Lassen Sie verblasste Fotos zu lebendigen Erinnerungen wiederaufleben und bewahren Sie jedes Detail für eine wertvolle Erinnerung.

LTX-2 ControlNet | Präzisions-Video-Generator

Präzise Kontrolle, perfekte Synchronisation, super klare KI-Videoerstellung.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

Wan2.2 VACE Fun | Bild zu animiertem Video

Wan2.2 VACE Fun: Referenzbild zu animiertem Video in ComfyUI

Schlüsselmodelle im ComfyUI Wan2.2 VACE Fun-Workflow

So verwenden Sie den ComfyUI Wan2.2 VACE Fun-Workflow

Einstellung

Ref Img

Vorgabe

Modelle

VACE-Bedingung

Sampling

Ausgabe

Schlüsselknoten im ComfyUI Wan2.2 VACE Fun-Workflow

Optionale Extras

Danksagungen

Ressourcen

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | First-Last Frame Video Generation

Wan 2.2 + Lightx2v V2 | Ultra Schnelle I2V & T2V

Wan FusionX | T2V+I2V+VACE Komplett

Flux Konsistente Charaktere | Eingabebild

Audioreactive Dancers Evolved

ComfyUI Vid2Vid Dance Transfer

Face Restore + ControlNet + Reactor | Alte Fotos restaurieren

LTX-2 ControlNet | Präzisions-Video-Generator