Wan 2.2 VBVR in ComfyUI: reasoning‑aware image‑to‑video generation
Wan 2.2 VBVR in ComfyUI ist ein produktionsreifer Workflow, der Video‑Based Visual Reasoning zu Wan 2.2 image‑to‑video bringt. Er erweitert die Standard-Wan 2.2 Mixture‑of‑Experts-Pipeline mit einem reasoning‑optimierten Modellpfad und einem optionalen VBVR LoRA-Pfad, sodass Ihre Videos Objekte, Aktionen und kausale Ereignisse mit stärkerer zeitlicher Logik und Szenenkonsistenz verfolgen.
Entwickelt für kreative Regie, Simulation und Story-Beats, die mehr als nur schöne Frames benötigen, stimmt dieser ComfyUI-Workflow komplexe Prompts mit strukturierter Bewegung und Multi-Objekt-Interaktionen ab. Sie können zwischen der reinen VBVR-Modellroute oder der Layerung von VBVR und Motion LoRAs auf Wan 2.2 für Geschwindigkeit wählen und dann bearbeitungsbereite MP4s exportieren.
Schlüsselmodelle im Comfyui Wan 2.2 VBVR-Workflow
- Wan2.2‑I2V‑A14B (MoE-Rückgrat). Zwei Experten spezialisieren sich auf Hoch- und Niedriglärmphasen und wechseln während der Rauschunterdrückung durch SNR, was eine höhere Kapazität ohne zusätzliche Pro-Schritt-Kosten ermöglicht. Dies ist der primäre Generator, den der Workflow erweitert und mischt. Model card • Technical details
- VBVR‑Wan2.2. Eine Feinabstimmung von Wan2.2‑I2V‑A14B auf einer großen Video-Reasoning-Suite zur Verbesserung von zeitlichem, kausalem und Multi-Objekt-Reasoning, während die Architektur unverändert bleibt. Verwenden Sie dies, wenn Sie die stärkste Reasoning-Ausrichtung wünschen. Model card • Paper
- Wan 2.x VAE. Hochkompressions-Video-Autoencoder, der Frames effizient für 480p–720p-Workflows rekonstruiert; Wan 2.2 beschreibt ein Kompressionsdesign, das eine schnelle 720p-Generierung ermöglicht. Overview
- uMT5‑XXL Text-Encoder. Robuster mehrsprachiger T5-Familien-Encoder, der verwendet wird, um Prompt-Embeddings für Wan 2.2 Text- und Bild-zu-Video-Pipelines abzuleiten. Model card
- Motion und Reasoning LoRAs für Wan 2.2. Der Workflow kann VBVR LoRA für Reasoning-Bias und LightX2V schritt-destillierte LoRAs für stärkere Bewegungsamplitude und Kamerabewegungen laden. VBVR LoRA example • LightX2V collection
Verwendung des Comfyui Wan 2.2 VBVR-Workflows
Dieser Workflow bietet drei komplementäre Routen. Jede Route ist eigenständig von Prompts und optionalem Startbild bis zur Videoausgabe, sodass Sie alle drei testen und die beste Aufnahme behalten können.
- VBVR Modellenroute
- Zweck. Verwenden Sie dies, wenn Sie das stärkste Video-Reasoning wünschen. Es führt ein Paar von VBVR-kalibrierten Wan 2.2-Modellen mit hoher und niedriger SNR aus und teilt den Rauschunterdrückungsplan zwischen einer "Layout"-Stufe und einer "Detail"-Stufe.
- Funktionsweise. Die Hochlärmphase läuft zuerst in
WanVideoSampler(#173), dann fließen ihre Latents in die NiedriglärmphaseWanVideoSampler(#172), die Bewegungslogik und Details verfeinert. Der Wechsel wird durch diestart_stepundend_stepder Sampler gesteuert, die Wan 2.2’s SNR-gesteuerten Expertenübergang widerspiegeln. - Was Sie einstellen. Stellen Sie ein Startbild bereit, falls gewünscht, über
LoadImage(#67), und schreiben Sie Ihren Prompt in denText-Knoten in der Nähe des Encoders, derWanVideoTextEncode(#170) speist. Passen Sie die Frame-Anzahl mit dem kleinen Ganzzahlenknoten neben den Samplern an (Int(#168)). - Ausgabe. Frames werden von
WanVideoDecode(#164) dekodiert und als MP4 mitVHS_VideoCombine(#176) zusammengefügt.
- Wan 2.2 + PainterI2V Route
- Zweck. Ein schneller, allgemeiner Pfad für filmische Bewegung. Es behält die Standard-Wan 2.2 I2V-Modelle, verbessert aber die Bildkonditionierung mit
PainterI2VforKJ, um Zeitlupenartefakte zu korrigieren, die bei 4-Schritt-LoRAs häufig sind. - Funktionsweise. Ihr Startbild wird für das Modell skaliert, mit
PainterI2VforKJ(#181) eingebettet und dann vonWanVideoSampler(#129, #130) abgetastet. Die Route verwendet eine Hochlärm- und dann eine Niedriglärmübergabe ähnlich wie VBVR, bleibt jedoch bei den Standard-Wan 2.2-Gewichten. - Was Sie einstellen. Geben Sie Ihren Prompt im
Text-Knoten ein, derWanVideoTextEncode(#152) speist. Wenn Sie ein LightX2V LoRA verketten, hilft die Konditionierung dieser Route, die Bewegung absichtlicher wirken zu lassen. Siehe das Readme des Knotens für das Designziel. PainterI2VforKJ - Ausgabe. Frames werden von
WanVideoDecode(#142) dekodiert und mitVHS_VideoCombine(#154) gespeichert.
- Zweck. Ein schneller, allgemeiner Pfad für filmische Bewegung. Es behält die Standard-Wan 2.2 I2V-Modelle, verbessert aber die Bildkonditionierung mit
- Wan 2.2 + VBVR LoRA Route
- Zweck. Ein Hybrid für schnelle Iterationen. Es schichtet ein VBVR LoRA auf das Hochlärm-Wan 2.2-Modell und ein Bewegungs-LoRA auf das Niedriglärm-Modell, was Ihnen frühzeitig einen Reasoning-Schub und später eine saubere Bewegungsoptimierung gibt.
- Funktionsweise. Der Hochlärmstrom läuft durch
WanVideoSampler(#27) und der Niedriglärmstrom durchWanVideoSampler(#90); beide erhalten Texteingebungen vonWanVideoTextEncode(#16) und optionale Bildkonditionierung vonPainterI2VforKJ(#179). LoRAs werden pro Stufe angewendet, um die Rolle des Experten zu erfüllen. - Was Sie einstellen. Legen Sie Ihren Prompt in den
Text-Knoten in der Nähe vonWanVideoTextEncode(#16) und passen Sie gegebenenfalls die Stufenaufteilung mit den nahegelegenen Ganzzahl-Widgets mit der Bezeichnung "Split_step" an. VBVR und LightX2V LoRAs sind aus den LoRA-Knoten in dieser Gruppe auswählbar. VBVR LoRA - Ausgabe. Frames werden über
WanVideoDecode(#28) dekodiert und überVHS_VideoCombine(#60) exportiert.
Schlüssel-Knoten im Comfyui Wan 2.2 VBVR-Workflow
WanVideoModelLoader(#165, #162)- Lädt die VBVR-kalibrierten Hoch- und Niedriglärm-Wan 2.2-Modelle, die den frühen und späten Rauschunterdrückungsexperten zugeordnet sind. Halten Sie das Paar konsistent, damit der SNR-basierte Übergang stabil bleibt. Siehe Wan 2.2’s MoE und SNR-Schalt-Design für Kontext. Details
WanVideoSampler(#173, #172, #129, #130, #27, #90)- Steuert die Generierung und den Expertensplit. Passen Sie
stepsan, um Detail vs. Geschwindigkeit auszugleichen, und optimieren Siestart_stepoderend_step, um die Arbeit zwischen dem frühen Layout-Experten und dem späten Detail-Experten zu verschieben. Verwenden Siecfg, um Adhärenz gegen Bewegungsfreiheit einzutauschen. Die Referenzimplementierung befindet sich in den Sampler-Knoten des Wrappers. Wrapper repo
- Steuert die Generierung und den Expertensplit. Passen Sie
PainterI2VforKJ(#178, #181, #179)- Ersetzt die Standard-Bild-zu-Video-Konditionierung durch eine bewegungsverstärkte Variante, die entwickelt wurde, um Zeitlupen zu beheben, wenn 4-Schritt LightX2V LoRAs verwendet werden. Es verstärkt Kameraprompts und Aktionsschläge, während es die Identität des Subjekts beibehält. Node readme
WanVideoTextEncode(#170, #152, #16)- Kodiert positive und negative Prompts über einen uMT5‑XXL-Encoder, sodass die Sampler reiche, mehrsprachige Semantik erhalten. Halten Sie die Prompt-Struktur klar; das Trennen von Szene, Subjekt, Aktion und Kamerabsicht verbessert typischerweise die Ausrichtung. uMT5
VHS_VideoCombine(#176, #154, #60)- Fügt dekodierte Frames zu einem MP4 mit Metadaten für die Reproduzierbarkeit zusammen. Wenn Sie Audio übergeben, wird es mit dem Video gemultiplext. Dies stammt von den Dienstprogrammknoten der VideoHelperSuite. VideoHelperSuite
Optionale Extras
- Wann jede Route gewählt werden sollte
- VBVR Modell: komplexe Interaktionen, Ursache-Wirkung-Szenen oder Multi-Objekt-Choreografie.
- Wan 2.2 + PainterI2V: dynamische Bewegung oder kamerafokussiertes Storytelling mit LightX2V LoRAs.
- Wan 2.2 + VBVR LoRA: schnelle Vorschauen, die dennoch von einem Reasoning-Bias früh in der Rauschunterdrückung profitieren.
- Prompting-Tipps für Wan 2.2 VBVR in ComfyUI
- Verwenden Sie kurze Abschnitte wie [SCENE], [SUBJECT], [ACTION], [CAMERA], [LIGHTING]. Dies hilft dem Text-Encoder, die Absicht zu trennen.
- Für Objektinteraktionen, spezifizieren Sie, wer was wem in welcher Reihenfolge tut.
- LoRA-Stapelung
- Bildgröße und Seitenverhältnis
- Die
ImageResizeKJv2-Knoten in der Nähe der Eingaben sorgen für saubere Teilbarkeit für die VAE und reduzieren Artefakte. Passen Sie das Seitenverhältnis Ihres Startbilds an das Zielvideo an, um eine reibungslosere Bewegungsverbreitung zu gewährleisten.
- Die
Anerkennungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir bedanken uns herzlich bei @Ai Verse, dem Autor von Wan 2.2 VBVR in ComfyUI Source, für ihre Beiträge und Wartung. Für maßgebliche Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.
Ressourcen
- YouTube/Wan 2.2 VBVR in ComfyUI Source
- Docs / Release Notes: Wan 2.2 VBVR in ComfyUI Source @Ai Verse
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

