Wan 2.2 VBVR in ComfyUI | Kontextbewusster Video-Reasoning-Workflow

This workflow runs on Medium, Large, and X Large machines. 2X Large and larger machines are not supported and may crash ComfyUI due to OOM.

Wan 2.2 VBVR in ComfyUI Workflow

Wan 2.2 VBVR in ComfyUI | Context-Aware Video Reasoning Workflow

Möchtest du diesen Workflow ausführen?

Voll funktionsfähige Workflows
Keine fehlenden Nodes oder Modelle
Keine manuelle Einrichtung erforderlich
Beeindruckende Visualisierungen

Wan 2.2 VBVR in ComfyUI Examples

Wan 2.2 VBVR in ComfyUI: reasoning‑aware image‑to‑video generation#

Wan 2.2 VBVR in ComfyUI ist ein produktionsreifer Workflow, der Video‑Based Visual Reasoning zu Wan 2.2 image‑to‑video bringt. Er erweitert die Standard-Wan 2.2 Mixture‑of‑Experts-Pipeline mit einem reasoning‑optimierten Modellpfad und einem optionalen VBVR LoRA-Pfad, sodass Ihre Videos Objekte, Aktionen und kausale Ereignisse mit stärkerer zeitlicher Logik und Szenenkonsistenz verfolgen.

Entwickelt für kreative Regie, Simulation und Story-Beats, die mehr als nur schöne Frames benötigen, stimmt dieser ComfyUI-Workflow komplexe Prompts mit strukturierter Bewegung und Multi-Objekt-Interaktionen ab. Sie können zwischen der reinen VBVR-Modellroute oder der Layerung von VBVR und Motion LoRAs auf Wan 2.2 für Geschwindigkeit wählen und dann bearbeitungsbereite MP4s exportieren.

Schlüsselmodelle im Comfyui Wan 2.2 VBVR-Workflow#

Wan2.2‑I2V‑A14B (MoE-Rückgrat). Zwei Experten spezialisieren sich auf Hoch- und Niedriglärmphasen und wechseln während der Rauschunterdrückung durch SNR, was eine höhere Kapazität ohne zusätzliche Pro-Schritt-Kosten ermöglicht. Dies ist der primäre Generator, den der Workflow erweitert und mischt. Model card • Technical details
VBVR‑Wan2.2. Eine Feinabstimmung von Wan2.2‑I2V‑A14B auf einer großen Video-Reasoning-Suite zur Verbesserung von zeitlichem, kausalem und Multi-Objekt-Reasoning, während die Architektur unverändert bleibt. Verwenden Sie dies, wenn Sie die stärkste Reasoning-Ausrichtung wünschen. Model card • Paper
Wan 2.x VAE. Hochkompressions-Video-Autoencoder, der Frames effizient für 480p–720p-Workflows rekonstruiert; Wan 2.2 beschreibt ein Kompressionsdesign, das eine schnelle 720p-Generierung ermöglicht. Overview
uMT5‑XXL Text-Encoder. Robuster mehrsprachiger T5-Familien-Encoder, der verwendet wird, um Prompt-Embeddings für Wan 2.2 Text- und Bild-zu-Video-Pipelines abzuleiten. Model card
Motion und Reasoning LoRAs für Wan 2.2. Der Workflow kann VBVR LoRA für Reasoning-Bias und LightX2V schritt-destillierte LoRAs für stärkere Bewegungsamplitude und Kamerabewegungen laden. VBVR LoRA example • LightX2V collection

Verwendung des Comfyui Wan 2.2 VBVR-Workflows#

Dieser Workflow bietet drei komplementäre Routen. Jede Route ist eigenständig von Prompts und optionalem Startbild bis zur Videoausgabe, sodass Sie alle drei testen und die beste Aufnahme behalten können.

VBVR Modellenroute
- Zweck. Verwenden Sie dies, wenn Sie das stärkste Video-Reasoning wünschen. Es führt ein Paar von VBVR-kalibrierten Wan 2.2-Modellen mit hoher und niedriger SNR aus und teilt den Rauschunterdrückungsplan zwischen einer "Layout"-Stufe und einer "Detail"-Stufe.
- Funktionsweise. Die Hochlärmphase läuft zuerst in WanVideoSampler (#173), dann fließen ihre Latents in die Niedriglärmphase WanVideoSampler (#172), die Bewegungslogik und Details verfeinert. Der Wechsel wird durch die start_step und end_step der Sampler gesteuert, die Wan 2.2’s SNR-gesteuerten Expertenübergang widerspiegeln.
- Was Sie einstellen. Stellen Sie ein Startbild bereit, falls gewünscht, über LoadImage (#67), und schreiben Sie Ihren Prompt in den Text-Knoten in der Nähe des Encoders, der WanVideoTextEncode (#170) speist. Passen Sie die Frame-Anzahl mit dem kleinen Ganzzahlenknoten neben den Samplern an (Int (#168)).
- Ausgabe. Frames werden von WanVideoDecode (#164) dekodiert und als MP4 mit VHS_VideoCombine (#176) zusammengefügt.
Wan 2.2 + PainterI2V Route
- Zweck. Ein schneller, allgemeiner Pfad für filmische Bewegung. Es behält die Standard-Wan 2.2 I2V-Modelle, verbessert aber die Bildkonditionierung mit PainterI2VforKJ, um Zeitlupenartefakte zu korrigieren, die bei 4-Schritt-LoRAs häufig sind.
- Funktionsweise. Ihr Startbild wird für das Modell skaliert, mit PainterI2VforKJ (#181) eingebettet und dann von WanVideoSampler (#129, #130) abgetastet. Die Route verwendet eine Hochlärm- und dann eine Niedriglärmübergabe ähnlich wie VBVR, bleibt jedoch bei den Standard-Wan 2.2-Gewichten.
- Was Sie einstellen. Geben Sie Ihren Prompt im Text-Knoten ein, der WanVideoTextEncode (#152) speist. Wenn Sie ein LightX2V LoRA verketten, hilft die Konditionierung dieser Route, die Bewegung absichtlicher wirken zu lassen. Siehe das Readme des Knotens für das Designziel. PainterI2VforKJ
- Ausgabe. Frames werden von WanVideoDecode (#142) dekodiert und mit VHS_VideoCombine (#154) gespeichert.
Wan 2.2 + VBVR LoRA Route
- Zweck. Ein Hybrid für schnelle Iterationen. Es schichtet ein VBVR LoRA auf das Hochlärm-Wan 2.2-Modell und ein Bewegungs-LoRA auf das Niedriglärm-Modell, was Ihnen frühzeitig einen Reasoning-Schub und später eine saubere Bewegungsoptimierung gibt.
- Funktionsweise. Der Hochlärmstrom läuft durch WanVideoSampler (#27) und der Niedriglärmstrom durch WanVideoSampler (#90); beide erhalten Texteingebungen von WanVideoTextEncode (#16) und optionale Bildkonditionierung von PainterI2VforKJ (#179). LoRAs werden pro Stufe angewendet, um die Rolle des Experten zu erfüllen.
- Was Sie einstellen. Legen Sie Ihren Prompt in den Text-Knoten in der Nähe von WanVideoTextEncode (#16) und passen Sie gegebenenfalls die Stufenaufteilung mit den nahegelegenen Ganzzahl-Widgets mit der Bezeichnung "Split_step" an. VBVR und LightX2V LoRAs sind aus den LoRA-Knoten in dieser Gruppe auswählbar. VBVR LoRA
- Ausgabe. Frames werden über WanVideoDecode (#28) dekodiert und über VHS_VideoCombine (#60) exportiert.

Schlüssel-Knoten im Comfyui Wan 2.2 VBVR-Workflow#

WanVideoModelLoader (#165, #162)
- Lädt die VBVR-kalibrierten Hoch- und Niedriglärm-Wan 2.2-Modelle, die den frühen und späten Rauschunterdrückungsexperten zugeordnet sind. Halten Sie das Paar konsistent, damit der SNR-basierte Übergang stabil bleibt. Siehe Wan 2.2’s MoE und SNR-Schalt-Design für Kontext. Details
WanVideoSampler (#173, #172, #129, #130, #27, #90)
- Steuert die Generierung und den Expertensplit. Passen Sie steps an, um Detail vs. Geschwindigkeit auszugleichen, und optimieren Sie start_step oder end_step, um die Arbeit zwischen dem frühen Layout-Experten und dem späten Detail-Experten zu verschieben. Verwenden Sie cfg, um Adhärenz gegen Bewegungsfreiheit einzutauschen. Die Referenzimplementierung befindet sich in den Sampler-Knoten des Wrappers. Wrapper repo
PainterI2VforKJ (#178, #181, #179)
- Ersetzt die Standard-Bild-zu-Video-Konditionierung durch eine bewegungsverstärkte Variante, die entwickelt wurde, um Zeitlupen zu beheben, wenn 4-Schritt LightX2V LoRAs verwendet werden. Es verstärkt Kameraprompts und Aktionsschläge, während es die Identität des Subjekts beibehält. Node readme
WanVideoTextEncode (#170, #152, #16)
- Kodiert positive und negative Prompts über einen uMT5‑XXL-Encoder, sodass die Sampler reiche, mehrsprachige Semantik erhalten. Halten Sie die Prompt-Struktur klar; das Trennen von Szene, Subjekt, Aktion und Kamerabsicht verbessert typischerweise die Ausrichtung. uMT5
VHS_VideoCombine (#176, #154, #60)
- Fügt dekodierte Frames zu einem MP4 mit Metadaten für die Reproduzierbarkeit zusammen. Wenn Sie Audio übergeben, wird es mit dem Video gemultiplext. Dies stammt von den Dienstprogrammknoten der VideoHelperSuite. VideoHelperSuite

Optionale Extras#

Wann jede Route gewählt werden sollte
- VBVR Modell: komplexe Interaktionen, Ursache-Wirkung-Szenen oder Multi-Objekt-Choreografie.
- Wan 2.2 + PainterI2V: dynamische Bewegung oder kamerafokussiertes Storytelling mit LightX2V LoRAs.
- Wan 2.2 + VBVR LoRA: schnelle Vorschauen, die dennoch von einem Reasoning-Bias früh in der Rauschunterdrückung profitieren.
Prompting-Tipps für Wan 2.2 VBVR in ComfyUI
- Verwenden Sie kurze Abschnitte wie [SCENE], [SUBJECT], [ACTION], [CAMERA], [LIGHTING]. Dies hilft dem Text-Encoder, die Absicht zu trennen.
- Für Objektinteraktionen, spezifizieren Sie, wer was wem in welcher Reihenfolge tut.
LoRA-Stapelung
- Halten Sie reasoning-orientierte LoRA beim frühen Experten und Bewegungs-LoRA beim späten Experten, um eine Überregulierung von Details zu vermeiden. VBVR und LightX2V-Sets, die mit Wan 2.2 kompatibel sind, sind hier verfügbar: VBVR LoRA • LightX2V
Bildgröße und Seitenverhältnis
- Die ImageResizeKJv2-Knoten in der Nähe der Eingaben sorgen für saubere Teilbarkeit für die VAE und reduzieren Artefakte. Passen Sie das Seitenverhältnis Ihres Startbilds an das Zielvideo an, um eine reibungslosere Bewegungsverbreitung zu gewährleisten.

Anerkennungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir bedanken uns herzlich bei @Ai Verse, dem Autor von Wan 2.2 VBVR in ComfyUI Source, für ihre Beiträge und Wartung. Für maßgebliche Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen#

YouTube/Wan 2.2 VBVR in ComfyUI Source
- Docs / Release Notes: Wan 2.2 VBVR in ComfyUI Source @Ai Verse

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

Wan 2.2 | Open-Source Video Gen Leader

Jetzt verfügbar! Bessere Präzision + flüssigere Bewegungen.

Wan 2.2 FLF2V | First-Last Frame Video Generation

Erzeuge flüssige Videos aus einem Start- und Endbild mit Wan 2.2 FLF2V.

Wan 2.2 Lightning T2V I2V | 4-Schritt Ultra Schnell

Wan 2.2 jetzt 20x schneller! T2V + I2V in 4 Schritten.

Wan 2.1 Control LoRA | Tiefe und Kachel

Verbessern Sie die Wan 2.1-Videoerzeugung mit leichten Tiefen- und Kachel-LoRAs für verbesserte Struktur und Detailgenauigkeit.

Stable Diffusion 3.5

Stable Diffusion 3.5 (SD3.5) für hochwertige, vielfältige Bilderzeugung.

IC-Light | Bildneubeleuchtung

Hintergründe bearbeiten, Beleuchtung verbessern und neue Szenen einfach regenerieren.

Character AI Ovi | Generator für sprechende Avatare

Verwandelt jedes Foto in lebensechte sprechende Avatare mit Emotionen und Stimme.

Sonic | Lip-Sync Portrait-Animation

Sonic liefert fortschrittliche audiogesteuerte Lip-Sync für Porträts mit hochwertiger Animation.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

Wan 2.2 VBVR in ComfyUI | Video-basiertes Video-Reasoning