WAN 2.2 Smooth Workflow v5.0: eine All-in-One ComfyUI-Pipeline für glatte 5-Sekunden-Videos#
WAN 2.2 Smooth Workflow v5.0 ist eine einzige Leinwand, die Text-zu-Video, Bild-zu-Video, Erste-zu-Letzte-Frame-Animation und Audio-zu-Video abdeckt. Es basiert auf der SmoothMix WAN 2.2 Modelfamilie mit optionalen Lightx2v LoRAs, WanVideoWrapper-Operatoren für WAN 2.x und RIFE-Frame-Interpolation, sodass Sie kurze kinoreife Clips mit konsistenter Bewegung und schneller Iteration erzeugen können.
Verwenden Sie dieses WAN 2.2 Smooth Workflow v5.0, wenn Sie ein organisiertes Diagramm wünschen, das es Ihnen ermöglicht, zwischen T2V, I2V, F2LF und A2V zu wechseln, ohne Knoten neu verdrahten zu müssen. Die Leinwand umfasst Modusschalter, Dauer- und Größenkontrollen, Vorschauen des letzten Frames und einen optionalen Audiozweig, der dem visuellen Rhythmus Ihres Clips folgen kann.
Wichtige Modelle im Comfyui WAN 2.2 Smooth Workflow v5.0#
- SmoothMix WAN 2.2 Text-zu-Video und Bild-zu-Video Checkpoints (Hoch und Niedrig)
- Rolle: Haupt-Diffusions-Backbones für Bewegungssynthese und Verfeinerung über T2V- und I2V-Pfade. Hoch bevorzugt Qualität und Detail; Niedrig bevorzugt Geschwindigkeit und VRAM-Spielraum.
- Lightx2v WAN 2.2 Distill LoRAs
- Rolle: optionale LoRAs, destilliert für WAN 2.2, die die Bewegungsglätte oder Stilistik verbessern, während die Eingabeaufforderungen reaktionsfähig bleiben. Bei Bedarf laden, um Aussehen und Dynamik zu steuern. lightx2v/Wan2.2-Distill-Loras
- WAN 2.x VAE
- Rolle: das VAE, das über die gesamte Leinwand verwendet wird, um Video-Latente zu kodieren und zu dekodieren, sodass Bildqualität und Farbantwort über die Zweige hinweg konsistent bleiben.
- WAN 2.x Text-Encoder (uMT5 XXL Familie)
- Rolle: der spezialisierte Text-Encoder, der von WAN 2.x verwendet wird; der Workflow lädt den passenden Tokenizer/das Modell, sodass Eingabeaufforderungen Bewegung und Erscheinung richtig konditionieren.
- CLIP Vision Encoder (ViT-H Familie)
- Rolle: extrahiert robuste Start- und End-Frame-Embeddings für den Erste-zu-Letzte-Frame-Animationspfad, verbessert die zeitliche Kohärenz während der Interpolation.
- Audio-Generationszweig
- Rolle: optionale frame-bewusste Audio-Synthese, die sich an visuellen Timing und Texteingaben orientiert, um Soundtrack-Elemente zu erstellen, die mit dem visuellen Schnitt übereinstimmen.
- RIFE Video-Interpolation
- Rolle: erhöht die zeitliche Glätte und scheinbare Bildrate durch das Einfügen hochwertiger Zwischenbilder, ideal für kurze kinoreife Schleifen. Verwendet über die ComfyUI VFI-Integration. GACLove/ComfyUI-VFI
So verwenden Sie Comfyui WAN 2.2 Smooth Workflow v5.0#
Die Leinwand ist in vier Produktionsmodi organisiert, die Sie über die Schalter auf der Leinwand aktivieren können. Über die Modi hinweg sehen Sie konsistente Gruppen für Checkpoints, CLIP/VAE, Eingabeaufforderungen, Videogröße und -länge, Sampling und Videoergebnis. Jeder Modus kann optional die Audiogenerierung über den Audio-Enabler-Schalter aktivieren.
Text zu Video (T2V)#
Geben Sie Ihre Beschreibung in die Positive Eingabeaufforderung ein und verfeinern Sie sie mit einer Negativen Eingabeaufforderung. Der Eingabetext wird in CLIPTextEncode (#90) kodiert und mit dem WAN 2.x VAE kombiniert. WanImageToVideo (#50) fungiert als T2V-Einstiegspunkt, selbst ohne ein Startbild, und erzeugt eine anfängliche latente Sequenz, die zu den Samplern und dann zur Dekodierung weitergeleitet wird. Die RIFE-Interpolation RIFEInterpolation (#160) glättet die Sequenz, bevor VHS_VideoCombine (#77) Ihr MP4 exportiert. Verwenden Sie den Audio-Enabler, um einen Soundtrack aus Ihren Frames und der Audio-Eingabeaufforderung zu erstellen.
Bild zu Video (I2V)#
Legen Sie ein einzelnes Bild in die BILD-Gruppe, dann stellen Sie Ihre Videodimensionen und -dauer ein. Das Bild wird skaliert und in WanImageToVideo (#172) zusammen mit Ihren Texteingaben gesendet, was eine bewegungsbewusste Latenz erzeugt. Paarweise Sampler verfeinern die Latenz, dann wird das Ergebnis dekodiert, hochskaliert und interpoliert für ein glattes Ergebnis. Aktivieren Sie die I2V-Audio-Gruppe, wenn Sie generierten Sound wünschen, der zum animierten Inhalt passt.
Erste zu Letzte Frame Animation (F2LF)#
Geben Sie einen Start- und einen Endframe an. Das Diagramm kodiert beide mit CLIP Vision und leitet sie in WanFirstLastFrameToVideo (#343) weiter, das einen Pfad zwischen den ersten und letzten Bildern plant, während es Ihre Texteingaben respektiert. Die hohen und niedrigen SmoothMix-Sampler formen dann die Zwischenbilder, bevor Dekodierung und Interpolation erfolgen. Das Ergebnis wird von VHS_VideoCombine (#332) exportiert, und ein optionaler Audiozweig kann einen Soundtrack synthetisieren, der mit dem visuellen Übergang abgestimmt ist.
Audio zu Video (A2V)#
Laden Sie einen vorhandenen Clip in VHS_LoadVideo (#145). Der Workflow kann ihn optional interpolieren, um zusätzliche Glätte zu erzielen, dann erzeugt der Audiozweig Ton basierend auf den visuellen und Ihrer Audio-Eingabeaufforderung. VHS_VideoCombine (#148) muxes den Track und exportiert eine neue Datei. Verwenden Sie die Vorschau des letzten Frames auf der Leinwand, um die visuelle Konsistenz schnell zu überprüfen, bevor Sie exportieren.
Exporte und Vorschauen des letzten Frames#
Jeder Modus endet mit einer Videoergebnisgruppe, die ein MP4 über die VideoHelperSuite’s VHS_VideoCombine-Knoten schreibt. Ein spezielles Letzter Frame-Feld speichert und zeigt den letzten Frame an, sodass Sie Beleuchtung, Farbe und Subjektqualität auf einen Blick beurteilen können, bevor Sie vollständige Generationen ausführen. Video-I/O und Vorschaufunktionalität werden von VideoHelperSuite bereitgestellt. pythongosssss/ComfyUI-VideoHelperSuite
Wichtige Knoten im Comfyui WAN 2.2 Smooth Workflow v5.0#
WanImageToVideo (#50)
- Dies ist der WAN 2.x Video-Einstiegspunkt für sowohl T2V als auch I2V innerhalb von WanVideoWrapper. Es kombiniert Ihre Eingabeaufforderungen mit dem VAE (und einem optionalen Startbild), um eine anfängliche Bewegungslatenz zu erstellen. Größen- und Längenkontrollen im Voraus müssen modellfreundliche Einschränkungen respektieren, und dieser Knoten speist die nachfolgenden gepaarten Sampler. Details und Updates zur WanVideoWrapper-Implementierung werden hier gepflegt: kijai/ComfyUI-WanVideoWrapper.
WanFirstLastFrameToVideo (#343)
- Treibt den Erste-zu-Letzte-Frame-Pfad an, indem es CLIP Vision-Embeddings für beide Begrenzungsrahmen zusammen mit Ihren Texteingaben aufnimmt. Es erstellt eine geführte Trajektorie, die die Subjektidentität und Szenenlayout bewahrt, während es sich zum Ziel verändert. Halten Sie Start- und Endframes in Subjektskalierung und Komposition ausgerichtet, um die natürlichsten Übergänge zu erzielen.
KSamplerWithNAG (Advanced) (#234)
- Wendet Noise Assisted Guidance an, um die Einhaltung der Eingabeaufforderung zu verbessern und zeitliches Driften in kurzen Clips zu reduzieren. Passen Sie seine Führung nur an, wenn Sie Über- oder Unterbeschränkung sehen; es arbeitet im Tandem mit dem Standardsampler und Ihrer negativen Eingabeaufforderung. Siehe Methode und Abstimmungshinweise in den Projektdokumenten: scottmudge/ComfyUI-NAG.
RIFEInterpolation (#160)
- Fügt hochwertige Zwischenbilder ein, um die Bewegungsglätte vor der Kodierung ins Video zu verbessern. Verwenden Sie es, wenn Ihre Basis-Sequenz Bild-für-Bild gut aussieht, aber beim Abspielen etwas holprig wirkt. Der Knoten integriert die RIFE-Implementierung, die von der ComfyUI VFI-Erweiterung bereitgestellt wird. GACLove/ComfyUI-VFI
VHS_VideoCombine (#77)
- Handhabt die endgültige Kodierung, das Muxing optionaler Audios und das Speichern von Metadaten. Halten Sie sein Format und das Pixelformat über Projekte hinweg konsistent für vorhersehbare Wiedergabe. VideoHelperSuite treibt auch die schnellen Vorschau-Dienstprogramme des letzten Frames an, die anderswo auf der Leinwand verwendet werden. pythongosssss/ComfyUI-VideoHelperSuite
Optionale Extras#
- Verwenden Sie Hoch vs. Niedrig SmoothMix Checkpoints, um Qualität und Geschwindigkeit auszubalancieren. Hoch ist ideal für Heldenaufnahmen und die letzte Iteration, Niedrig hilft Ihnen, schneller an Eingabeaufforderungen und Timing zu iterieren.
- Halten Sie Videobreite und -höhe in modellfreundlichen Vielfachen, um Artefakte zu minimieren und das Sampling zu beschleunigen.
- Wenn ein T2V-Clip statisch aussieht, aktualisieren Sie den Seed oder verstärken Sie Bewegungsverben in der Eingabeaufforderung, bevor Sie die Sampling-Tiefe erhöhen.
- Für F2LF wählen Sie Begrenzungsrahmen mit ähnlichen Kamerawinkeln und Belichtung. Große Sprünge in der Komposition sind schwerer reibungslos zu lösen.
- Die Leinwand enthält einen Adaptive Prompts-Helfer für reichhaltigere Formulierungen, wenn Sie schnelle Variationen ohne manuelles Umschreiben der Eingabeaufforderungen wünschen. Alectriciti/comfyui-adaptiveprompts
Dieses WAN 2.2 Smooth Workflow v5.0 wurde entwickelt, um den Moduswechsel-Reibung zu minimieren, während die Ergebnisse glatt und kinoreif bleiben. Beginnen Sie mit dem Modus, der zu Ihrem Input passt, stellen Sie Größe und Dauer ein, schreiben Sie ein klares Eingabeaufforderungspaar, und lassen Sie die Sampler plus RIFE den Rest erledigen.
Danksagungen#
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken den Civitai-Erstellern für den Smooth Workflow Wan 2.2 AIO-Workflow und die Smooth Mix Wan 2.2 14B I2V/T2V-Modelle, kijai für ComfyUI-WanVideoWrapper und lightx2v (ModelTC) für Wan2.2-Distill-Loras für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die Originaldokumentation und die unten verlinkten Repositories.
Ressourcen#
- Civitai/Smooth Workflow Wan 2.2 AIO (Workflow v5.0)
- Docs / Release Notes: Workflow-Quelle
- Civitai/Smooth Mix Wan 2.2 14B (I2V/T2V)
- Docs / Release Notes: SmoothMix WAN 2.2 I2V/T2V Modelle
- kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
- lightx2v/Wan2.2-Distill-Loras
- GitHub: ModelTC/LightX2V
- Hugging Face: lightx2v/Wan2.2-Distill-Loras
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und des Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartungsmitarbeitern bereitgestellt werden.

