Stable Video Infinity 2.0 ComfyUI Workflow für lange, kohärente Bild-zu-Video auf Wan 2.2
Dieser Workflow verwandelt ein einzelnes Bild in ein langes, erzählgetriebenes Video, während er Identität, Bewegungsfluss und Szenenkonsistenz beibehält. Er kombiniert das Wan 2.2 I2V A14B Modell mit dem Stable Video Infinity 2.0 LoRA, um die zeitliche Kontinuität weit über die Grenzen kurzer Clips hinaus zu erweitern. Die Pipeline ist in fünf Durchläufe organisiert, die Bewegungs-Latents von einem Abschnitt zum nächsten übergeben, mit Überlappungsblending, um Übergänge zu glätten, und einem finalen Render, der alles zusammenfügt.
Kreative, die erweiterte Animationen, narrative Beats oder filmische KI-Videos benötigen, werden feststellen, dass Stable Video Infinity Charaktere und Stil stabil hält, während sich die Szene entwickelt. Sie erhalten Zwischendurchlauf-Videos zur schnellen Überprüfung und ein finales Master-Render, alles direkt aus dem ComfyUI Graph produziert.
Wichtige Modelle im Comfyui Stable Video Infinity Workflow
- Wan 2.2 I2V A14B UNet Paar (HighNoise und LowNoise), quantisierte GGUF-Varianten. Diese erzeugen Bewegung aus Bild-Latents und werden abwechselnd verwendet, um Exploration und Detailverfeinerung auszugleichen. Quelle: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
- Stable Video Infinity 2.0 LoRA für Wan 2.2 I2V A14B, in HIGH und LOW Varianten erhältlich, um den beiden UNets zu entsprechen. Es erweitert die zeitliche Kohärenz für lange Sequenzen. Quelle: Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0.
- Wan Text Encoder UMT5 XXL. Kodiert pro Durchlauf Aufforderungen in Konditionierungen für den Videogenerator. Quelle: Comfy-Org/Wan_2.1_ComfyUI_repackaged.
- Wan 2.1 VAE. Kodiert das Startbild in den latenten Raum und dekodiert Frames für jeden Durchlauf zurück in Bilder. Quelle: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE.
- Optionale Wan 2.2 LightX2V LoRA Set (HighNoise und LowNoise). Diese zusätzlichen LoRAs ergänzen Stable Video Infinity während der Abtastung. Quelle: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras.
So verwenden Sie den Comfyui Stable Video Infinity Workflow
Der Workflow nimmt ein einzelnes Referenzbild, bereitet es in der von Ihnen gewählten Auflösung vor und führt dann fünf aufeinanderfolgende Durchläufe aus. Jeder Durchlauf verwendet Stable Video Infinity, um ein Segment zu erzeugen, überlappt einige Frames mit dem vorherigen Segment und leitet seinen Bewegungs-Latent an den nächsten Durchlauf weiter. Sie können jeden Durchlauf als MP4 Vorschau anzeigen und auch ein final zusammengesetztes Render produzieren.
Gruppe: Modelle
Diese Gruppe lädt das Wan 2.2 I2V A14B UNet Paar, das Wan VAE und den UMT5 XXL Text Encoder. Dann wird das LightX2V LoRA Set und das Stable Video Infinity 2.0 LoRA auf beide HighNoise und LowNoise Zweige angewendet, sodass alle Durchläufe die gleichen Fähigkeiten teilen. Wenn Sie die LoRA-Stärke anpassen, halten Sie beide HighNoise und LowNoise Zweige ausgewogen, um driftenden Stil oder Bewegungsverhalten zu vermeiden.
Gruppe: Prompts
Prompts werden pro Durchlauf erstellt, um narrative Beats zu erzeugen. Positive Prompts befinden sich in den fünf CLIPTextEncode Knoten wie CLIPTextEncode (#93, #152, #284, #297, #310). Negative Prompts sind mit allgemeinen Qualitätsfiltern vorgefüllt und können in CLIPTextEncode (#89, #157, #279, #293, #306) bearbeitet werden. Halten Sie konsistente Subjektbeschreibungen über die Durchläufe hinweg und variieren Sie nur die Aktionsverben oder Kamerahinweise, um die Identität zu bewahren, während sich die Szene entwickelt.
Eingabebild und Auflösung
Laden Sie ein einzelnes Referenzbild mit LoadImage (#97), dann skalieren Sie es mit Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398)), um Ihr Zielverhältnis zu erreichen. Das Bild wird von VAEEncode (#135) in Latents kodiert, was auch den Anker-Latent festlegt, der die Identität während des gesamten Laufs stabil hält. Wenn Sie das Eingabebild oder das Seitenverhältnis ändern, kodieren Sie es vor dem Ausführen der Durchläufe erneut.
Durchlauf 1 - Die Szene etablieren
WanImageToVideoSVIPro (#134) verwendet Ihren ersten Durchlauf-Prompt und den Anker-Latent, um Bewegung zu erzeugen. Zwei Sampler, KSamplerAdvanced (#277 für HighNoise, #278 für LowNoise), arbeiten zusammen, um Bewegung zu erkunden und dann Details zu verfeinern. Das Ergebnis wird von VAEDecode (#87) dekodiert und über VHS_VideoCombine (#126) als MP4 Vorschau angezeigt. Verwenden Sie diesen Durchlauf, um das Subjekt, die Beleuchtung und den Gesamtstil festzulegen, den Stable Video Infinity weitertragen wird.
Durchlauf 2 - Die Aktion fortsetzen
WanImageToVideoSVIPro (#160) erhält prev_samples von Durchlauf 1, sodass es Bewegung ohne visuellen Sprung erweitern kann. Das gleiche zweistufige Abtastmuster läuft durch KSamplerAdvanced (#276 HighNoise, #275 LowNoise), und Frames werden von VAEDecode (#162) dekodiert. ImageBatchExtendWithOverlap (#168) mischt eine kurze Überlappung mit dem Ende von Durchlauf 1, um Nähte zu verbergen, und VHS_VideoCombine (#167) schreibt die Segmentvorschau.
Durchlauf 3 - Erweiterung der Mittelsequenz
WanImageToVideoSVIPro (#290) setzt von den Latents von Durchlauf 2 fort und folgt der gleichen dualen Sampler-Verfeinerung mit KSamplerAdvanced (#291, #287). Nach dem Dekodieren in VAEDecode (#282) fügt ImageBatchExtendWithOverlap (#292) die neuen Frames zur Zeitleiste hinzu. Aktualisieren Sie den Prompt, um die Mikroaktion zu entwickeln, während Sie die Subjektbegriffe identisch halten.
Durchlauf 4 - Aufbau zum Beat
WanImageToVideoSVIPro (#305) übernimmt von Durchlauf 3 und verwendet erneut HighNoise und dann LowNoise Sampler KSamplerAdvanced (#303, #300). VAEDecode (#295) und ImageBatchExtendWithOverlap (#304) ergeben eine kontinuierliche Sequenz, die Sie über VHS_VideoCombine (#296) vorschauen können. Verwenden Sie diesen Durchlauf, um Kamerabewegung oder sekundäre Aktionen hinzuzufügen und die Beschreibungen stabil zu halten, um die Identität zu bewahren.
Durchlauf 5 - Auflösung und Render
WanImageToVideoSVIPro (#318) beendet die Geschichte und übergibt Frames zur Verfeinerung an KSamplerAdvanced (#316, #313). Nach dem Dekodieren mit VAEDecode (#308) werden die Frames mit ImageBatchExtendWithOverlap (#317) hinzugefügt. VHS_VideoCombine (#319) produziert das final zusammengesetzte MP4; passen Sie dessen frame_rate und filename_prefix an, um die Lieferung zu entsprechen.
Wichtige Knoten im Comfyui Stable Video Infinity Workflow
WanImageToVideoSVIPro (#134)
Dieser Knoten konvertiert den Anker-Latent und Ihren Prompt in Bewegungs-Latents und kann prev_samples akzeptieren, um von einem früheren Durchlauf fortzufahren. Verwenden Sie length, um zu definieren, wie viele Frames ein Durchlauf erzeugt, und motion_latent_count, um zu steuern, wie viel neue Bewegungsenergie eingeführt wird. Das Verketten von Durchläufen, indem prev_samples gefüttert werden, ermöglicht es, dass Stable Video Infinity lange Sequenzen ohne Poppen aufbaut.
KSamplerAdvanced (#276)
Jeder Durchlauf paart einen HighNoise Sampler mit einem LowNoise Sampler, um zuerst zu erkunden und dann Details zu konsolidieren. Der Workflow bietet steps und eine sekundäre Split-Kontrolle, sodass Sie entscheiden können, wie das Durchlaufbudget zwischen den beiden aufgeteilt wird. Halten Sie den Split über die Durchläufe hinweg konsistent, um Flackern bei Übergaben zu vermeiden.
ImageBatchExtendWithOverlap (#168)
Dieses Dienstprogramm mischt eine kleine Anzahl von End-Frames aus dem vorherigen Durchlauf mit dem Anfang des neuen. Passen Sie overlap an und halten Sie den Modus auf einem glatten Blend, um Nähte zu verbergen und gleichzeitig die Bewegungsrichtung zu bewahren. Es ist der Schlüssel, um Stable Video Infinity Segmente wie eine kontinuierliche Aufnahme erscheinen zu lassen.
VHS_VideoCombine (#319)
Setzt dekodierte Frames in MP4 für sowohl Vorschauen als auch das finale Render zusammen. Passen Sie frame_rate, format und crf an Ihr Lieferziel und die Dateigröße an. Verwenden Sie unterschiedliche filename_prefix Werte, um Vorschauen vom finalen Ausgabematerial zu trennen.
LoraLoaderModelOnly (#141, #142)
Wendet die Stable Video Infinity 2.0 LoRA Varianten auf das Wan 2.2 UNet Paar an. Die strength_model Kontrolle erlaubt es Ihnen, fein einzustellen, wie stark das LoRA Bewegung und Kohärenz steuert. Halten Sie HIGH und LOW Zweige ausgerichtet, damit beide Sampler Prompts ähnlich interpretieren.
Optionale Extras
- Halten Sie Subjektbeschreibungen in allen fünf Prompts konstant und variieren Sie nur Verben oder Kamerahinweise, um die Identität zu bewahren.
- Wenn sich die Bewegung zu zaghaft anfühlt, erhöhen Sie
motion_latent_countleicht im nächsten Durchlauf, anstatt die Prompts drastisch umzuschreiben. - Wenn Details zwischen den Durchläufen schwanken, reduzieren Sie den HighNoise Anteil der
stepsoder senken Sie die LoRA Stärke gleichmäßig auf beiden Zweigen. - Verwenden Sie eine kurze Überlappung für schnelle Aktionen und eine längere Überlappung für langsame, subtile Szenen, um das Verbergen von Nähten und die Laufzeit auszugleichen.
- Für einen schnellen Cutdown rendern Sie nur die Vorschauen von Durchlauf 1 und Durchlauf 3, um Identität und Bewegung zu validieren, bevor Sie sich zur vollständigen Ausführung verpflichten.
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Kijai für Stable-Video-Infinity v2.0 (SVI 2.0) für ihre Beiträge und Pflege. Für autoritative Details verweisen wir auf die Originaldokumentation und Repositories, die unten verlinkt sind.
Ressourcen
- Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

