ComfyUI>Workflows>Kohärente Szenen erstellen | Konsistenter Story-Art-Generator

Kohärente Szenen erstellen | Konsistenter Story-Art-Generator

Workflow Name: RunComfy/Create-Coherent-Scenes

Workflow ID: 0000...1305

Dieser leistungsstarke Workflow hilft Ihnen, visuell einheitliche Erzählszenen mit den kombinierten Fähigkeiten von Qwen Image Edit und Wan 2.2 zu entwerfen. Er synchronisiert Beleuchtung, Kamerawinkel und Komposition über mehrere Aufnahmen hinweg, um natürliche Konsistenz zu erreichen. Perfekt für Storytelling, Animation und Konzeptvisualisierung, hält er Charaktere und Umgebungen von Bild zu Bild kohärent. Sie können Aufnahmen leicht verfeinern, den künstlerischen Ton bewahren und sanfte Übergänge für filmische Sequenzen erzeugen. Ideal für Kreative, die Effizienz und Kontrolle über mehrszenige Erzählungen suchen.

Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2)

Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2) ist ein produktionsbereiter ComfyUI-Workflow für den Aufbau von storygetriebenen, mehrteiligen Videos, in denen Charaktere, Beleuchtung und Komposition von Aufnahme zu Aufnahme konsistent bleiben. Er kombiniert Qwen Image Edit für präzise, referenzgeführte Standbilder mit Wan 2.2 image-to-video für filmische Bewegung und ermöglicht es Ihnen, Szenen zu verbinden, Bewegung mit Frame-Interpolation zu glätten und generierte Foley-Audio hinzuzufügen, um abzuschließen. Ideal für narrative Kunst, Animation, Previz und Konzept-Reels, hilft der Workflow Ihnen, von einem einzelnen, einleitenden Schlüsselbild zu einer kohäsiven Sequenz mit minimalem Nachbearbeiten per Hand zu gelangen.

Die Pipeline ist in drei Teile gegliedert: Teil 1 erstellt und bearbeitet kohärente Schlüsselbilder, Teil 2 animiert jede Aufnahme mit Wan 2.2 und fügt sie zu einem Schnitt zusammen, und Teil 3 generiert szenenbezogene Foley-Audio. Wo immer Sie Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2) in diesem README sehen, bezieht es sich auf den vollständigen, durchgängigen Prozess.

Schlüsselmodelle im Comfyui Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2) Workflow

Wan 2.2 Image-to-Video 14B (High-Noise und Low-Noise Varianten). Kern-Videogenerator zur Animation Ihrer Szenenbilder unter Wahrung des räumlichen Layouts und Stils. Verpackt für ComfyUI mit Text-Encoder und VAE-Assets. Referenz: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
Qwen-Image-Edit 2509 + Qwen 2.5 VL Text-Encoder + Qwen Image VAE. Semantische, referenzbewusste Bildbearbeitung zur Erstellung von Schlüsselbildern für die nächste Szene, die Ihre Erzählung fortsetzen und Charakter- und Szenenkontinuität bewahren. Referenzen: Comfy-Org/Qwen-Image-Edit_ComfyUI und Comfy-Org/Qwen-Image_ComfyUI.
FLUX.1 dev (Text-to-Image). Optionales Basismodell für das allererste einleitende Schlüsselbild vor der Bearbeitung. Referenz: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.
RIFE Video Frame Interpolation. Wird verwendet, um die Bildrate zu erhöhen und die Bewegung im kombinierten Schnitt zu glätten. Referenz: hzwer/Practical-RIFE.
HunyuanVideo-Foley. Ein generatives Audiomodell, das synchronisierte Foley aus Bildern oder Videos plus einem kurzen Text-Hinweis erstellt; wird verwendet, um diegetischen Klang pro Szene oder für den endgültigen Schnitt hinzuzufügen. Referenz: phazei/HunyuanVideo-Foley.
Optionale Helfer. MiniCPM-V 4.5 kann automatisch Audioprompts aus Ihrem Schnitt entwerfen, um die Foley-Ideation zu beschleunigen: OpenBMB/MiniCPM-V.

Verwendung des Comfyui Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2) Workflows

Allgemeine Logik

Teil 1 erstellt ein einleitendes Schlüsselbild und verwendet dann Qwen Image Edit, um "nächste Szene"-Standbilder zu erzeugen, die stilistisch abgestimmt bleiben.
Teil 2 animiert jedes Szenenbild in einen kurzen Clip mit Wan 2.2, fügt dann alle Clips zu einem einzigen Schnitt zusammen und interpoliert optional Frames für flüssigere Bewegung.
Teil 3 generiert optional Foley-Audio pro Szene oder für den kombinierten Schnitt und mischt es in das endgültige Video.

Modell-Loader

Der Modellbereich lädt Wan 2.2 High- und Low-Noise-Varianten und ihre VAE/CLIP einmal, mit einer Option zur Beschleunigung über Torch-Compile. Sie werden auch eine Low-VRAM-Route mit quantisierten GGUF UNETs und Blocktausch sehen, sodass Sie denselben Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2) Prozess auf kleineren GPUs ausführen können.
LoRAs für Wan 2.2 und die Qwen Image Edit Lightning LoRA sind vorverkabelt, um Bewegungsstil und Bearbeitungsgeschwindigkeit zu beeinflussen, ohne das Diagramm zu verkomplizieren.
Wenn Sie Modelle ändern, halten Sie die Text-Encoder/UNET/VAE-Familien konsistent, um latente Rauminkompatibilitäten zu vermeiden.

Einstellungen

Globale Steuerungen setzen die Arbeitsbreite, Höhe, den Seed und die Szenenlänge, sodass jede Szene identische Leinwandgeometrie und zeitliche Kadenz erbt. Dies ist ein Schlüssel zur Konsistenz von Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2).
Ein umfassendes negatives Prompt wird bereitgestellt und global geroutet; Sie können es jederzeit überschreiben, um es Ihrer künstlerischen Richtung anzupassen.

Teil 1 — Text-to-Image einleitendes Schlüsselbild

Beginnen Sie mit der Beschreibung Ihrer Eröffnungsszene. Das Prompt füttert einen Basis-Text-to-Image-Sampler, der ein "Start_"-Bild für das Projekt ausgibt.
Dieses Bild wird zwischengespeichert und dient als Referenz für die nächste Szene im Qwen-Track. Der Workflow skaliert das Bild auf eine bearbeitungsfreundliche Auflösung und codiert es in Latents.

Teil 1 — Qwen Image Edit nächste Szenen-Schlüsselbilder

Für jede nachfolgende Aufnahme schreiben Sie eine kurze "Nächste Szene"-Anweisung. Der Editor konditioniert auf das vorherige Szenenbild, sodass Charakteridentität, Garderobe, Beleuchtung und Palette abgestimmt bleiben.
Das bearbeitete Ergebnis wird dekodiert, in der Vorschau angezeigt und als "Scene_1_...", "Scene_2_..." usw. gespeichert. Dies sind Ihre kohärenten Standbilder. Sie werden auch in gemeinsamen Bildslots gespeichert, sodass spätere Prompts auf sie verweisen können.

Szeneneingaben (1–6)

Wenn Sie bereits Konzeptbilder haben, legen Sie diese in die sechs "LoadImage"-Knoten. Andernfalls verwenden Sie die Qwen-generierten Standbilder aus Teil 1 als Startbilder.
Für jede Szene fügen Sie über den beschrifteten Prompt-Knoten einen kurzen Textprompt hinzu. Betrachten Sie diese als filmische Notizen, die den Bewegungsstil leiten, anstatt die gesamte Umgebung neu zu beschreiben.

Szenensampling (1–6)

Jede Szene durchläuft einen Wan 2.2 image-to-video Durchgang, um das Startbild in einen latenten Clip zu verwandeln. Ein dreistufiger Sampler-Pfad verfeinert dann die latente Sequenz mithilfe eines High-Noise-Pfads, eines Low-Noise-Pfads und eines No-LoRA-Pfads, die für Stabilität arrangiert sind.
Die dekodierten Frames speisen einen Video-Writer pro Szene, der eine MP4 zur schnellen Überprüfung speichert. Speicherfreigabe-Knoten nach jedem Rendern leeren den VRAM, bevor die nächste Szene beginnt.
Da alle Szenen denselben Seed, dieselbe Größe und Länge teilen, bleiben Bewegungsrhythmus und Komposition abgestimmt, sodass sich Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2) wie ein durchgehendes Stück anfühlen.

Szenen kombinieren

Die sechs gerenderten Bildersequenzen werden in Reihenfolge zu einem "Combined"-Schnitt zusammengefügt. Sie können Szenen umordnen oder weglassen, indem Sie den Batch-Knoten neu verdrahten, der sie sammelt.

Optionale Frame-Interpolation

Ein Interpolationsdurchgang erhöht die scheinbare Bildrate mithilfe von RIFE. Dies erstellt einen "Interpolated"-Export für flüssigere Kamera- und Subjektbewegung, während das gleiche Aussehen beibehalten wird.

Teil 3 — Video-to-Audio Foley

Laden Sie den kombinierten Schnitt oder eine einzelne Szene in den Audioabschnitt. Ein eingebauter Vision-Language-Helfer kann automatisch eine textuelle Szenenbeschreibung entwerfen; bearbeiten Sie sie nach Geschmack, um Rhythmus, Stimmung und Schlüsselaktionen widerzuspiegeln.
Das Foley-Modell synthetisiert synchronisiertes Audio und ein Mux-Knoten kombiniert es mit Ihren Frames in eine Audio-fähige MP4. Für beste Ergebnisse generieren Sie Audio pro Szene und fügen es dann zusammen.

Schlüssel-Knoten im Comfyui Kohärente Szenen erstellen (Qwen Image Edit & Wan 2.2) Workflow

WanImageToVideo (#111) Konvertiert einen einzelnen Referenzrahmen in ein kohärentes latentes Video unter Berücksichtigung von positiven und negativen Texten. Verwenden Sie es, um die Dauer und Leinwandgröße jeder Aufnahme festzulegen und das Startbild anzugeben, das Sie animiert sehen möchten. Unterstützt von Wan 2.2 I2V 14B-Modellen, die hier verpackt sind: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
TextEncodeQwenImageEditPlus (#360) Codiert "Nächste Szene"-Anweisungen zusammen mit einem Referenzbild, sodass Bearbeitungen der Geschichte folgen und dennoch Identität und Beleuchtung entsprechen. Halten Sie Substantive und stilistische Tags über Szenen hinweg konsistent, um die Kontinuität zu verstärken. Modellreferenzen: Comfy-Org/Qwen-Image-Edit_ComfyUI und Comfy-Org/Qwen-Image_ComfyUI.
KSamplerAdvanced (#159) Der Kern-Denoiser für jede animierte Szene. Dieser Workflow verknüpft drei Sampler, die auf verschiedene Rauschregime und LoRA-Mischungen abzielen, um die zeitliche Stabilität zu verbessern. Wenn Sie Schritte oder Seeds ändern, tun Sie dies einheitlich über die verketteten Sampler, um das Bewegungsverhalten vorhersehbar zu halten.
ImageBatchMulti (#308) Sammelt Szenenframe-Batches in einer langen Zeitleiste. Verwenden Sie es, um Szenen vor dem Export neu zu ordnen, zu löschen oder auszutauschen, ohne die Sampling-Pfade zu berühren.
RIFE VFI (#94) Führt Frame-Interpolation durch, um die wahrgenommene Bildrate zu erhöhen. Es ist besonders effektiv für langsame Kamerabewegungen und flüssige Subjektbewegungen. Referenz: hzwer/Practical-RIFE.
HunyuanFoleySampler (#331) Generiert synchronisierte Foley aus Frames plus einem kurzen Textprompt und übergibt Audio an den Video-Muxer. Für Modelldetails und Dateien siehe phazei/HunyuanVideo-Foley.

Optionale Extras

Für schnellste Iterationen verwenden Sie die quantisierte GGUF Wan 2.2-Route mit Blocktausch, wenn der VRAM knapp ist; wechseln Sie zurück zu voller Präzision für endgültige Renderings.
Halten Sie Breite, Höhe und Szenenlänge im gesamten Projekt identisch, um Rhythmus und Rahmenkontinuität zu verstärken.
Bewahren Sie in Qwen-Prompts Kernidentifikatoren (Namen, Outfit, Requisiten) und Beleuchtungsbegriffe auf; variieren Sie nur die Aktions- und Kamerasprache zwischen den Szenen.
Verwenden Sie den globalen Seed, um das Gesamtgefühl des Projekts zu sperren. Ändern Sie ihn nur, wenn Sie einen anderen Bewegungscharakter über alle Szenen hinweg wünschen.
Interpolieren Sie nur, nachdem Sie mit dem Timing zufrieden sind, und rendern Sie die Audioversion pro Szene und kombinieren Sie sie; pro-Szene-Foley klingt tendenziell natürlicher.
FLUX.1 dev ist eine großartige Basis für das allererste Schlüsselbild; einmal etabliert, verlassen Sie sich auf Qwen-Bearbeitungen, um die Geschichte voranzutreiben und dabei das Aussehen zu bewahren: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken den Schöpfern von Qwen Image Edit für das Modell, den Entwicklern von Wan 2.2 für das Modell und dem Autor (@Benji’s AI Playground) des "Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial" für ihre Beiträge und Wartung. Für autoritative Details lesen Sie bitte die Originaldokumentation und -repositories, die unten verlinkt sind.

Ressourcen

YouTube/Create Coherent Scenes (Qwen Image Edit & Wan 2.2)
- Docs / Release Notes @Benji’s AI Playground: Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartungspersonen bereitgestellt werden.

Want More ComfyUI Workflows?

Wan 2.2 | Open-Source Video Gen Leader

Jetzt verfügbar! Bessere Präzision + flüssigere Bewegungen.

Wan 2.2 FLF2V | First-Last Frame Video Generation

Erzeuge flüssige Videos aus einem Start- und Endbild mit Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Ultra Schnelle I2V & T2V

Dual Light LoRA Setup, 4X schneller.

Wan 2.2 VACE | Pose-gesteuerter Video-Generator

Verwandeln Sie Standbilder in beeindruckende Bewegungen mit posebasierter Steuerung.

Wan 2.1 Ditto | Generator für filmische Videoumgestaltung

Verwandeln Sie Videos in atemberaubende künstlerische Stile mit perfektem Bewegungsfluss.

Pose Control LipSync S2V | Ausdrucksstarker Video-Generator

Verwandeln Sie Bilder in sprechende, bewegliche Charaktere mit Posen- und Audiokontrolle.

SkyReels V1 | Human-Focused Videoerstellung

Erstellen Sie filmische menschliche Videos mit echten Gesichtsausdrücken und natürlichen Bewegungen aus Text oder Bildern.

Face Restore + ControlNet + Reactor | Alte Fotos restaurieren

Lassen Sie verblasste Fotos zu lebendigen Erinnerungen wiederaufleben und bewahren Sie jedes Detail für eine wertvolle Erinnerung.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.