SkyReels V3 ComfyUI Workflow | Bild2Video + Lip-Sync Animation

SkyReels V3 ComfyUI: identitätsgetreue Bild-, Video- und Audio-zu-Video-Erstellung

SkyReels V3 ComfyUI ist ein produktionsbereiter Workflow, der das SkyReels V3 Multimodale Video-Modell in ComfyUI bringt, damit Sie Standbilder animieren, vorhandene Aufnahmen erweitern und audio-gesteuerte sprechende Avatare mit präzisem Lip-Sync erstellen können. Es ist für Kreative konzipiert, die filmische Bewegungen, eine starke Subjektidentität und zeitliche Kohärenz wünschen, während sie in einem flexiblen Knotengraphen bleiben.

Der Workflow wird mit vier fokussierten Pipelines geliefert, die unabhängig oder verkettet ausgeführt werden können: Bild-zu-Video-Charakteranimation, Video-zu-Video-Fortführung, Audio-zu-Video-sprechende Avatare und Next-Shot-Generierung für den Story-Flow. Jeder Pfad enthält klare Eingabepunkte und sinnvolle Vorgaben, sodass Sie Ihre Assets einfügen und schnell hochwertige SkyReels V3-Ausgaben rendern können.

Hinweis für 2X Large und größere Maschinen (R2V-Workflow): Setzen Sie Patch Sage Attention KJ (#240) sage_attention auf deaktiviert, bevor Sie starten. Wenn es aktiviert bleibt, können SM90 kernel is not available-Fehler auftreten.

Schlüsselmodelle im Comfyui SkyReels V3 ComfyUI Workflow

SkyReels V3 Videobackbones (R2V, V2V Shot, A2V) aus dem WanVideo FP8 Pack. Dies sind die Kern-Generatoren, die identitätsbewusste Bewegungen, Videofortführung und audio-konditionierten Lip-Sync handhaben. Siehe die SkyReels V3 Gewichte im WanVideo Pack auf Hugging Face hier.
OpenCLIP Vision ViT Modelle für Bildführung und Referenzembedding. Sie bieten robuste visuelle Merkmale, die helfen, Aussehen und Stil über die Frames hinweg zu bewahren. Projektseite: open_clip.
UMT5 Text-Encoder für Prompt-Verständnis. Er liefert reichhaltige Sprachkonditionierung, um Stil, Szene und Aktionen zu steuern. Repo: umt5.
Wav2Vec2 Sprachmerkmale für Lip-Sync und Audioanalyse. Die chinesische Basisvariante wird von Haus aus unterstützt und ähnliche englische Varianten funktionieren ebenfalls. Modellkarte: TencentGameMate/chinese-wav2vec2-base.
Qwen3-ASR-1.7B für Sprach-zu-Text. Wird verwendet, um Referenz-Audio zu transkribieren und Voice-Cloned TTS-Prompts zu bootstrappen. Modellkarte: Qwen/Qwen3-ASR-1.7B.
MelBandRoFormer für Stimmentrennung. Hilfreich, wenn Sie saubere Sprachspuren benötigen, bevor Sie Lip-Sync-Embedding erstellen. Modellkarte: Kijai/MelBandRoFormer_comfy.
MiniCPM-V für aufnahmebewusste Prompt-Generierung. Es analysiert vorheriges Filmmaterial und schlägt den nächsten Shot für Story-Kontinuität vor. Modell-Hub: OpenBMB/MiniCPM-V.

Verwendung des Comfyui SkyReels V3 ComfyUI Workflows

Der Graph ist in vier Pipelines organisiert. Sie können jede einzeln oder in der Reihenfolge ausführen, um längere Bearbeitungen zu erstellen.

Bild-zu-Video-Charakteranimation

Modelle. Laden Sie die UNet, CLIP und VAE in der Modellgruppe mit UNETLoader (#241), CLIPLoader (#242) und VAELoader (#194). Die Modell-Patch-Knoten PathchSageAttentionKJ (#240) und ModelPatchTorchSettings (#239) optimieren Aufmerksamkeit und mathematische Einstellungen, während LoraLoaderModelOnly (#250) es Ihnen ermöglicht, optional einen Stil oder eine Bewegungs-LoRA in das SkyReels-Modell zu mischen.
Referenzbilder laden. Verwenden Sie die drei „Referenzbilder laden“-Gruppen, um 1–3 Porträts oder Posen zu importieren. Die Größenanpassungshelfer ImageResizeKJv2 (#291, #298, #299, #304) richten das Seitenverhältnis aus und stapeln sie; sauberere Identitätsfotos liefern stabilere Ergebnisse.
Prompt. Geben Sie Szenen- und Aktionstext in der Prompt-Gruppe mit CLIPTextEncode (#6) und einem optionalen negativen Text-Encoder CLIPTextEncode (#7) ein, um unerwünschte Merkmale abzuschwächen. Halten Sie die Sprache prägnant und spezifisch für Bewegung und Bildgestaltung.
Sampling und Decodierung. WanPhantomSubjectToVideo (#249) fusioniert Ihre Referenzen und Prompts in ein identitätsbewusstes Latent, das KSampler (#149) über ModelSamplingSD3 (#48) speist. Die decodierten Frames von VAEDecode (#264) werden mit VHS_VideoCombine (#280) zu einem Film verpackt; legen Sie dort Ihre Zielbildrate und das Dateiformat fest.

Video-zu-Video-Erweiterungsschleife

Eingabevideo und Einstellungen. Bringen Sie Ihren Quellclip mit VHS_LoadVideo (#329) ein. Legen Sie fest, wie viele zusätzliche Segmente generiert werden sollen und wie viel Überlappung zwischen den Segmenten mit den Ganzzahlhelfern „Number of Extend“ (#342) und „Overlapping Frames“ (#341). ImageResizeKJv2 (#327) standardisiert die Auflösung für den Sampler.
Schleifen-Sampling-Erweiterungsvideo. Das Schleifenpaar easy forLoopStart (#331) und easy forLoopEnd (#332) durchläuft den Clip in Fenstern, um Übergänge zu stabilisieren. Jedes Fenster wird mit WanVideoEncode (#326) codiert, erhält neutrale oder Steuerungsembeds über WanVideoEmptyEmbeds (#328) und wird von WanVideoSampler (#320) aus WanVideoModelLoader (#319) entrauscht. Frames werden mit WanVideoDecode (#321) decodiert und mit VHS_VideoCombine (#322, #335) vorgeführt oder gespeichert.
Leistungshilfen. WanVideoTorchCompileSettings (#323) und WanVideoBlockSwap (#325) ermöglichen Kompilierungs- und Speichertipps für längere oder hochauflösende Läufe.

Audio-zu-Video-sprechender Avatar

1 – Audio erstellen. Sie können eine sprachgeklonte Sprachspur mit FB_Qwen3TTSVoiceClonePrompt (#416) und FB_Qwen3TTSVoiceClone (#412) generieren oder jede voraufgezeichnete Stimme mit LoadAudio (#417) laden. Qwen3ASRLoader (#414) plus Qwen3ASRTranscribe (#413) helfen Ihnen dabei, Text aus einem Referenzclip zu extrahieren, um das TTS-Prompt bei Bedarf zu starten.
2 – Audiofunktionen. DownloadAndLoadWav2VecModel (#348) speist MultiTalkWav2VecEmbeds (#350), um Lippenbewegungs-Embeddings aus Ihrer Sprache zu erstellen; die Länge wird an das Audio angepasst und ist mit PreviewAudio (#422) vorschaubar. Verwenden Sie Any Switch (rgthree) (#435), um TTS-Ausgabe oder Ihre importierte Datei als Steuerungsspur auszuwählen.
3 – Eingabebild. Laden Sie das sprechende Gesicht in der Gruppe „3 - Eingabebild“ und passen Sie es mit ImageResizeKJv2 (#370) an. Saubere, frontale Porträts mit gleichmäßiger Beleuchtung funktionieren am besten.
Referenzvideoerzeugung. Erstellen Sie zunächst einen kurzen visuellen Anker aus dem Standbild mit WanVideoImageToVideoEncode (#392). CLIP-Vision-Funktionen von CLIPVisionLoader (#352) und WanVideoClipVisionEncode (#351) stabilisieren die Identität über die nächste Stufe hinweg; ein Scheduler WanVideoSchedulerv2 (#385) wird in der Sampling-Einstellung-Gruppe vorbereitet.
Audio-Lip-Sync erzeugen. WanVideoImageToVideoSkyreelsv3_audio (#383) kombiniert das Startbild, optionale Referenzframes und CLIP-Vision-Embeds in der Bildkonditionierung. WanVideoSamplerv2 (#384) entrauscht dann mit dem SkyReels A2V-Modell, während WanVideoSamplerExtraArgs (#386) die MultiTalk-Lip-Sync-Embeddings für präzise Mundformen injiziert. WanVideoPassImagesFromSamples (#381) streamt decodierte Frames zu VHS_VideoCombine (#346), wo das endgültige Video mit Ihrem Audio gemischt wird.

Video-zu-Video-Next-Shot-Generierung

Videoframes vorverarbeiten. Importieren Sie den vorherigen Shot mit VHS_LoadVideo (#443) und passen Sie ihn über ImageResizeKJv2 (#441) an. GetImageRangeFromBatch (#445) wählt einen Kontextausschnitt aus, den WanVideoEncode (#440) in Latents umwandelt; WanVideoEmptyEmbeds (#442) bereitet das Konditionierungsfenster vor.
Auto-Videoprompt. CreateVideo (#450) assembliert einen kompakten Proxyclip aus den Kontextframes, den AILab_MiniCPM_V_Advanced (#449) analysiert, um einen Next-Shot-Prompt zu entwerfen. Inspizieren oder verfeinern Sie den Entwurf in ShowText|pysssss (#447) und betten Sie ihn mit WanVideoTextEncodeCached (#444) ein, bevor Sie sampeln.
Modelle und Sampling. Laden Sie das V2V Shot-Modell mit WanVideoModelLoader (#436) und WanVideoVAELoader (#438); optionales WanVideoBlockSwap (#439) handhabt VRAM. Der WanVideoSampler (#451) generiert die Fortführung, WanVideoDecode (#437) rendert Frames und VHS_VideoCombine (#446) gibt den finalen Shot aus. Dieser SkyReels V3 ComfyUI-Pfad ist ideal für Storyboards und Previz, bei denen jeder neue Schnitt den letzten respektieren sollte.

Wichtige Knoten im Comfyui SkyReels V3 ComfyUI Workflow

WanPhantomSubjectToVideo (#249). Baut ein identitätsbewusstes Latent aus Ihren gebündelten Referenzbildern plus Text-Cues, die dann den Sampler antreiben. Passen Sie die Anzahl und Vielfalt der Referenzen an, um das Gleichgewicht zwischen Ähnlichkeitsfixierung und kreativer Bewegung zu finden; halten Sie die Resizenodes, die es speisen, konsistent, um Drift zu vermeiden. Referenz: WanVideo Wrapper auf GitHub enthält Implementierungsnotizen und erwartete Eingaben ComfyUI-WanVideoWrapper.
WanVideoImageToVideoEncode (#392). Codiert ein Standbild in einen stabilen Shot-Samen und mischt optional CLIP-Vision-Leitlinien für Pose und Bildgestaltung. Verwenden Sie es, um Ankerframes vor der audio-gesteuerten Phase zu erstellen, damit Identität und Kameraeinstellungen über die Pipelines hinweg konsistent bleiben. Wrapper-Dokumentation: ComfyUI-WanVideoWrapper.
WanVideoImageToVideoSkyreelsv3_audio (#383). Bereitet Bild-Embeds vor, die für den A2V-Sampler maßgeschneidert sind, und fügt optionale Referenzvideoframes zusammen. Stellen Sie sicher, dass seine Breite und Höhe zum Samplerpfad passen; paaren Sie es mit WanVideoSamplerv2 und MultiTalkWav2VecEmbeds für präzisen Lip-Sync.
WanVideoSamplerv2 (#384, #387). Der Hauptentrauscher für SkyReels V3, der Bild- und Textembeds sowie Scheduler-Einstellungen akzeptiert. Die WanVideoSamplerExtraArgs-Knoten (#386, #409) sind, wo Lip-Sync-, Loop- oder Kontextmerkmale injiziert werden; halten Sie diese verbunden, wenn Sie zwischen A2V- und I2V-Modellen wechseln. Implementierungsdetails: ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds (#350). Wandelt Sprache in zeitlich ausgerichtete Embeddings um, die die Mundbewegung steuern. Das Anpassen des vorgesehenen Frame-Budgets und das Sicherstellen sauberer Vokale verbessert die Phonemgenauigkeit erheblich. Wav2Vec-Referenzmodell: TencentGameMate/chinese-wav2vec2-base.
AILab_MiniCPM_V_Advanced (#449). Analysiert den vorherigen Shot und entwirft ein strukturiertes Prompt für Charakter, Hintergrund, Aktion, Stimmung und Beleuchtung. Verwenden Sie dies, um narrative Kontinuität zu bewahren, wenn Sie den V2V Next-Shot-Pfad verwenden; der resultierende Text fließt in WanVideoTextEncodeCached. Modellfamilie: OpenBMB/MiniCPM-V.

Optionale Extras

Halten Sie Bild-, Video- und Samplerauflösungen über verbundene Knoten hinweg konsistent, um Aspektverzerrungen und Identitätsflimmern zu vermeiden.
Für längere Erweiterungen erhöhen Sie die Fensterüberlappung in der V2V-Erweiterungsschleife, um Übergänge zwischen Segmenten zu glätten.
Wenn der GPU-Speicher knapp ist, lassen Sie die Reserved VRAM-Knoten (ReservedVRAMSetter (#312, #448)) aktiviert und verwenden Sie die Kompilierungseinstellungsblöcke vor dem Sampling.
Wenn sprechende Avatare aus dem Takt geraten, priorisieren Sie saubere Sprache oder trennen Sie Vokale mit MelBandRoFormer, bevor Sie MultiTalk-Embeddings erstellen.
Die endgültigen Lieferungseinstellungen wie Bildrate, Pix-Format und CRF werden in den VHS_VideoCombine-Ausgabeknoten gesteuert; passen Sie die Bildrate an Ihre Quelle an, um nahtlose Bearbeitungen zu erzielen.

Dieses README deckt das vollständige SkyReels V3 ComfyUI-Graph ab, sodass Sie den Pfad wählen können, der zu Ihrem Projekt passt, sie bei Bedarf kombinieren und konsistente, storybereite Videos mit minimalem Aufwand rendern können.

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken @Benji's AI Playground und SkyReels für den SkyReels V3 ComfyUI-Workflow für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die unten verlinkte Originaldokumentation und -repositories.

Ressourcen

SkyReels/V3 ComfyUI Quelle
- Docs / Release Notes: SkyReels V3 ComfyUI Source from @Benji’s AI Playground

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

SkyReels V3 ComfyUI | KI-Video-Generator

SkyReels V3 ComfyUI: identitätsgetreue Bild-, Video- und Audio-zu-Video-Erstellung

Schlüsselmodelle im Comfyui SkyReels V3 ComfyUI Workflow

Verwendung des Comfyui SkyReels V3 ComfyUI Workflows

Bild-zu-Video-Charakteranimation

Video-zu-Video-Erweiterungsschleife

Audio-zu-Video-sprechender Avatar

Video-zu-Video-Next-Shot-Generierung

Wichtige Knoten im Comfyui SkyReels V3 ComfyUI Workflow

Optionale Extras

Danksagungen

Ressourcen

Want More ComfyUI Workflows?

SkyReels V1 | Human-Focused Videoerstellung

SkyReels-A2 | Multi-Element Videoerstellung

LatentSync| Lip Sync Modell

Sonic | Lip-Sync Portrait-Animation

Konsistente & Realistische Charaktere

Qwen Image 2512 | Präzisions-AI-Bilderzeuger

Wan 2.2 Bildgenerierung | 2-in-1 Workflow-Paket

FramePack Wrapper | Effiziente lange Videogenerierung