ComfyUI>Workflows>Wan2.1 Stand In | Konsistenter Charakter-Video-Ersteller

Wan2.1 Stand In | Konsistenter Charakter-Video-Ersteller

Workflow Name: RunComfy/Wan2.1-Stand-In

Workflow ID: 0000...1284

Dieser Workflow hilft Ihnen, charakterbasierte Videos zu erstellen, bei denen die Identität von Bild zu Bild konsistent bleibt. Mit nur einem Bild als Eingabe werden Ausgaben erzeugt, die Gesichtsmerkmale, Stil und Persönlichkeit über Sequenzen hinweg bewahren. Ideal für Animatoren, Geschichtenerzähler und Avatar-Ersteller, gewährleistet er sowohl hohe Treue als auch starke Kontinuität. Sie erzielen stabile Ergebnisse, ohne mehrere Referenzbilder zu benötigen. Es spart Zeit, reduziert Nacharbeit und verbessert die Zuverlässigkeit für umfangreiche kreative Projekte. Für praktische Anwendbarkeit konzipiert, bietet es Ihnen Kontrolle über geschichtengetriebene visuelle Inhalte mit verlässlichen Ergebnissen.

Wan2.1 Stand In: Einzelbild-, charakterkonsistente Videogenerierung für ComfyUI

Dieser Workflow verwandelt ein Referenzbild in ein kurzes Video, in dem dasselbe Gesicht und derselbe Stil über die Frames hinweg bestehen bleiben. Angetrieben von der Wan 2.1 Familie und einem speziell entwickelten Stand In LoRA, ist es für Geschichtenerzähler, Animatoren und Avatar-Ersteller gedacht, die eine stabile Identität mit minimalem Aufwand benötigen. Der Wan2.1 Stand In-Pipeline übernimmt Hintergrundbereinigung, Zuschneiden, Maskierung und Einbettung, sodass Sie sich auf Ihren Prompt und die Bewegung konzentrieren können.

Verwenden Sie den Wan2.1 Stand In Workflow, wenn Sie eine zuverlässige Identitätskontinuität aus einem einzigen Foto, schnelle Iterationen und exportfertige MP4s sowie eine optionale Nebeneinander-Vergleichsausgabe wünschen.

Wichtige Modelle im Comfyui Wan2.1 Stand In Workflow

Wan 2.1 Text-to-Video 14B. Der primäre Generator, der für zeitliche Kohärenz und Bewegung verantwortlich ist. Es unterstützt 480p und 720p Generierung und integriert sich mit LoRAs für gezielte Verhaltensweisen und Stile. Model card
Wan-VAE für Wan 2.1. Ein hocheffizientes spatio-temporales VAE, das Video-Latents kodiert und dekodiert, während es Bewegungshinweise bewahrt. Es untermauert die Bildkodierungs-/Dekodierungsphasen in diesem Workflow. Siehe die Wan 2.1 Modellressourcen und Diffusers-Integrationsnotizen zur VAE-Verwendung. Model hub • Diffusers docs
Stand In LoRA für Wan 2.1. Ein Charakterkonsistenz-Adapter, der trainiert wurde, um die Identität aus einem einzigen Bild zu sperren; in diesem Diagramm wird es beim Modellladen angewendet, um sicherzustellen, dass das Identitätssignal an der Basis fusioniert wird. Files
LightX2V Step-Distill LoRA (optional). Ein leichter Adapter, der das Führungsverhalten und die Effizienz bei Wan 2.1 14B verbessern kann. Model card
VACE Modul für Wan 2.1 (optional). Ermöglicht Bewegungs- und Bearbeitungssteuerung über video-bewusste Konditionierung. Der Workflow enthält einen Einbettungspfad, den Sie für VACE-Steuerung aktivieren können. Model hub
UMT5-XXL Text-Encoder. Bietet robuste mehrsprachige Prompt-Kodierung für Wan 2.1 Text-to-Video. Model card

Verwendung des Comfyui Wan2.1 Stand In Workflows

Auf einen Blick: Laden Sie ein sauberes, frontales Referenzbild, der Workflow bereitet eine gesichtszentrierte Maske und Komposition vor, kodiert es in ein Latent, integriert diese Identität in Wan 2.1 Bild-Einbettungen, dann werden Videoframes abgetastet und MP4 exportiert. Zwei Ausgaben werden gespeichert: das Hauptrendering und ein Nebeneinander-Vergleich.

Eingabe verarbeiten (Gruppe)

Beginnen Sie mit einem gut beleuchteten, nach vorne gerichteten Bild auf einem einfachen Hintergrund. Die Pipeline lädt Ihr Bild in LoadImage (#58), standardisiert die Größe mit ImageResizeKJv2 (#142) und erstellt eine gesichtszentrierte Maske mit MediaPipe-FaceMeshPreprocessor (#144) und BinaryPreprocessor (#151). Der Hintergrund wird in TransparentBGSession+ (#127) und ImageRemoveBackground+ (#128) entfernt, dann wird das Subjekt über eine saubere Leinwand mit ImageCompositeMasked (#108) zusammengesetzt, um Farbverlauf zu minimieren. Schließlich richten ImagePadKJ (#129) und ImageResizeKJv2 (#68) das Seitenverhältnis für die Generierung aus; der vorbereitete Frame wird über WanVideoEncode (#104) in ein Latent kodiert.

VACE Einbettungen (optionale Gruppe)

Wenn Sie Bewegungssteuerung aus einem vorhandenen Clip wünschen, laden Sie diesen mit VHS_LoadVideo (#161) und optional ein sekundäres Führungs- oder Alphavideo mit VHS_LoadVideo (#168). Die Frames durchlaufen DWPreprocessor (#163) für Pose-Hinweise und ImageResizeKJv2 (#169) für Formanpassung; ImageToMask (#171) und ImageCompositeMasked (#174) lassen Sie Steuerbilder präzise mischen. WanVideoVACEEncode (#160) verwandelt diese in VACE-Einbettungen. Dieser Pfad ist optional; lassen Sie ihn unberührt, wenn Sie nur textgesteuerte Bewegung von Wan 2.1 wünschen.

Modell, LoRAs und Text

WanVideoModelLoader (#22) lädt die Wan 2.1 14B Basis plus das Stand In LoRA, sodass die Identität von Anfang an eingebrannt ist. VRAM-freundliche Geschwindigkeitsfunktionen sind über WanVideoBlockSwap (#39) verfügbar und werden mit WanVideoSetBlockSwap (#70) angewendet. Sie können einen zusätzlichen Adapter wie LightX2V über WanVideoSetLoRAs (#79) anhängen. Prompts werden mit WanVideoTextEncodeCached (#159) kodiert, wobei UMT5-XXL für mehrsprachige Steuerung verwendet wird. Halten Sie Prompts prägnant und beschreibend; betonen Sie die Kleidung, den Winkel und die Beleuchtung des Subjekts, um die Stand In-Identität zu ergänzen.

Identitätseinbettung und Abtastung

WanVideoEmptyEmbeds (#177) stellt die Zielgestalt für Bildeinbettungen her, und WanVideoAddStandInLatent (#102) injiziert Ihr kodiertes Referenz-Latent, um die Identität über die Zeit zu tragen. Die kombinierten Bild- und Texteingebettungen werden in WanVideoSampler (#27) eingespeist, das eine latente Videosequenz mit dem konfigurierten Scheduler und den Schritten generiert. Nach der Abtastung werden die Frames mit WanVideoDecode (#28) dekodiert und in VHS_VideoCombine (#180) in eine MP4 geschrieben.

Vergleichsansicht und Export

Für sofortige QA stapelt ImageConcatMulti (#122) die generierten Frames neben der verkleinerten Referenz, sodass Sie die Ähnlichkeit Bild für Bild beurteilen können. VHS_VideoCombine (#74) speichert das als separates „Vergleichs“-MP4. Der Wan2.1 Stand In Workflow erzeugt daher ein sauberes Endvideo plus einen Nebeneinander-Check ohne zusätzlichen Aufwand.

Wichtige Knoten im Comfyui Wan2.1 Stand In Workflow

WanVideoModelLoader (#22). Lädt Wan 2.1 14B und wendet das Stand In LoRA bei der Modellinitialisierung an. Halten Sie den Stand In-Adapter hier verbunden, anstatt später im Diagramm, damit die Identität während des gesamten Denoising-Pfads durchgesetzt wird. Kombinieren Sie es mit WanVideoVAELoader (#38) für das passende Wan-VAE.
WanVideoAddStandInLatent (#102). Verschmilzt Ihr kodiertes Referenzbild-Latent mit den Bildeinbettungen. Wenn die Identität abweicht, erhöhen Sie ihren Einfluss; wenn die Bewegung zu stark eingeschränkt erscheint, verringern Sie sie leicht.
WanVideoSampler (#27). Der Hauptgenerator. Das Abstimmen von Schritten, Scheduler-Wahl und Führungsstrategie hat hier den größten Einfluss auf Detail, Bewegungsreichtum und zeitliche Stabilität. Wenn Sie Auflösung oder Länge erhöhen, ziehen Sie in Betracht, Sampler-Einstellungen anzupassen, bevor Sie etwas upstream ändern.
WanVideoSetBlockSwap (#70) mit WanVideoBlockSwap (#39). Tauscht GPU-Speicher gegen Geschwindigkeit, indem es Aufmerksamkeitsblöcke zwischen Geräten austauscht. Wenn Sie Speicherfehler feststellen, erhöhen Sie das Offloading; wenn Sie Spielraum haben, reduzieren Sie das Offloading für schnellere Iterationen.
ImageRemoveBackground+ (#128) und ImageCompositeMasked (#108). Diese stellen sicher, dass das Subjekt sauber isoliert und auf einer neutralen Leinwand platziert wird, was Farbverunreinigungen reduziert und die Stand In-Identitätsverriegelung über die Frames hinweg verbessert.
VHS_VideoCombine (#180). Steuert Kodierung, Bildrate und Dateibenennung für das Haupt-MP4-Ausgabe. Verwenden Sie es, um Ihre bevorzugte FPS und Qualitätsziel für die Lieferung festzulegen.

Optionale Extras

Verwenden Sie eine frontale, gleichmäßig beleuchtete Referenz auf einem einfachen Hintergrund für beste Ergebnisse. Kleine Drehungen oder starke Verdeckungen können die Identitätsübertragung schwächen.
Halten Sie Prompts prägnant; beschreiben Sie Kleidung, Stimmung und Beleuchtung, die zu Ihrer Referenz passen. Vermeiden Sie widersprüchliche Gesichtsdeskriptoren, die gegen das Wan2.1 Stand In-Signal kämpfen.
Wenn VRAM knapp ist, erhöhen Sie das Block-Swapping oder senken Sie zuerst die Auflösung. Wenn Sie Spielraum haben, versuchen Sie, Kompilierungsoptimierungen im Loader-Stack zu aktivieren, bevor Sie die Schritte erhöhen.
Das Stand In LoRA ist nicht standardmäßig und muss beim Modellladen verbunden sein; folgen Sie dem Muster in diesem Diagramm, um die Identität stabil zu halten. LoRA-Dateien: Stand-In
Für erweiterte Steuerung aktivieren Sie den VACE-Pfad, um Bewegungen mit einem Führungsclip zu steuern. Beginnen Sie ohne ihn, wenn Sie nur textgesteuerte Bewegungen von Wan 2.1 wünschen.

Ressourcen

Wan 2.1 14B T2V: Hugging Face
Wan 2.1 VACE: Hugging Face
Stand In LoRA: Hugging Face
LightX2V Step-Distill LoRA: Hugging Face
UMT5-XXL Encoder: Hugging Face
WanVideo Wrapper Nodes: GitHub
KJNodes Utilities für Größeneinstellung, Polsterung und Maskierung: GitHub
ControlNet Aux Prozessoren (MediaPipe Face Mesh, DWPose): GitHub

Danksagungen

Dieser Workflow implementiert und baut auf den Arbeiten und Ressourcen von ArtOfficial Labs auf. Wir danken ArtOfficial Labs und den Autoren von Wan 2.1 für ihre Beiträge und die Wartung des Wan2.1 Demos. Für autoritative Details verweisen wir auf die originale Dokumentation und die unten verlinkten Repositories.

Ressourcen

Wan 2.1/Wan2.1 Demo
- Docs / Release Notes: Wan2.1 Demo

Hinweis: Die Verwendung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

Konsistenter Charakterersteller

Erstellen Sie konsistente, hochauflösende Charakterdesigns aus mehreren Blickwinkeln mit voller Kontrolle über Emotionen, Beleuchtung und Umgebungen.

Flux Konsistente Charaktere | Eingabebild

Erstellen Sie konsistente Charaktere und stellen Sie sicher, dass sie mit Ihren Bildern einheitlich aussehen.

IPAdapter V1 FaceID Plus | Konsistente Charaktere

Nutzen Sie das IPAdapter FaceID Plus V2-Modell, um konsistente Charaktere zu erstellen.

Hunyuan Image 2.1 | Hochauflösender AI-Bildgenerator

Next-gen 2.1 Modell für klare, scharfe, ultra-klare AI-Visualisierungen in kürzester Zeit.

Uni3C Video-Referenced Kamera- & Bewegungstransfer

Extrahieren Sie Kamerabewegungen und menschliche Bewegungen aus Referenzvideos für professionelle Videogenerierung

Produkt Beleuchtungs-Video | Vid2Vid

Geben Sie ein Video und Lichtmasken ein, um ein Beleuchtungsvideo zu erstellen

VACE Wan2.1 | V2V

Transformieren Sie Videos mit einem Referenzstilbild mithilfe von VACE Wan2.1.

LBM Relighting | I2I

Beleuchten Sie Motive mit bildbasierten Beleuchtungseingaben mithilfe von LBM neu.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.