logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflows>Wan 2.2 Animate V2 | Realistischer Pose-Video-Generator

Wan 2.2 Animate V2 | Realistischer Pose-Video-Generator

Workflow Name: RunComfy/Wan-2-2-Animate-V2
Workflow ID: 0000...1300
Dieser verbesserte Workflow ermöglicht es Ihnen, Referenzbilder und Posen-Videos in realistische Ganzkörperanimationen zu verwandeln. Mit verbessertem Realismus und Bewegungsflüssigkeit erfasst er präzise Ausdrücke und Körperdynamiken. Verbesserte zeitliche Konsistenz sorgt jedes Mal für filmreife Ergebnisse. Ideal für Animatoren, Geschichtenerzähler und Content-Ersteller, die natürliche Bewegung suchen. Sie können Tanzszenen, Performance-Renderings oder realistische Charakterclips effizient erstellen. Erleben Sie sanftere Bewegungssteuerung und höhere Treueausgaben als je zuvor.

Wan 2.2 Animate V2 posengesteuerter Videoerzeugungs-Workflow für ComfyUI

Wan 2.2 Animate V2 ist ein posengesteuerter Videoerzeugungs-Workflow, der ein einzelnes Referenzbild plus ein treibendes Posen-Video in eine lebensechte, identitätsbewahrende Animation verwandelt. Es baut auf der ersten Version auf mit höherer Treue, sanfterer Bewegung und besserer zeitlicher Konsistenz, während es eng den Ganzkörperbewegungen und Ausdrücken aus dem Quellvideo folgt.

Dieser ComfyUI-Workflow ist für Ersteller gedacht, die schnelle, zuverlässige Ergebnisse für Charakteranimation, Tanzclips und performance-gesteuertes Geschichtenerzählen wünschen. Es kombiniert robuste Vorverarbeitung (Pose, Gesicht und Subjektmaskierung) mit der Wan 2.2 Modellfamilie und optionalen LoRAs, sodass Sie Stil, Beleuchtung und Hintergrundbehandlung mit Zuversicht einstellen können.

Schlüsselmodelle im ComfyUI Wan 2.2 Animate V2 Workflow

  • Wan 2.2 Animate 14B. Kern-Videodiffusionsmodell, das zeitlich konsistente Frames aus multimodalen Einbettungen synthetisiert. Gewichte: Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate).
  • Wan 2.1 VAE. Latenter Video-Decoder/Encoder, der von der Wan-Familie verwendet wird, um RGB-Frames mit minimalem Verlust zu rekonstruieren. Gewichte: Wan2_1_VAE_bf16.safetensors.
  • UMT5‑XXL Text-Encoder. Kodiert Eingabeaufforderungen, die Aussehen, Szene und Kinematik leiten. Gewichte: umt5‑xxl‑enc‑bf16.safetensors.
  • CLIP Vision (ViT‑H/14). Extrahiert identitätsbewahrende Merkmale aus dem Referenzbild. Paper: CLIP.
  • ViTPose Ganzkörper (ONNX). Schätzt dichte Körper-Schlüsselstellen, die Bewegungsübertragung antreiben. Modelle: ViTPose‑L WholeBody und ViTPose‑H WholeBody. Paper: ViTPose.
  • YOLOv10-Detektor. Liefert Personenboxen zur Stabilisierung von Pose-Erkennung und Segmentierung. Beispiel: yolov10m.onnx.
  • Segment Anything 2. Hochwertige Subjektmasken zur Hintergrundbewahrung, Komposition oder Relighting-Vorschau. Repo: facebookresearch/segment-anything-2.
  • Optionale LoRAs für Stil und Lichttransport. Nützlich für Relighting und Texturdetails in Wan 2.2 Animate V2 Ausgaben. Beispiele: Lightx2v und Wan22_relight.

Verwendung des ComfyUI Wan 2.2 Animate V2 Workflows

Auf hoher Ebene extrahiert die Pipeline Posen- und Gesichtshinweise aus dem treibenden Video, kodiert die Identität aus einem einzigen Referenzbild, isoliert optional das Subjekt mit einer SAM 2 Maske und synthetisiert dann ein Video, das die Bewegung widerspiegelt und die Identität bewahrt. Der Workflow ist in vier Gruppen organisiert, die zusammenarbeiten, um das Endergebnis zu produzieren, und zwei Komfortausgaben für schnelle QA (Pose- und Maskenvorschauen).

Referenzbild

Diese Gruppe lädt Ihr Porträt- oder Ganzkörperbild, passt es an die Zielauflösung an und macht es im gesamten Graphen verfügbar. Das angepasste Bild wird gespeichert und von Get_reference_image und zur schnellen Beurteilung des Rahmens vorab angezeigt. Identitätsmerkmale werden von WanVideoClipVisionEncode (CLIP Vision) (#70) kodiert, und dasselbe Bild speist WanVideoAnimateEmbeds (#62) als ref_images für stärkere Identitätsbewahrung. Stellen Sie eine klare, gut beleuchtete Referenz bereit, die dem Subjekttyp im Treibervideo entspricht, um die besten Ergebnisse zu erzielen. Kopffreiheit und minimale Verdeckungen helfen Wan 2.2 Animate V2, sich auf Gesichtsstruktur und Kleidung festzulegen.

Vorverarbeitung

Das Treibervideo wird mit VHS_LoadVideo (#191) geladen, das Frames, Audio, Frame-Anzahl und Quell-FPS für die spätere Verwendung offenlegt. Pose- und Gesichtshinweise werden von OnnxDetectionModelLoader (#178) und PoseAndFaceDetection (#172) extrahiert und dann mit DrawViTPose (#173) visualisiert, sodass Sie die Tracking-Qualität bestätigen können. Die Subjektisolierung wird von Sam2Segmentation (#104) behandelt, gefolgt von GrowMaskWithBlur (#182) und BlockifyMask (#108), um eine saubere, stabile Maske zu erzeugen; ein Helfer DrawMaskOnImage (#99) zeigt die Matte vorab an. Die Gruppe standardisiert auch Breite, Höhe und Frame-Anzahl des Treibervideos, sodass Wan 2.2 Animate V2 räumliche und zeitliche Einstellungen ohne Rätselraten anpassen kann. Schnelle Prüfungen werden als kurze Videos exportiert: eine Pose-Überlagerung und eine Maskenvorschau für Zero-Shot-Validierung.

Modelle

WanVideoVAELoader (#38) lädt das Wan VAE und WanVideoModelLoader (#22) lädt das Wan 2.2 Animate Rückgrat. Optionale LoRAs werden in WanVideoLoraSelectMulti (#171) ausgewählt und über WanVideoSetLoRAs (#48) angewendet; WanVideoBlockSwap (#51) kann über WanVideoSetBlockSwap (#50) aktiviert werden, um architektonische Anpassungen vorzunehmen, die Stil und Treue beeinflussen. Eingabeaufforderungen werden von WanVideoTextEncodeCached (#65) kodiert, während WanVideoClipVisionEncode (#70) das Referenzbild in robuste Identitätseinbettungen verwandelt. WanVideoAnimateEmbeds (#62) fusioniert die CLIP-Merkmale, Referenzbild, Posenbilder, Gesichtsausschnitte, optionale Hintergrundframes, die SAM 2 Maske und die gewählte Auflösung und Frame-Anzahl in eine einzige Animationseinbettung. Dieser Feed treibt WanVideoSampler (#27) an, der latentes Video konsistent mit Ihrer Eingabeaufforderung, Identität und Bewegungshinweisen synthetisiert, und WanVideoDecode (#28) konvertiert Latenten zurück in RGB-Frames.

Ergebnis-Collage

Um Ausgaben zu vergleichen, stellt der Workflow eine einfache Nebeneinander-Collage zusammen: das generierte Video neben einem vertikalen Streifen, der das Referenzbild, Gesichtsausschnitte, Pose-Überlagerung und einen Frame aus dem Treibervideo zeigt. ImageConcatMulti (#77, #66) baut die visuelle Collage, dann rendert VHS_VideoCombine (#30) ein „Vergleichen“-mp4. Die endgültige saubere Ausgabe wird von VHS_VideoCombine (#189) gerendert, das auch Audio vom Treiber für schnelle Überprüfungsschnitte übernimmt. Diese Exporte erleichtern die Beurteilung, wie gut Wan 2.2 Animate V2 Bewegung gefolgt ist, Identität bewahrt hat und den beabsichtigten Hintergrund beibehalten hat.

Schlüssel-Knoten im ComfyUI Wan 2.2 Animate V2 Workflow

VHS_LoadVideo (#191)
Lädt das treibende Video und legt Frames, Audio und Metadaten frei, die über den Graphen verwendet werden. Halten Sie das Subjekt vollständig sichtbar mit minimalem Bewegungsunschärfe für stärkeres Schlüsselpunkt-Tracking. Wenn Sie kürzere Tests möchten, begrenzen Sie die Anzahl der geladenen Frames; halten Sie die Quell-FPS downstream konsistent, um Audio-Desynchronisation im endgültigen Kombinieren zu vermeiden.

PoseAndFaceDetection (#172)
Führt YOLO und ViTPose aus, um Ganzkörper-Schlüsselstellen und Gesichtsausschnitte zu erzeugen, die direkt die Bewegungsübertragung leiten. Füttern Sie es mit den Bildern aus dem Loader und der standardisierten Breite und Höhe; der optionale retarget_image Eingang erlaubt es, Posen bei Bedarf an eine andere Rahmung anzupassen. Wenn die Pose-Überlagerung verrauscht aussieht, erwägen Sie ein höherwertiges ViTPose-Modell und stellen Sie sicher, dass das Subjekt nicht stark verdeckt ist. Referenz: ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104)
Erzeugt eine Subjektmaske, die den Hintergrund bewahren oder Relighting in Wan 2.2 Animate V2 lokalisieren kann. Sie können die erkannten Begrenzungsrahmen von PoseAndFaceDetection verwenden oder bei Bedarf schnelle positive Punkte zeichnen, um die Matte zu verfeinern. Kombinieren Sie es mit GrowMaskWithBlur für sauberere Kanten bei schneller Bewegung und überprüfen Sie das Ergebnis mit dem Maskenvorschau-Export. Referenz: Segment Anything 2.

WanVideoClipVisionEncode (#70)
Kodiert das Referenzbild mit CLIP Vision, um Identitätshinweise wie Gesichtsstruktur, Haare und Kleidung zu erfassen. Sie können mehrere Referenzbilder mitteln, um die Identität zu stabilisieren, oder ein negatives Bild verwenden, um unerwünschte Merkmale zu unterdrücken. Zentrische Ausschnitte mit konsistenter Beleuchtung helfen, stärkere Einbettungen zu produzieren.

WanVideoAnimateEmbeds (#62)
Fusioniert Identitätsmerkmale, Posenbilder, Gesichtsausschnitte, optionale Hintergrundframes und die SAM 2 Maske in eine einzige Animationseinbettung. Richten Sie width, height und num_frames mit Ihrem Treibervideo aus, um weniger Artefakte zu erhalten. Wenn Sie Hintergrunddrift sehen, stellen Sie saubere Hintergrundbilder und eine solide Maske bereit; wenn das Gesicht driftet, stellen Sie sicher, dass Gesichtsausschnitte vorhanden und gut beleuchtet sind.

WanVideoSampler (#27)
Erzeugt die eigentlichen Video-Latenten, die durch Ihre Eingabeaufforderung, LoRAs und die Animationseinbettung geleitet werden. Für lange Clips wählen Sie zwischen einer Schiebefenster-Strategie oder den Kontextoptionen des Modells; passen Sie das Fenster an die Clip-Länge an, um Bewegungsschärfe und langfristige Konsistenz auszubalancieren. Passen Sie den Scheduler und die Führungskraft an, um Treue, Stil-Adhärenz und Bewegungsflüssigkeit abzuwägen, und erwägen Sie, den Block-Swap zu aktivieren, wenn Ihr LoRA-Stack davon profitiert.

Optionale Extras

  • Beginnen Sie mit einem sauberen Treiberclip: Eine ruhige Kamera, einfaches Licht und minimale Verdeckung geben Wan 2.2 Animate V2 die besten Chancen, die Bewegung sauber zu verfolgen.
  • Verwenden Sie eine Referenz, die dem Ziel-Outfit und der Rahmung entspricht; vermeiden Sie extreme Winkel oder schwere Filter, die mit Ihrer Eingabeaufforderung oder LoRAs im Konflikt stehen.
  • Bewahren oder ersetzen Sie Hintergründe mit der SAM 2 Maske; halten Sie beim Zusammenstellen die Kanten weich genug, um Haloing bei schneller Bewegung zu vermeiden.
  • Halten Sie die FPS von der Ladung bis zum Export konsistent, um die Lippen-Synchronisation und Beat-Ausrichtung beim Übertragen des Audios aufrechtzuerhalten.
  • Für schnelle Iterationen testen Sie zuerst ein kurzes Segment, dann erweitern Sie den Frame-Bereich, sobald Pose, Identität und Beleuchtung richtig aussehen.

Nützliche Ressourcen, die in diesem Workflow verwendet werden:

  • Vorverarbeitungs-Knoten: kijai/ComfyUI‑WanAnimatePreprocess
  • ViTPose ONNX-Modelle: ViTPose‑L, ViTPose‑H Modell und Daten
  • YOLOv10-Detektor: yolov10m.onnx
  • Wan 2.2 Animate 14B Gewichte: Wan22Animate
  • LoRAs: Lightx2v, Wan22_relight

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Benji’s AI Playground's Workflow und dem Wan-Team für das Wan 2.2 Animate V2 Modell für ihre Beiträge und Wartung. Für autoritative Details beachten Sie bitte die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen

  • Wan-Team/Wan 2.2 Animate V2
    • Dokumente / Versionshinweise: YouTube @Benji’s AI Playground

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Betreuer.

Want More ComfyUI Workflows?

Wan 2.2 | Open-Source Video Gen Leader

Jetzt verfügbar! Bessere Präzision + flüssigere Bewegungen.

Wan 2.2 FLF2V | First-Last Frame Video Generation

Erzeuge flüssige Videos aus einem Start- und Endbild mit Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Ultra Schnelle I2V & T2V

Dual Light LoRA Setup, 4X schneller.

Wan 2.2 Lightning T2V I2V | 4-Schritt Ultra Schnell

Wan 2.2 jetzt 20x schneller! T2V + I2V in 4 Schritten.

Wan2.2 Animate | Foto zu realistischem Bewegungs-Video

Verwandeln Sie Bilder in lebensechte, bewegte Charaktere mit natürlicher Körper- und Gesichtsbewegung.

Wan 2.1 FLF2V | First-Last Frame Video

Erzeugen Sie glatte Videos aus einem Start- und Endbild mit Wan 2.1 FLF2V.

ComfyUI Img2Vid | Morphende Animation

Morphende Animation mit AnimateDiff LCM, IPAdapter, QRCode ControlNet und benutzerdefinierten Maskenmodulen.

AnimateDiff + ControlNet + AutoMask | Comic-Stil

Müheloses Umstyling von Videos, bei dem realistische Charaktere in Anime umgewandelt werden, während die ursprünglichen Hintergründe erhalten bleiben.

Folge uns
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • E-Mail
  • Systemstatus
  • Partner
Ressourcen
  • Kostenloses ComfyUI Online
  • ComfyUI Anleitungen
  • RunComfy API
  • ComfyUI Tutorials
  • ComfyUI Nodes
  • Erfahre mehr
Rechtliches
  • Nutzungsbedingungen
  • Datenschutzrichtlinie
  • Cookie-Richtlinie
RunComfy
Urheberrecht 2025 RunComfy. Alle Rechte vorbehalten.

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.