Dieser Workflow liefert eine End‑to‑End-Video-Charakterersetzung (MoCha): Ersetzen Sie einen Darsteller in einem echten Video durch einen neuen Charakter und bewahren Sie dabei Bewegung, Beleuchtung, Kameraperspektive und Szenenkontinuität. Basierend auf der Wan 2.1 MoCha 14B Vorschau, richtet er eine Referenzidentität an der Originaldarstellung aus, dann synthetisiert er einen kohärenten, bearbeiteten Clip und einen optionalen Vergleich nebeneinander. Er ist für Filmemacher, VFX-Künstler und KI-Schöpfer konzipiert, die präzise, qualitativ hochwertige Charaktertausche mit minimalem manuellen Nachbearbeitungsbedarf benötigen.
Die Pipeline kombiniert robuste Erstbildmaskierung mit Segment Anything 2 (SAM 2), MoChas bewegungsbewussten Bild-Embeddings, WanVideo-Abtastung/Dekodierung und eine optionale Porträtassistenz, die die Gesichtstreue verbessert. Sie stellen ein Quellvideo und ein oder zwei Referenzbilder bereit; der Workflow erzeugt ein fertiges Ersatzvideo plus einen A/B-Vergleich, wodurch die iterative Bewertung der Video-Charakterersetzung (MoCha) schnell und praktisch wird.
Wan 2.1 MoCha 14B Vorschau. Kernvideo-Generator für Charakterersetzung; treibt die zeitlich kohärente Synthese aus MoCha-Bild-Embeddings und Textvorgaben an. Modellgewichte im WanVideo Comfy-Format von Kijai verteilt, einschließlich fp8-skalierter Varianten für Effizienz. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Identitäts-/Bewegungs-Konditionierungsmethode und Referenzimplementierung, die die hier verwendete Embedding-Phase inspiriert hat; nützlich für das Verständnis der Referenzauswahl und Pose-Ausrichtung für Video-Charakterersetzung (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Hochwertige, punktgeführte Segmentierung zur Isolierung des Schauspielers im ersten Bild; saubere Masken sind entscheidend für stabile, artefaktfreie Tausche. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Optionale Einzelbildunterstützung, die ein sauberes, nahes Porträt erzeugt, das als zweite Referenz verwendet wird, um die Gesichtserhaltung in schwierigen Aufnahmen zu verbessern. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. Video-VAE, das von den Wan-Abtaster-/Dekodierungsstufen für effiziente latente Verarbeitung verwendet wird. Hugging Face: Kijai/WanVideo_comfy
Gesamtlogik
Eingangsvideo
Erstbildmaske
ref1
ref2 (Optional)
Schritt 1 - Modelle laden
Schritt 2 - Bild zum Bearbeiten hochladen
Schritt 4 - Eingabeaufforderung
Szene 2 - Abtastung
Mocha
MochaEmbeds-Phase kodiert das Quellvideo, die Erstbildmaske und Ihre Referenzbilder in MoCha-Bild-Embeddings. Embeddings erfassen Identität, Textur und lokale Erscheinungsbildhinweise und respektieren dabei den ursprünglichen Bewegungsverlauf. Wenn ref2 vorhanden ist, wird es verwendet, um die Gesichtsdetaillierung zu stärken; andernfalls trägt ref1 allein die Identität.Wan-Modell
Wan-Abtastung
MochaEmbeds (#302). Kodiert den Quellclip, die Erstbildmaske und die Referenzbilder in MoCha-Bild-Embeddings, die Identität und Erscheinungsbild lenken. Bevorzugen Sie eine ref1-Pose, die dem ersten Bild entspricht, und fügen Sie ref2 für ein sauberes Gesicht hinzu, wenn Sie Drift bemerken. Wenn Kanten flimmern, vergrößern Sie die Maske leicht vor dem Einbetten, um Hintergrundleckage zu vermeiden.
Sam2Segmentation (#326). Wandelt Ihre positiven/negativen Klicks in eine Erstbildmaske um. Priorisieren Sie saubere Kanten um Haare und Schultern; fügen Sie einige negative Punkte hinzu, um nahegelegene Requisiten auszuschließen. Eine kleine Maskenerweiterung nach der Segmentierung hilft bei der Stabilität, wenn sich der Schauspieler bewegt.
WanVideoSampler (#314). Treibt die Schwerarbeit der Video-Charakterersetzung (MoCha) an, indem es Latents in Frames entrauscht. Mehr Schritte verbessern Detail und zeitliche Stabilität; weniger Schritte beschleunigen die Iteration. Halten Sie den Scheduler konsistent über Läufe hinweg, wenn Sie Änderungen an Referenzen oder Masken vergleichen.
WanVideoSetBlockSwap (#344). Wenn VRAM knapp ist, aktivieren Sie tieferen Blocktausch, um den Wan 2.1 MoCha 14B Pfad auf kleineren GPUs zu passen. Erwarten Sie einige Geschwindigkeitsverluste; im Gegenzug können Sie Auflösung und Sequenzlänge beibehalten.
VHS_VideoCombine (#355). Schreibt das endgültige MP4 und bettet Workflow-Metadaten ein. Verwenden Sie die gleiche Bildrate wie die Quelle (bereits durchgeleitet) und yuv420p-Ausgabe für breite Player-Kompatibilität.
Tipps für saubere Tausche
Nützliche Referenzen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir bedanken uns herzlich bei Benji’s AI Playground von "Video Character Replacement (MoCha)" für Video-Charakterersetzung (MoCha) für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die ursprüngliche Dokumentation und die unten verlinkten Repositories.
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.
RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.