ComfyUI>Workflows>Video-Charakterersetzung (MoCha) | Realistisches Tauschwerkzeug

Video-Charakterersetzung (MoCha) | Realistisches Tauschwerkzeug

Workflow Name: RunComfy/Video-Character-Replacement-MoCha

Workflow ID: 0000...1304

Mit diesem Workflow können Sie bestehende Videos transformieren, indem Sie Schauspieler oder Charaktere ersetzen und dabei natürliche Bewegung, Beleuchtung und Kameraperspektive beibehalten. Entwickelt für Kreative, die cineastischen Realismus benötigen, unterstützt er detailliertes Erscheinungsbildmapping und konsistente Bewegungen. Sie können die Identität und den Ausdruck von Charakteren leicht an jede Szene anpassen. Ideal für Geschichtenerzähler, visuelle Künstler und Filmemacher, die nach KI-unterstützter Produktionseffizienz suchen. Der Prozess gewährleistet reiche, lebensechte Videoausgaben mit minimalem Bearbeitungsaufwand.

Video-Charakterersetzungs-Workflow (MoCha) für ComfyUI

Dieser Workflow liefert eine End‑to‑End-Video-Charakterersetzung (MoCha): Ersetzen Sie einen Darsteller in einem echten Video durch einen neuen Charakter und bewahren Sie dabei Bewegung, Beleuchtung, Kameraperspektive und Szenenkontinuität. Basierend auf der Wan 2.1 MoCha 14B Vorschau, richtet er eine Referenzidentität an der Originaldarstellung aus, dann synthetisiert er einen kohärenten, bearbeiteten Clip und einen optionalen Vergleich nebeneinander. Er ist für Filmemacher, VFX-Künstler und KI-Schöpfer konzipiert, die präzise, qualitativ hochwertige Charaktertausche mit minimalem manuellen Nachbearbeitungsbedarf benötigen.

Die Pipeline kombiniert robuste Erstbildmaskierung mit Segment Anything 2 (SAM 2), MoChas bewegungsbewussten Bild-Embeddings, WanVideo-Abtastung/Dekodierung und eine optionale Porträtassistenz, die die Gesichtstreue verbessert. Sie stellen ein Quellvideo und ein oder zwei Referenzbilder bereit; der Workflow erzeugt ein fertiges Ersatzvideo plus einen A/B-Vergleich, wodurch die iterative Bewertung der Video-Charakterersetzung (MoCha) schnell und praktisch wird.

Schlüsselmodelle im Comfyui Video-Charakterersetzungs-Workflow (MoCha)

Wan 2.1 MoCha 14B Vorschau. Kernvideo-Generator für Charakterersetzung; treibt die zeitlich kohärente Synthese aus MoCha-Bild-Embeddings und Textvorgaben an. Modellgewichte im WanVideo Comfy-Format von Kijai verteilt, einschließlich fp8-skalierter Varianten für Effizienz. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Identitäts-/Bewegungs-Konditionierungsmethode und Referenzimplementierung, die die hier verwendete Embedding-Phase inspiriert hat; nützlich für das Verständnis der Referenzauswahl und Pose-Ausrichtung für Video-Charakterersetzung (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Hochwertige, punktgeführte Segmentierung zur Isolierung des Schauspielers im ersten Bild; saubere Masken sind entscheidend für stabile, artefaktfreie Tausche. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Optionale Einzelbildunterstützung, die ein sauberes, nahes Porträt erzeugt, das als zweite Referenz verwendet wird, um die Gesichtserhaltung in schwierigen Aufnahmen zu verbessern. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. Video-VAE, das von den Wan-Abtaster-/Dekodierungsstufen für effiziente latente Verarbeitung verwendet wird. Hugging Face: Kijai/WanVideo_comfy

Verwendung des Comfyui Video-Charakterersetzungs-Workflows (MoCha)

Gesamtlogik

Der Workflow nimmt einen Quellclip, bereitet eine Erstbildmaske vor und kodiert Ihre Charakterreferenzen in MoCha-Bild-Embeddings. Wan 2.1 probiert dann die bearbeiteten Frames aus und dekodiert sie zu Video. Parallel dazu kann ein kleiner Bildbearbeitungszweig ein Porträt erzeugen, das als optionaler zweiter Bezugspunkt für Gesichtsdetaillierungen dient. Der Graph rendert auch einen Vergleich nebeneinander, um Ihr Ergebnis der Video-Charakterersetzung (MoCha) schnell zu beurteilen.

Eingangsvideo

Laden Sie ein Video in "Eingangsvideo". Der Workflow normalisiert die Frames (Standard 1280×720-Schnitt) und bewahrt die Bildrate des Clips automatisch für den finalen Export. Das erste Bild wird zur Inspektion und nachgelagerten Maskierung freigelegt. Ein Vorschaunode zeigt die Roh-Eingangsframes, sodass Sie Zuschnitt und Belichtung bestätigen können, bevor Sie fortfahren.

Erstbildmaske

Verwenden Sie den interaktiven Punkteredakteur, um positive Punkte auf dem Schauspieler und negative Punkte im Hintergrund zu klicken; SAM 2 konvertiert diese Klicks in eine präzise Maske. Ein kleiner Schritt zum Wachsen und Weichzeichnen erweitert die Maske, um gegen Kantenhalos und Bewegungen zwischen den Frames zu schützen. Die resultierende Matte wird in der Vorschau angezeigt, und dieselbe Maske wird an die MoCha-Embedding-Phase gesendet. Gute Maskierung in dieser Gruppe verbessert die Stabilität der Video-Charakterersetzung (MoCha) erheblich.

ref1

"ref1" ist Ihr Hauptcharakter-Identitätsbild. Der Workflow entfernt den Hintergrund, zentriert den Ausschnitt und passt die Größe an die Arbeitsauflösung des Videos an. Für beste Ergebnisse verwenden Sie eine Referenz mit sauberem Hintergrund, deren Pose ungefähr der des Quellakteurs im ersten Bild entspricht; der MoCha-Encoder profitiert von einem ähnlichen Blickwinkel und Beleuchtung.

ref2 (Optional)

"ref2" ist optional, aber für Gesichter empfohlen. Sie können ein Porträt direkt bereitstellen oder den Workflow eines im folgenden Abtastzweig erzeugen lassen. Das Bild wird wie ref1 hintergrundentfernt und in der Größe angepasst. Wenn vorhanden, verstärkt ref2 die Gesichtszüge, sodass die Identität während Bewegungen, Verdeckungen und Perspektivwechseln erhalten bleibt.

Schritt 1 - Modelle laden

Diese Gruppe lädt das Wan 2.1 VAE und das Wan 2.1 MoCha 14B Vorschau-Modell sowie optional ein WanVideo LoRA zur Destillation. Diese Assets treiben die Hauptvideo-Abtaststufe an. Das hier festgelegte Modell ist VRAM-intensiv; später ist ein Blocktausch-Helfer enthalten, um große Sequenzen auf bescheidenen GPUs zu passen.

Schritt 2 - Bild zum Bearbeiten hochladen

Wenn Sie ref2 aus Ihrem eigenen Standbild erstellen möchten, legen Sie es hier ab. Der Zweig skaliert das Bild und leitet es in den Qwen-Encoder zur Konditionierung. Sie können diesen gesamten Zweig überspringen, wenn Sie bereits ein gutes Gesichtsporträt haben.

Schritt 4 - Eingabeaufforderung

Geben Sie einen kurzen Texthinweis an, der das beabsichtigte Nahporträt beschreibt (zum Beispiel "Nächste Szene: Kamera-Nahaufnahme, Porträt des Charakters"). Qwen‑Image‑Edit verwendet dies, um ein sauberes Gesichtsbild zu verfeinern oder zu synthetisieren, das zu ref2 wird. Halten Sie die Beschreibung einfach; dies ist eine Unterstützung, kein vollständiger Umstil.

Szene 2 - Abtastung

Der Qwen-Zweig führt einen schnellen Abtaster aus, um ein einzelnes Porträtbild unter dem Lightning LoRA zu erzeugen. Dieses Bild wird dekodiert, in der Vorschau angezeigt und nach leichter Hintergrundentfernung als ref2 weitergeleitet. Dieser Schritt erhöht oft die Gesichtstreue, ohne Ihren Kernlook der Video-Charakterersetzung (MoCha) zu ändern.

Mocha

Die MochaEmbeds-Phase kodiert das Quellvideo, die Erstbildmaske und Ihre Referenzbilder in MoCha-Bild-Embeddings. Embeddings erfassen Identität, Textur und lokale Erscheinungsbildhinweise und respektieren dabei den ursprünglichen Bewegungsverlauf. Wenn ref2 vorhanden ist, wird es verwendet, um die Gesichtsdetaillierung zu stärken; andernfalls trägt ref1 allein die Identität.

Wan-Modell

Der Wan-Modelllader zieht die Wan 2.1 MoCha 14B Vorschau in den Speicher und wendet (optional) ein LoRA an. Ein Blocktausch-Werkzeug ist verdrahtet, sodass Sie Geschwindigkeit gegen Speicher tauschen können, wenn nötig. Diese Modellwahl bestimmt die Gesamtkapazität und Kohärenz der Video-Charakterersetzung (MoCha).

Wan-Abtastung

Der Abtaster verbraucht das Wan-Modell, MoCha-Bild-Embeddings und alle Text-Embeddings, um bearbeitete latente Frames zu erzeugen, die dann zurück in Bilder dekodiert werden. Zwei Ausgaben werden produziert: das endgültige Tauschvideo und ein Vergleich nebeneinander mit den Originalframes. Die Bildrate wird vom Lader übernommen, sodass die Bewegungsabfolge automatisch der Quelle entspricht.

Schlüsselnoten im Comfyui Video-Charakterersetzungs-Workflow (MoCha)

MochaEmbeds (#302). Kodiert den Quellclip, die Erstbildmaske und die Referenzbilder in MoCha-Bild-Embeddings, die Identität und Erscheinungsbild lenken. Bevorzugen Sie eine ref1-Pose, die dem ersten Bild entspricht, und fügen Sie ref2 für ein sauberes Gesicht hinzu, wenn Sie Drift bemerken. Wenn Kanten flimmern, vergrößern Sie die Maske leicht vor dem Einbetten, um Hintergrundleckage zu vermeiden.
Sam2Segmentation (#326). Wandelt Ihre positiven/negativen Klicks in eine Erstbildmaske um. Priorisieren Sie saubere Kanten um Haare und Schultern; fügen Sie einige negative Punkte hinzu, um nahegelegene Requisiten auszuschließen. Eine kleine Maskenerweiterung nach der Segmentierung hilft bei der Stabilität, wenn sich der Schauspieler bewegt.
WanVideoSampler (#314). Treibt die Schwerarbeit der Video-Charakterersetzung (MoCha) an, indem es Latents in Frames entrauscht. Mehr Schritte verbessern Detail und zeitliche Stabilität; weniger Schritte beschleunigen die Iteration. Halten Sie den Scheduler konsistent über Läufe hinweg, wenn Sie Änderungen an Referenzen oder Masken vergleichen.
WanVideoSetBlockSwap (#344). Wenn VRAM knapp ist, aktivieren Sie tieferen Blocktausch, um den Wan 2.1 MoCha 14B Pfad auf kleineren GPUs zu passen. Erwarten Sie einige Geschwindigkeitsverluste; im Gegenzug können Sie Auflösung und Sequenzlänge beibehalten.
VHS_VideoCombine (#355). Schreibt das endgültige MP4 und bettet Workflow-Metadaten ein. Verwenden Sie die gleiche Bildrate wie die Quelle (bereits durchgeleitet) und yuv420p-Ausgabe für breite Player-Kompatibilität.

Optionale Extras

Tipps für saubere Tausche
- Verwenden Sie ein ref1 mit einem schlichten Hintergrund und einer Pose nahe dem ersten Bild.
- Halten Sie ref2 als scharfes, frontales Gesichtsporträt, um die Identität zu stabilisieren.
- Wenn Sie Kantenhalos sehen, erweitern und weichzeichnen Sie die Erstbildmaske leicht, dann erneut einbetten.
- Schwere Szenen profitieren vom Blocktausch-Helfer; andernfalls lassen Sie ihn für Geschwindigkeit aus.
- Der Workflow rendert ein A/B-Vergleichsvideo; verwenden Sie es, um Änderungen schnell zu beurteilen.
Nützliche Referenzen
- MoCha von Orange‑3DV‑Team: GitHub, Hugging Face
- Wan 2.1 MoCha 14B (Comfy-Format): Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
- Segment Anything 2: facebookresearch/segment-anything-2
- Qwen Image Edit + Lightning LoRA: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir bedanken uns herzlich bei Benji’s AI Playground von "Video Character Replacement (MoCha)" für Video-Charakterersetzung (MoCha) für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die ursprüngliche Dokumentation und die unten verlinkten Repositories.

Ressourcen

Autoren von “Video Character Replacement (MoCha)”/Video-Charakterersetzung (MoCha)
- Docs / Release Notes @Benji’s AI Playground: YouTube video

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Konsistente Video-Stiltransformation

Verwandle deinen Videostil, indem du den restylten ersten Frame mit dem Wan 2.1 Video Restyle Workflow anwendest.

ReActor | Schneller Gesichtsaustausch

Mit ComfyUI ReActor können Sie ganz einfach die Gesichter von einem oder mehreren Charakteren in Bildern oder Videos austauschen.

ReActor | Schneller Gesichtstausch

Professionelles Gesichtstausch-Toolkit für ComfyUI, das einen natürlichen Gesichtsersatz und Verbesserungen ermöglicht.

Flux Depth und Canny

Offizielle Flux Tools - Flux Depth und Canny ControlNet Modell

Wan 2.1 Control LoRA | Tiefe und Kachel

Verbessern Sie die Wan 2.1-Videoerzeugung mit leichten Tiefen- und Kachel-LoRAs für verbesserte Struktur und Detailgenauigkeit.

Wan 2.2 Bildgenerierung | 2-in-1 Workflow-Paket

MoE Mix + Low-Only mit Upscaling. Wählen Sie eine aus.

Flux Kontext Pulid | Konsistente Charaktererzeugung

Erstellen Sie konsistente Charaktere mit FLUX Kontext und einem einzigen Gesichtsreferenzbild.

LBM Relighting | I2I

Beleuchten Sie Motive mit bildbasierten Beleuchtungseingaben mithilfe von LBM neu.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.