logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflows>Video-Charakterersetzung (MoCha) | Realistisches Tauschwerkzeug

Video-Charakterersetzung (MoCha) | Realistisches Tauschwerkzeug

Workflow Name: RunComfy/Video-Character-Replacement-MoCha
Workflow ID: 0000...1304
Mit diesem Workflow können Sie bestehende Videos transformieren, indem Sie Schauspieler oder Charaktere ersetzen und dabei natürliche Bewegung, Beleuchtung und Kameraperspektive beibehalten. Entwickelt für Kreative, die cineastischen Realismus benötigen, unterstützt er detailliertes Erscheinungsbildmapping und konsistente Bewegungen. Sie können die Identität und den Ausdruck von Charakteren leicht an jede Szene anpassen. Ideal für Geschichtenerzähler, visuelle Künstler und Filmemacher, die nach KI-unterstützter Produktionseffizienz suchen. Der Prozess gewährleistet reiche, lebensechte Videoausgaben mit minimalem Bearbeitungsaufwand.

Video-Charakterersetzungs-Workflow (MoCha) für ComfyUI

Dieser Workflow liefert eine End‑to‑End-Video-Charakterersetzung (MoCha): Ersetzen Sie einen Darsteller in einem echten Video durch einen neuen Charakter und bewahren Sie dabei Bewegung, Beleuchtung, Kameraperspektive und Szenenkontinuität. Basierend auf der Wan 2.1 MoCha 14B Vorschau, richtet er eine Referenzidentität an der Originaldarstellung aus, dann synthetisiert er einen kohärenten, bearbeiteten Clip und einen optionalen Vergleich nebeneinander. Er ist für Filmemacher, VFX-Künstler und KI-Schöpfer konzipiert, die präzise, qualitativ hochwertige Charaktertausche mit minimalem manuellen Nachbearbeitungsbedarf benötigen.

Die Pipeline kombiniert robuste Erstbildmaskierung mit Segment Anything 2 (SAM 2), MoChas bewegungsbewussten Bild-Embeddings, WanVideo-Abtastung/Dekodierung und eine optionale Porträtassistenz, die die Gesichtstreue verbessert. Sie stellen ein Quellvideo und ein oder zwei Referenzbilder bereit; der Workflow erzeugt ein fertiges Ersatzvideo plus einen A/B-Vergleich, wodurch die iterative Bewertung der Video-Charakterersetzung (MoCha) schnell und praktisch wird.

Schlüsselmodelle im Comfyui Video-Charakterersetzungs-Workflow (MoCha)

  • Wan 2.1 MoCha 14B Vorschau. Kernvideo-Generator für Charakterersetzung; treibt die zeitlich kohärente Synthese aus MoCha-Bild-Embeddings und Textvorgaben an. Modellgewichte im WanVideo Comfy-Format von Kijai verteilt, einschließlich fp8-skalierter Varianten für Effizienz. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled

  • MoCha (Orange‑3DV‑Team). Identitäts-/Bewegungs-Konditionierungsmethode und Referenzimplementierung, die die hier verwendete Embedding-Phase inspiriert hat; nützlich für das Verständnis der Referenzauswahl und Pose-Ausrichtung für Video-Charakterersetzung (MoCha). GitHub, Hugging Face

  • Segment Anything 2 (SAM 2). Hochwertige, punktgeführte Segmentierung zur Isolierung des Schauspielers im ersten Bild; saubere Masken sind entscheidend für stabile, artefaktfreie Tausche. GitHub: facebookresearch/segment-anything-2

  • Qwen‑Image‑Edit 2509 + Lightning LoRA. Optionale Einzelbildunterstützung, die ein sauberes, nahes Porträt erzeugt, das als zweite Referenz verwendet wird, um die Gesichtserhaltung in schwierigen Aufnahmen zu verbessern. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

  • Wan 2.1 VAE. Video-VAE, das von den Wan-Abtaster-/Dekodierungsstufen für effiziente latente Verarbeitung verwendet wird. Hugging Face: Kijai/WanVideo_comfy

Verwendung des Comfyui Video-Charakterersetzungs-Workflows (MoCha)

Gesamtlogik

  • Der Workflow nimmt einen Quellclip, bereitet eine Erstbildmaske vor und kodiert Ihre Charakterreferenzen in MoCha-Bild-Embeddings. Wan 2.1 probiert dann die bearbeiteten Frames aus und dekodiert sie zu Video. Parallel dazu kann ein kleiner Bildbearbeitungszweig ein Porträt erzeugen, das als optionaler zweiter Bezugspunkt für Gesichtsdetaillierungen dient. Der Graph rendert auch einen Vergleich nebeneinander, um Ihr Ergebnis der Video-Charakterersetzung (MoCha) schnell zu beurteilen.

Eingangsvideo

  • Laden Sie ein Video in "Eingangsvideo". Der Workflow normalisiert die Frames (Standard 1280×720-Schnitt) und bewahrt die Bildrate des Clips automatisch für den finalen Export. Das erste Bild wird zur Inspektion und nachgelagerten Maskierung freigelegt. Ein Vorschaunode zeigt die Roh-Eingangsframes, sodass Sie Zuschnitt und Belichtung bestätigen können, bevor Sie fortfahren.

Erstbildmaske

  • Verwenden Sie den interaktiven Punkteredakteur, um positive Punkte auf dem Schauspieler und negative Punkte im Hintergrund zu klicken; SAM 2 konvertiert diese Klicks in eine präzise Maske. Ein kleiner Schritt zum Wachsen und Weichzeichnen erweitert die Maske, um gegen Kantenhalos und Bewegungen zwischen den Frames zu schützen. Die resultierende Matte wird in der Vorschau angezeigt, und dieselbe Maske wird an die MoCha-Embedding-Phase gesendet. Gute Maskierung in dieser Gruppe verbessert die Stabilität der Video-Charakterersetzung (MoCha) erheblich.

ref1

  • "ref1" ist Ihr Hauptcharakter-Identitätsbild. Der Workflow entfernt den Hintergrund, zentriert den Ausschnitt und passt die Größe an die Arbeitsauflösung des Videos an. Für beste Ergebnisse verwenden Sie eine Referenz mit sauberem Hintergrund, deren Pose ungefähr der des Quellakteurs im ersten Bild entspricht; der MoCha-Encoder profitiert von einem ähnlichen Blickwinkel und Beleuchtung.

ref2 (Optional)

  • "ref2" ist optional, aber für Gesichter empfohlen. Sie können ein Porträt direkt bereitstellen oder den Workflow eines im folgenden Abtastzweig erzeugen lassen. Das Bild wird wie ref1 hintergrundentfernt und in der Größe angepasst. Wenn vorhanden, verstärkt ref2 die Gesichtszüge, sodass die Identität während Bewegungen, Verdeckungen und Perspektivwechseln erhalten bleibt.

Schritt 1 - Modelle laden

  • Diese Gruppe lädt das Wan 2.1 VAE und das Wan 2.1 MoCha 14B Vorschau-Modell sowie optional ein WanVideo LoRA zur Destillation. Diese Assets treiben die Hauptvideo-Abtaststufe an. Das hier festgelegte Modell ist VRAM-intensiv; später ist ein Blocktausch-Helfer enthalten, um große Sequenzen auf bescheidenen GPUs zu passen.

Schritt 2 - Bild zum Bearbeiten hochladen

  • Wenn Sie ref2 aus Ihrem eigenen Standbild erstellen möchten, legen Sie es hier ab. Der Zweig skaliert das Bild und leitet es in den Qwen-Encoder zur Konditionierung. Sie können diesen gesamten Zweig überspringen, wenn Sie bereits ein gutes Gesichtsporträt haben.

Schritt 4 - Eingabeaufforderung

  • Geben Sie einen kurzen Texthinweis an, der das beabsichtigte Nahporträt beschreibt (zum Beispiel "Nächste Szene: Kamera-Nahaufnahme, Porträt des Charakters"). Qwen‑Image‑Edit verwendet dies, um ein sauberes Gesichtsbild zu verfeinern oder zu synthetisieren, das zu ref2 wird. Halten Sie die Beschreibung einfach; dies ist eine Unterstützung, kein vollständiger Umstil.

Szene 2 - Abtastung

  • Der Qwen-Zweig führt einen schnellen Abtaster aus, um ein einzelnes Porträtbild unter dem Lightning LoRA zu erzeugen. Dieses Bild wird dekodiert, in der Vorschau angezeigt und nach leichter Hintergrundentfernung als ref2 weitergeleitet. Dieser Schritt erhöht oft die Gesichtstreue, ohne Ihren Kernlook der Video-Charakterersetzung (MoCha) zu ändern.

Mocha

  • Die MochaEmbeds-Phase kodiert das Quellvideo, die Erstbildmaske und Ihre Referenzbilder in MoCha-Bild-Embeddings. Embeddings erfassen Identität, Textur und lokale Erscheinungsbildhinweise und respektieren dabei den ursprünglichen Bewegungsverlauf. Wenn ref2 vorhanden ist, wird es verwendet, um die Gesichtsdetaillierung zu stärken; andernfalls trägt ref1 allein die Identität.

Wan-Modell

  • Der Wan-Modelllader zieht die Wan 2.1 MoCha 14B Vorschau in den Speicher und wendet (optional) ein LoRA an. Ein Blocktausch-Werkzeug ist verdrahtet, sodass Sie Geschwindigkeit gegen Speicher tauschen können, wenn nötig. Diese Modellwahl bestimmt die Gesamtkapazität und Kohärenz der Video-Charakterersetzung (MoCha).

Wan-Abtastung

  • Der Abtaster verbraucht das Wan-Modell, MoCha-Bild-Embeddings und alle Text-Embeddings, um bearbeitete latente Frames zu erzeugen, die dann zurück in Bilder dekodiert werden. Zwei Ausgaben werden produziert: das endgültige Tauschvideo und ein Vergleich nebeneinander mit den Originalframes. Die Bildrate wird vom Lader übernommen, sodass die Bewegungsabfolge automatisch der Quelle entspricht.

Schlüsselnoten im Comfyui Video-Charakterersetzungs-Workflow (MoCha)

  • MochaEmbeds (#302). Kodiert den Quellclip, die Erstbildmaske und die Referenzbilder in MoCha-Bild-Embeddings, die Identität und Erscheinungsbild lenken. Bevorzugen Sie eine ref1-Pose, die dem ersten Bild entspricht, und fügen Sie ref2 für ein sauberes Gesicht hinzu, wenn Sie Drift bemerken. Wenn Kanten flimmern, vergrößern Sie die Maske leicht vor dem Einbetten, um Hintergrundleckage zu vermeiden.

  • Sam2Segmentation (#326). Wandelt Ihre positiven/negativen Klicks in eine Erstbildmaske um. Priorisieren Sie saubere Kanten um Haare und Schultern; fügen Sie einige negative Punkte hinzu, um nahegelegene Requisiten auszuschließen. Eine kleine Maskenerweiterung nach der Segmentierung hilft bei der Stabilität, wenn sich der Schauspieler bewegt.

  • WanVideoSampler (#314). Treibt die Schwerarbeit der Video-Charakterersetzung (MoCha) an, indem es Latents in Frames entrauscht. Mehr Schritte verbessern Detail und zeitliche Stabilität; weniger Schritte beschleunigen die Iteration. Halten Sie den Scheduler konsistent über Läufe hinweg, wenn Sie Änderungen an Referenzen oder Masken vergleichen.

  • WanVideoSetBlockSwap (#344). Wenn VRAM knapp ist, aktivieren Sie tieferen Blocktausch, um den Wan 2.1 MoCha 14B Pfad auf kleineren GPUs zu passen. Erwarten Sie einige Geschwindigkeitsverluste; im Gegenzug können Sie Auflösung und Sequenzlänge beibehalten.

  • VHS_VideoCombine (#355). Schreibt das endgültige MP4 und bettet Workflow-Metadaten ein. Verwenden Sie die gleiche Bildrate wie die Quelle (bereits durchgeleitet) und yuv420p-Ausgabe für breite Player-Kompatibilität.

Optionale Extras

  • Tipps für saubere Tausche

    • Verwenden Sie ein ref1 mit einem schlichten Hintergrund und einer Pose nahe dem ersten Bild.
    • Halten Sie ref2 als scharfes, frontales Gesichtsporträt, um die Identität zu stabilisieren.
    • Wenn Sie Kantenhalos sehen, erweitern und weichzeichnen Sie die Erstbildmaske leicht, dann erneut einbetten.
    • Schwere Szenen profitieren vom Blocktausch-Helfer; andernfalls lassen Sie ihn für Geschwindigkeit aus.
    • Der Workflow rendert ein A/B-Vergleichsvideo; verwenden Sie es, um Änderungen schnell zu beurteilen.
  • Nützliche Referenzen

    • MoCha von Orange‑3DV‑Team: GitHub, Hugging Face
    • Wan 2.1 MoCha 14B (Comfy-Format): Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
    • Segment Anything 2: facebookresearch/segment-anything-2
    • Qwen Image Edit + Lightning LoRA: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir bedanken uns herzlich bei Benji’s AI Playground von "Video Character Replacement (MoCha)" für Video-Charakterersetzung (MoCha) für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die ursprüngliche Dokumentation und die unten verlinkten Repositories.

Ressourcen

  • Autoren von “Video Character Replacement (MoCha)”/Video-Charakterersetzung (MoCha)
    • Docs / Release Notes @Benji’s AI Playground: YouTube video

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Konsistente Video-Stiltransformation

Verwandle deinen Videostil, indem du den restylten ersten Frame mit dem Wan 2.1 Video Restyle Workflow anwendest.

ReActor | Schneller Gesichtsaustausch

Mit ComfyUI ReActor können Sie ganz einfach die Gesichter von einem oder mehreren Charakteren in Bildern oder Videos austauschen.

ReActor | Schneller Gesichtstausch

Professionelles Gesichtstausch-Toolkit für ComfyUI, das einen natürlichen Gesichtsersatz und Verbesserungen ermöglicht.

Flux Depth und Canny

Offizielle Flux Tools - Flux Depth und Canny ControlNet Modell

Wan 2.1 Control LoRA | Tiefe und Kachel

Verbessern Sie die Wan 2.1-Videoerzeugung mit leichten Tiefen- und Kachel-LoRAs für verbesserte Struktur und Detailgenauigkeit.

Wan 2.2 Bildgenerierung | 2-in-1 Workflow-Paket

MoE Mix + Low-Only mit Upscaling. Wählen Sie eine aus.

Flux Kontext Pulid | Konsistente Charaktererzeugung

Erstellen Sie konsistente Charaktere mit FLUX Kontext und einem einzigen Gesichtsreferenzbild.

LBM Relighting | I2I

Beleuchten Sie Motive mit bildbasierten Beleuchtungseingaben mithilfe von LBM neu.

Folge uns
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • E-Mail
  • Systemstatus
  • Partner
Ressourcen
  • Kostenloses ComfyUI Online
  • ComfyUI Anleitungen
  • RunComfy API
  • ComfyUI Tutorials
  • ComfyUI Nodes
  • Erfahre mehr
Rechtliches
  • Nutzungsbedingungen
  • Datenschutzrichtlinie
  • Cookie-Richtlinie
RunComfy
Urheberrecht 2025 RunComfy. Alle Rechte vorbehalten.

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.