ComfyUI>Workflows>Multitalk | Realistischer Sprechender Video-Maker

Multitalk | Realistischer Sprechender Video-Maker

Workflow Name: RunComfy/Multitalk

Workflow ID: 0000...1266

Dieser Workflow generiert lippen-synchronisierte Videos aus Porträts und Audio, unterstützt sowohl Einzel- als auch Mehrsprecher-Ausgaben mit detaillierter Gesichtsmimik und Sprachsynchronisation.

ComfyUI MultiTalk: Mehrpersonen- und Einzelpersonen-Sprechvideo

Hinweis:
Dies ist die aufgerüstete Mehrpersonen-Version unseres ComfyUI MultiTalk Einzelpersonen Workflows.
Es unterstützt jetzt Mehrpersonen-Gesprächsvideoerzeugung und beinhaltet weiterhin den Einzelpersonenmodus aus unserer vorherigen Version.

Der Workflow ist ideal für soziale Inhalte, Produkterklärungen, Charakterdialoge und schnelle Previz. Er kombiniert MultiTalk Audio-Einbettungen mit Videodiffusion, sodass Lippen, Kiefer und subtile Gesichtsausdrücke der Sprache folgen. Nutzen Sie ihn als Drop-in-Pfad für sowohl Meigen MultiTalk Mehrsprecher-Szenen als auch schlanke Einzelsprecher-Clips.

Schlüsselmodelle im ComfyUI MultiTalk Workflow

Wan 2.1 Video-Diffusionsmodell

Steuert die Kern-Text- und Bild-konditionierte Videogenerierung. Es behandelt das Erscheinungsbild der Szene, Kamera und Bewegung und akzeptiert zusätzliche Anleitungen für Gesprächsdynamik.

Wav2Vec 2.0

Extrahiert robuste Sprachrepräsentationen, die MultiTalk in sprech-spezifische Einbettungen umwandelt. Referenz: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

Forschungsmethode für audiogesteuertes Mehrpersonen-Gesprächsvideo. Referenzimplementierung: MeiGen-AI/MultiTalk.

ComfyUI Wan Video Wrapper

ComfyUI-Integration, die Wan 2.1-Ladung, Encoder und den Videosampler sowie den MultiTalk Einbettungsknoten bereitstellt. Referenz: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (optional)

Text-zu-Sprache mit Stimmreferenz für die Erzeugung von sauberen Dialogspuren innerhalb des Workflows. Referenz: chenpipi0807/ComfyUI-Index-TTS.

Verwendung des ComfyUI MultiTalk Workflows

Dieser Workflow läuft von Anfang bis Ende: Sie bereiten Sprecher und Audio vor, setzen eine kurze Szenenaufforderung und rendern dann. Er unterstützt sowohl Mehrpersonen- als auch Einzelpersonen-Setups. Gruppen im Graphen halten alles organisiert; die wichtigsten werden unten beschrieben.

Eingang & Ausgang

Laden Sie Identitätsbilder für Ihre Sprecher-Gesichter und Vorschau-Masken, dann muxen Sie die endgültigen Frames mit Audio. Die LoadImage-Knoten akzeptieren Ihre Porträts, während VHS_VideoCombine die gerenderten Frames mit dem ausgewählten Audiotrack zu einem MP4 zusammenstellt. Sie können Audio mit PreviewAudio während der Einrichtung abspielen, um Pegel und Dauer zu bestätigen.

Modell

Get_WanModel, Get_WanTextEncoder und WanVideoModelLoader initialisieren Wan 2.1 zusammen mit den Text- und VAE-Komponenten. Betrachten Sie dies als Maschinenraum: Sobald geladen, kann der Videosampler Bild-, Text- und Gesprächseinbettungen akzeptieren. Sie müssen hier selten etwas ändern, außer sicherzustellen, dass die richtigen Wan-Gewichte ausgewählt sind.

Sprecher-Audio (zwei Wege)

Sie können Ihre eigenen Dialogspuren mitbringen oder sie synthetisieren:

Audio mitbringen: Verwenden Sie LoadAudio um die Zeilen jedes Sprechers zu importieren. Wenn ein Clip mit Musik oder Geräuschen gemischt ist, leiten Sie ihn durch AudioSeparation und leiten Sie die saubere Vocals-Ausgabe weiter.
Audio generieren: Verwenden Sie Speaker 1 - Text und Speaker 2 - Text mit IndexTTSNode, um Stimmen aus getippten Zeilen zu synthetisieren und optional reference_audio für den gewünschten Klangcharakter anzugeben.

MultiTalk Audio-Einbettungen

MultiTalkWav2VecEmbeds wandelt Sprache in MultiTalk Einbettungen um, die Timing- und Artikulationshinweise für jeden Sprecher erfassen. Füttern Sie es mit einem Audiostream für Einzelpersonen oder zwei Streams für Mehrpersonen-Dialoge. Wenn Ihre Szene gesichtsspezifische Zielvorgaben benötigt, stellen Sie saubere Gesichtsmasken als ref_target_masks bereit, damit jede Stimme die richtige Person steuert.

Aufforderung und Textkontext

Eine kurze Szenenaufforderung über Prompt und WanVideoTextEncodeSingle setzt die visuelle Stimmung und Umgebung. Halten Sie Aufforderungen kurz und beschreibend (Ort, Ton, Beleuchtung). Der Text-Encoder generiert semantische Anleitungen, die Wan zusammen mit Identitäts- und Gesprächssignalen verwendet.

Uni3C und Resize

Die Uni3C-Gruppe bereitet globale Kontexteinbettungen vor, die helfen, Identität, Rahmung und Komposition im Laufe der Zeit zu stabilisieren. Die Resize-Gruppe stellt sicher, dass Quellbilder und Masken auf modellfreundliche Dimensionen skaliert werden, damit der Sampler konsistente Eingaben erhält.

KSampler und Abtastverarbeitung

WanVideoSampler ist der Punkt, an dem alles zusammenkommt: Identitätsbildeinbettungen, Texteingebettungen und MultiTalk Audio-Einbettungen kombinieren sich, um die endgültigen Frames zu erzeugen. Die nachgelagerte Sampling processing-Gruppe wendet alle Nachbearbeitungsschritte an, die für Glätte und Konsistenz erforderlich sind, bevor sie an den Videokombinierer übergeben wird.

Masken für Mehrpersonen

Für Mehrpersonen-Clips zeichnen Sie eine Maske pro Gesicht im ComfyUI-Maskeneditor. Halten Sie Masken getrennt, damit sie sich nie berühren. Wenn Sie nur eine Maske und einen Audiotrack bereitstellen, verhält sich der Workflow automatisch als Einzelpersonen MultiTalk-Setup.

Schlüssel-Knoten im ComfyUI MultiTalk Workflow

`MultiTalkWav2VecEmbeds` (#79/#162)

Wandelt einen oder mehrere Dialogspuren in MultiTalk Gesprächseinbettungen um. Beginnen Sie mit einem Audioeingang für Einzelpersonen oder zwei für Mehrpersonen; fügen Sie Masken hinzu, wenn Sie eine spezifische Gesichtsführung benötigen. Passen Sie nur an, was wichtig ist: Anzahl der Frames, um die geplante Clip-Länge zu erreichen, und ob ref_target_masks für eine präzise Sprecher-zu-Gesicht-Ausrichtung bereitgestellt werden sollen.

`AudioSeparation` (#88/#160/#161)

Optionales Aufräumen für laute Eingaben. Leiten Sie Ihren lauten Clip in diesen Knoten und leiten Sie die Vocals-Ausgabe weiter. Verwenden Sie es, wenn Feldaufnahmen Hintergrundmusik oder Gespräche enthalten; überspringen Sie es, wenn Sie bereits saubere Sprachspuren haben.

`IndexTTSNode` (#163/#164)

Wandelt Speaker 1 - Text und Speaker 2 - Text in Dialogaudio um. Geben Sie ein kurzes reference_audio an, um Ton und Tempo zu klonen, und dann Textzeilen. Halten Sie Sätze kurz und natürlich für bestes Lippen-Timing in MultiTalk.

`WanVideoTextEncodeSingle` (#18)

Codiert Ihre Szenenaufforderung für Wan 2.1. Bevorzugen Sie einfache, konkrete Beschreibungen von Ort, Beleuchtung und Stil. Vermeiden Sie lange Listen; ein oder zwei Sätze reichen für den Sampler.

Danksagungen

Originalforschung: MultiTalk wird von MeiGen-AI mit Zusammenarbeit führender Forscher auf dem Gebiet entwickelt. Das Originalpapier "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" präsentiert die bahnbrechende Forschung hinter dieser Technologie. ComfyUI-Integration: Die ComfyUI-Implementierung wird von Kijai durch das ComfyUI-WanVideoWrapper-Repository bereitgestellt, wodurch diese fortschrittliche Technologie der breiteren kreativen Gemeinschaft zugänglich gemacht wird.

Basistechnologie: Basierend auf dem Wan2.1 Video-Diffusionsmodell und integriert Audiobearbeitungstechniken aus Wav2Vec, was eine Synthese von Spitzentechnologie in der KI-Forschung darstellt.

Links und Ressourcen

Originalforschung: MeiGen-AI MultiTalk Repository
Projektseite: https://meigen-ai.github.io/multi-talk/
ComfyUI-Integration: ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Hallo2 | Lip-Sync-Porträtanimation

Audiogesteuerte Lip-Synchronisation für Porträtanimationen in 4K.

Sonic | Lip-Sync Portrait-Animation

Sonic liefert fortschrittliche audiogesteuerte Lip-Sync für Porträts mit hochwertiger Animation.

IPAdapter Plus (V2) | Kleidung ändern

Verwenden Sie IPAdapter Plus für die Erstellung Ihrer Modemodelle und ändern Sie mühelos Outfits und Stile

EchoMimic | Audiogesteuerte Portraitanimationen

Erzeugen Sie realistische sprechende Köpfe und Körpergesten, die mit dem bereitgestellten Audio synchronisiert sind.

Hunyuan Image 2.1 | Hochauflösender AI-Bildgenerator

Next-gen 2.1 Modell für klare, scharfe, ultra-klare AI-Visualisierungen in kürzester Zeit.

Linear Mask Dilation | Atemberaubende Animationen

Verwandeln Sie Ihre Motive und lassen Sie sie nahtlos durch verschiedene Szenen reisen.

ACE-Step Musikgenerierung | KI-Audioerstellung

Erzeugen Sie Studioqualität-Musik 15× schneller mit bahnbrechender Diffusionstechnologie.

ComfyUI Img2Vid | Morphende Animation

Morphende Animation mit AnimateDiff LCM, IPAdapter, QRCode ControlNet und benutzerdefinierten Maskenmodulen.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.