Hinweis:
Dies ist die aufgerüstete Mehrpersonen-Version unseres ComfyUI MultiTalk Workflows.
Es unterstützt jetzt Mehrpersonen-Gesprächsvideoerzeugung und beinhaltet weiterhin den Einzelpersonenmodus aus unserer vorherigen Version.
Der Workflow ist ideal für soziale Inhalte, Produkterklärungen, Charakterdialoge und schnelle Previz. Er kombiniert MultiTalk Audio-Einbettungen mit Videodiffusion, sodass Lippen, Kiefer und subtile Gesichtsausdrücke der Sprache folgen. Nutzen Sie ihn als Drop-in-Pfad für sowohl Meigen MultiTalk Mehrsprecher-Szenen als auch schlanke Einzelsprecher-Clips.
Wan 2.1 Video-Diffusionsmodell
Steuert die Kern-Text- und Bild-konditionierte Videogenerierung. Es behandelt das Erscheinungsbild der Szene, Kamera und Bewegung und akzeptiert zusätzliche Anleitungen für Gesprächsdynamik.
Wav2Vec 2.0
Extrahiert robuste Sprachrepräsentationen, die MultiTalk in sprech-spezifische Einbettungen umwandelt. Referenz: .
MultiTalk (MeiGen-AI)
Forschungsmethode für audiogesteuertes Mehrpersonen-Gesprächsvideo. Referenzimplementierung: .
ComfyUI Wan Video Wrapper
ComfyUI-Integration, die Wan 2.1-Ladung, Encoder und den Videosampler sowie den MultiTalk Einbettungsknoten bereitstellt. Referenz: .
Index-TTS (optional)
Text-zu-Sprache mit Stimmreferenz für die Erzeugung von sauberen Dialogspuren innerhalb des Workflows. Referenz: .
Dieser Workflow läuft von Anfang bis Ende: Sie bereiten Sprecher und Audio vor, setzen eine kurze Szenenaufforderung und rendern dann. Er unterstützt sowohl Mehrpersonen- als auch Einzelpersonen-Setups. Gruppen im Graphen halten alles organisiert; die wichtigsten werden unten beschrieben.
Laden Sie Identitätsbilder für Ihre Sprecher-Gesichter und Vorschau-Masken, dann muxen Sie die endgültigen Frames mit Audio. Die LoadImage
-Knoten akzeptieren Ihre Porträts, während VHS_VideoCombine
die gerenderten Frames mit dem ausgewählten Audiotrack zu einem MP4 zusammenstellt. Sie können Audio mit PreviewAudio
während der Einrichtung abspielen, um Pegel und Dauer zu bestätigen.
Get_WanModel
, Get_WanTextEncoder
und WanVideoModelLoader
initialisieren Wan 2.1 zusammen mit den Text- und VAE-Komponenten. Betrachten Sie dies als Maschinenraum: Sobald geladen, kann der Videosampler Bild-, Text- und Gesprächseinbettungen akzeptieren. Sie müssen hier selten etwas ändern, außer sicherzustellen, dass die richtigen Wan-Gewichte ausgewählt sind.
Sie können Ihre eigenen Dialogspuren mitbringen oder sie synthetisieren:
LoadAudio
um die Zeilen jedes Sprechers zu importieren. Wenn ein Clip mit Musik oder Geräuschen gemischt ist, leiten Sie ihn durch AudioSeparation
und leiten Sie die saubere Vocals
-Ausgabe weiter.Speaker 1 - Text
und Speaker 2 - Text
mit IndexTTSNode
, um Stimmen aus getippten Zeilen zu synthetisieren und optional reference_audio
für den gewünschten Klangcharakter anzugeben.MultiTalkWav2VecEmbeds
wandelt Sprache in MultiTalk Einbettungen um, die Timing- und Artikulationshinweise für jeden Sprecher erfassen. Füttern Sie es mit einem Audiostream für Einzelpersonen oder zwei Streams für Mehrpersonen-Dialoge. Wenn Ihre Szene gesichtsspezifische Zielvorgaben benötigt, stellen Sie saubere Gesichtsmasken als ref_target_masks
bereit, damit jede Stimme die richtige Person steuert.
Eine kurze Szenenaufforderung über Prompt
und WanVideoTextEncodeSingle
setzt die visuelle Stimmung und Umgebung. Halten Sie Aufforderungen kurz und beschreibend (Ort, Ton, Beleuchtung). Der Text-Encoder generiert semantische Anleitungen, die Wan zusammen mit Identitäts- und Gesprächssignalen verwendet.
Die Uni3C-Gruppe bereitet globale Kontexteinbettungen vor, die helfen, Identität, Rahmung und Komposition im Laufe der Zeit zu stabilisieren. Die Resize-Gruppe stellt sicher, dass Quellbilder und Masken auf modellfreundliche Dimensionen skaliert werden, damit der Sampler konsistente Eingaben erhält.
WanVideoSampler
ist der Punkt, an dem alles zusammenkommt: Identitätsbildeinbettungen, Texteingebettungen und MultiTalk Audio-Einbettungen kombinieren sich, um die endgültigen Frames zu erzeugen. Die nachgelagerte Sampling processing-Gruppe wendet alle Nachbearbeitungsschritte an, die für Glätte und Konsistenz erforderlich sind, bevor sie an den Videokombinierer übergeben wird.
Für Mehrpersonen-Clips zeichnen Sie eine Maske pro Gesicht im ComfyUI-Maskeneditor. Halten Sie Masken getrennt, damit sie sich nie berühren. Wenn Sie nur eine Maske und einen Audiotrack bereitstellen, verhält sich der Workflow automatisch als Einzelpersonen MultiTalk-Setup.
MultiTalkWav2VecEmbeds
(#79/#162)Wandelt einen oder mehrere Dialogspuren in MultiTalk Gesprächseinbettungen um. Beginnen Sie mit einem Audioeingang für Einzelpersonen oder zwei für Mehrpersonen; fügen Sie Masken hinzu, wenn Sie eine spezifische Gesichtsführung benötigen. Passen Sie nur an, was wichtig ist: Anzahl der Frames, um die geplante Clip-Länge zu erreichen, und ob ref_target_masks
für eine präzise Sprecher-zu-Gesicht-Ausrichtung bereitgestellt werden sollen.
AudioSeparation
(#88/#160/#161)Optionales Aufräumen für laute Eingaben. Leiten Sie Ihren lauten Clip in diesen Knoten und leiten Sie die Vocals
-Ausgabe weiter. Verwenden Sie es, wenn Feldaufnahmen Hintergrundmusik oder Gespräche enthalten; überspringen Sie es, wenn Sie bereits saubere Sprachspuren haben.
IndexTTSNode
(#163/#164)Wandelt Speaker 1 - Text
und Speaker 2 - Text
in Dialogaudio um. Geben Sie ein kurzes reference_audio
an, um Ton und Tempo zu klonen, und dann Textzeilen. Halten Sie Sätze kurz und natürlich für bestes Lippen-Timing in MultiTalk.
WanVideoTextEncodeSingle
(#18)Codiert Ihre Szenenaufforderung für Wan 2.1. Bevorzugen Sie einfache, konkrete Beschreibungen von Ort, Beleuchtung und Stil. Vermeiden Sie lange Listen; ein oder zwei Sätze reichen für den Sampler.
Originalforschung: MultiTalk wird von MeiGen-AI mit Zusammenarbeit führender Forscher auf dem Gebiet entwickelt. Das Originalpapier "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" präsentiert die bahnbrechende Forschung hinter dieser Technologie. ComfyUI-Integration: Die ComfyUI-Implementierung wird von Kijai durch das ComfyUI-WanVideoWrapper-Repository bereitgestellt, wodurch diese fortschrittliche Technologie der breiteren kreativen Gemeinschaft zugänglich gemacht wird.
Basistechnologie: Basierend auf dem Wan2.1 Video-Diffusionsmodell und integriert Audiobearbeitungstechniken aus Wav2Vec, was eine Synthese von Spitzentechnologie in der KI-Forschung darstellt.
RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.