ComfyUI>Workflow>Multitalk | Creatore di Video Parlanti Realistici

Multitalk | Creatore di Video Parlanti Realistici

Workflow Name: RunComfy/Multitalk

Workflow ID: 0000...1266

Questo workflow genera video sincronizzati con il labbiale da ritratti e audio, supportando sia output a singolo che multi-speaker con dettagliati movimenti facciali e allineamento del discorso.

ComfyUI MultiTalk: Video Parlante Multi-Persona e Singola Persona

Nota:
Questa è la versione migliorata Multi-Persona del nostro workflow ComfyUI MultiTalk Single Person.
Ora supporta la generazione di video conversazionali multi-persona pur includendo la modalità singola persona della nostra versione precedente.

Il workflow è ideale per contenuti social, spiegazioni di prodotti, dialoghi tra personaggi e previz rapidi. Abbina gli embedding audio di MultiTalk con la video diffusione in modo che le labbra, la mascella e i sottili segnali facciali seguano il discorso. Usalo come percorso integrativo sia per scene multi-speaker di Meigen MultiTalk che per clip a singolo speaker.

Modelli chiave nel workflow ComfyUI MultiTalk

Modello di diffusione video Wan 2.1

Guida la generazione video condizionata dal testo e dall'immagine. Gestisce l'aspetto della scena, la telecamera e il movimento accettando ulteriore guida per la dinamica della conversazione.

Wav2Vec 2.0

Estrae robuste rappresentazioni del discorso che MultiTalk converte in embedding specifici per il parlato. Riferimento: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

Metodo di ricerca per video conversazionali multi-persona guidati dall'audio. Implementazione di riferimento: MeiGen-AI/MultiTalk.

Wrapper Video ComfyUI Wan

Integrazione ComfyUI che espone il caricamento Wan 2.1, gli encoder e il campionatore video, oltre al nodo di embedding MultiTalk. Riferimento: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (opzionale)

Text-to-speech con riferimento vocale per generare tracce di dialogo pulite all'interno del workflow. Riferimento: chenpipi0807/ComfyUI-Index-TTS.

Come utilizzare il workflow ComfyUI MultiTalk

Questo workflow funziona end-to-end: prepari gli speaker e l'audio, imposti un breve prompt di scena, quindi esegui il rendering. Supporta sia configurazioni multi-persona che singola persona. I gruppi nel grafico mantengono tutto organizzato; i più importanti sono descritti di seguito.

Input & Output

Carica immagini di identità per i volti dei tuoi speaker e anteprima delle maschere, quindi unisci i frame finali con l'audio. I nodi LoadImage accettano i tuoi ritratti, mentre VHS_VideoCombine assembla i frame renderizzati con la traccia audio selezionata in un MP4. Puoi scorrere l'audio con PreviewAudio durante la configurazione per confermare i livelli e la durata.

Modello

Get_WanModel, Get_WanTextEncoder e WanVideoModelLoader inizializzano Wan 2.1 insieme ai componenti di testo e VAE. Pensa a questo come alla sala macchine: una volta caricato, il campionatore video può accettare immagini, testo e embedding di conversazione. Raramente è necessario cambiare qualcosa qui oltre a garantire che i pesi Wan corretti siano selezionati.

Audio degli speaker (due modi)

Puoi portare le tue tracce di dialogo o sintetizzarle:

Porta audio: Usa LoadAudio per importare la linea di ciascun speaker. Se un clip è mescolato con musica o rumore, passalo attraverso AudioSeparation e inoltra l'output Vocals pulito.
Genera audio: Usa Speaker 1 - Text e Speaker 2 - Text con IndexTTSNode per sintetizzare voci da righe digitate, fornendo eventualmente reference_audio per il timbro desiderato.

Embedding audio MultiTalk

MultiTalkWav2VecEmbeds converte il discorso in embedding MultiTalk che catturano tempistica e articolazione per ciascun speaker. Fornisci uno stream audio per una sola persona o due stream per dialoghi multi-persona. Se la tua scena necessita di targeting specifico per il volto, fornisci maschere facciali pulite come ref_target_masks in modo che ciascuna voce guidi la persona corretta.

Prompting e contesto testuale

Un breve prompt di scena tramite Prompt e WanVideoTextEncodeSingle imposta l'atmosfera visiva e l'ambiente. Mantieni i prompt concisi e descrittivi (luogo, tono, illuminazione). L'encoder di testo genera una guida semantica che Wan utilizza insieme ai segnali di identità e conversazione.

Uni3C e Resize

Il gruppo Uni3C prepara embedding di contesto globale che aiutano a stabilizzare l'identità, l'inquadratura e la composizione nel tempo. Il gruppo Resize assicura che le immagini sorgente e le maschere siano scalate a dimensioni amiche del modello in modo che il campionatore riceva input coerenti.

KSampler e elaborazione del campionamento

WanVideoSampler è dove tutto si unisce: embedding di immagini di identità, embedding di testo ed embedding audio MultiTalk si combinano per produrre i frame finali. Il gruppo Sampling processing a valle applica eventuali passaggi post necessari per la fluidità e la coerenza prima di consegnare al combinatore video.

Maschere per multi-persona

Per clip multi-persona, disegna una maschera per volto nell'editor di maschere di ComfyUI. Mantieni le maschere separate in modo che non si tocchino. Se fornisci solo una maschera e una traccia audio, il workflow si comporta automaticamente come una configurazione MultiTalk a singola persona.

Nodi chiave nel workflow ComfyUI MultiTalk

`MultiTalkWav2VecEmbeds` (#79/#162)

Converte una o più tracce di dialogo in embedding di conversazione MultiTalk. Inizia con un input audio per singola persona o due per multi-persona; aggiungi maschere quando hai bisogno di instradamento per volto. Regola solo ciò che conta: numero di frame per abbinare la lunghezza del clip pianificato e se fornire ref_target_masks per un allineamento preciso speaker-volto.

`AudioSeparation` (#88/#160/#161)

Pulizia opzionale per input rumorosi. Instrada il tuo clip rumoroso in questo nodo e inoltra l'output Vocals. Usalo quando le registrazioni sul campo includono musica di sottofondo o chiacchiere; saltalo se hai già tracce vocali pulite.

`IndexTTSNode` (#163/#164)

Trasforma Speaker 1 - Text e Speaker 2 - Text in audio di dialogo. Fornisci un breve reference_audio per clonare tono e ritmo, quindi fornisci righe di testo. Mantieni le frasi brevi e naturali per la migliore sincronizzazione labiale in MultiTalk.

`WanVideoTextEncodeSingle` (#18)

Codifica il tuo prompt di scena per Wan 2.1. Preferisci descrizioni semplici e concrete di luogo, illuminazione e stile. Evita lunghe liste; una o due frasi sono sufficienti per il campionatore per l

Riconoscimenti

Ricerca Originale: MultiTalk è sviluppato da MeiGen-AI con la collaborazione di ricercatori leader nel campo. L'articolo originale "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" presenta la ricerca rivoluzionaria dietro questa tecnologia. Integrazione ComfyUI: L'implementazione ComfyUI è fornita da Kijai attraverso il repository ComfyUI-WanVideoWrapper, rendendo questa tecnologia avanzata accessibile alla più ampia comunità creativa.

Tecnologia di Base: Costruita sul modello di diffusione video Wan2.1 e incorpora tecniche di elaborazione audio da Wav2Vec, rappresentando una sintesi della ricerca AI all'avanguardia.

Link e Risorse

Ricerca Originale: Repository MeiGen-AI MultiTalk
Pagina del Progetto: https://meigen-ai.github.io/multi-talk/
Integrazione ComfyUI: ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Hallo2 | Animazione di Ritratti Lip-Sync

Lip-sync guidato da audio per animazione di ritratti in 4K.

Sonic | Animazione Lip-Sync per Ritratti

Sonic offre un lip-sync avanzato guidato dall'audio per ritratti con animazioni di alta qualità.

IPAdapter Plus (V2) | Cambia Vestiti

Usa IPAdapter Plus per la creazione dei tuoi modelli di moda, cambiando facilmente outfit e stili

EchoMimic | Animazioni di Ritratti Guidate dall'Audio

Genera teste parlanti realistiche e gesti del corpo sincronizzati con l'audio fornito.

ComfyUI Grounding | Workflow di Tracciamento Oggetti

Traccia qualsiasi soggetto con precisione pixel-perfetta per risultati VFX straordinari.

AnimateDiff + QR Code ControlNet | Effetti visivi (VFX)

Crea effetti visivi accattivanti con AnimateDiff e ControlNet (con QRCode Monster e Lineart).

FLUX LoRA (RealismLoRA) | Immagini Fotorealistiche

Combina il modello FLUX-1 con FLUX-RealismLoRA per immagini AI fotorealistiche

Trellis | Immagine a 3D

Trellis è un modello avanzato Immagine-a-3D per la generazione di asset 3D di alta qualità.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.