Nota:
Questa è la versione migliorata Multi-Persona del nostro workflow ComfyUI MultiTalk .
Ora supporta la generazione di video conversazionali multi-persona pur includendo la modalità singola persona della nostra versione precedente.
Il workflow è ideale per contenuti social, spiegazioni di prodotti, dialoghi tra personaggi e previz rapidi. Abbina gli embedding audio di MultiTalk con la video diffusione in modo che le labbra, la mascella e i sottili segnali facciali seguano il discorso. Usalo come percorso integrativo sia per scene multi-speaker di Meigen MultiTalk che per clip a singolo speaker.
Modello di diffusione video Wan 2.1
Guida la generazione video condizionata dal testo e dall'immagine. Gestisce l'aspetto della scena, la telecamera e il movimento accettando ulteriore guida per la dinamica della conversazione.
Wav2Vec 2.0
Estrae robuste rappresentazioni del discorso che MultiTalk converte in embedding specifici per il parlato. Riferimento: .
MultiTalk (MeiGen-AI)
Metodo di ricerca per video conversazionali multi-persona guidati dall'audio. Implementazione di riferimento: .
Wrapper Video ComfyUI Wan
Integrazione ComfyUI che espone il caricamento Wan 2.1, gli encoder e il campionatore video, oltre al nodo di embedding MultiTalk. Riferimento: .
Index-TTS (opzionale)
Text-to-speech con riferimento vocale per generare tracce di dialogo pulite all'interno del workflow. Riferimento: .
Questo workflow funziona end-to-end: prepari gli speaker e l'audio, imposti un breve prompt di scena, quindi esegui il rendering. Supporta sia configurazioni multi-persona che singola persona. I gruppi nel grafico mantengono tutto organizzato; i più importanti sono descritti di seguito.
Carica immagini di identità per i volti dei tuoi speaker e anteprima delle maschere, quindi unisci i frame finali con l'audio. I nodi LoadImage
accettano i tuoi ritratti, mentre VHS_VideoCombine
assembla i frame renderizzati con la traccia audio selezionata in un MP4. Puoi scorrere l'audio con PreviewAudio
durante la configurazione per confermare i livelli e la durata.
Get_WanModel
, Get_WanTextEncoder
e WanVideoModelLoader
inizializzano Wan 2.1 insieme ai componenti di testo e VAE. Pensa a questo come alla sala macchine: una volta caricato, il campionatore video può accettare immagini, testo e embedding di conversazione. Raramente è necessario cambiare qualcosa qui oltre a garantire che i pesi Wan corretti siano selezionati.
Puoi portare le tue tracce di dialogo o sintetizzarle:
LoadAudio
per importare la linea di ciascun speaker. Se un clip è mescolato con musica o rumore, passalo attraverso AudioSeparation
e inoltra l'output Vocals
pulito.Speaker 1 - Text
e Speaker 2 - Text
con IndexTTSNode
per sintetizzare voci da righe digitate, fornendo eventualmente reference_audio
per il timbro desiderato.MultiTalkWav2VecEmbeds
converte il discorso in embedding MultiTalk che catturano tempistica e articolazione per ciascun speaker. Fornisci uno stream audio per una sola persona o due stream per dialoghi multi-persona. Se la tua scena necessita di targeting specifico per il volto, fornisci maschere facciali pulite come ref_target_masks
in modo che ciascuna voce guidi la persona corretta.
Un breve prompt di scena tramite Prompt
e WanVideoTextEncodeSingle
imposta l'atmosfera visiva e l'ambiente. Mantieni i prompt concisi e descrittivi (luogo, tono, illuminazione). L'encoder di testo genera una guida semantica che Wan utilizza insieme ai segnali di identità e conversazione.
Il gruppo Uni3C prepara embedding di contesto globale che aiutano a stabilizzare l'identità, l'inquadratura e la composizione nel tempo. Il gruppo Resize assicura che le immagini sorgente e le maschere siano scalate a dimensioni amiche del modello in modo che il campionatore riceva input coerenti.
WanVideoSampler
è dove tutto si unisce: embedding di immagini di identità, embedding di testo ed embedding audio MultiTalk si combinano per produrre i frame finali. Il gruppo Sampling processing a valle applica eventuali passaggi post necessari per la fluidità e la coerenza prima di consegnare al combinatore video.
Per clip multi-persona, disegna una maschera per volto nell'editor di maschere di ComfyUI. Mantieni le maschere separate in modo che non si tocchino. Se fornisci solo una maschera e una traccia audio, il workflow si comporta automaticamente come una configurazione MultiTalk a singola persona.
MultiTalkWav2VecEmbeds
(#79/#162)Converte una o più tracce di dialogo in embedding di conversazione MultiTalk. Inizia con un input audio per singola persona o due per multi-persona; aggiungi maschere quando hai bisogno di instradamento per volto. Regola solo ciò che conta: numero di frame per abbinare la lunghezza del clip pianificato e se fornire ref_target_masks
per un allineamento preciso speaker-volto.
AudioSeparation
(#88/#160/#161)Pulizia opzionale per input rumorosi. Instrada il tuo clip rumoroso in questo nodo e inoltra l'output Vocals
. Usalo quando le registrazioni sul campo includono musica di sottofondo o chiacchiere; saltalo se hai già tracce vocali pulite.
IndexTTSNode
(#163/#164)Trasforma Speaker 1 - Text
e Speaker 2 - Text
in audio di dialogo. Fornisci un breve reference_audio
per clonare tono e ritmo, quindi fornisci righe di testo. Mantieni le frasi brevi e naturali per la migliore sincronizzazione labiale in MultiTalk.
WanVideoTextEncodeSingle
(#18)Codifica il tuo prompt di scena per Wan 2.1. Preferisci descrizioni semplici e concrete di luogo, illuminazione e stile. Evita lunghe liste; una o due frasi sono sufficienti per il campionatore per l
Ricerca Originale: MultiTalk è sviluppato da MeiGen-AI con la collaborazione di ricercatori leader nel campo. L'articolo originale "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" presenta la ricerca rivoluzionaria dietro questa tecnologia. Integrazione ComfyUI: L'implementazione ComfyUI è fornita da Kijai attraverso il repository ComfyUI-WanVideoWrapper, rendendo questa tecnologia avanzata accessibile alla più ampia comunità creativa.
Tecnologia di Base: Costruita sul modello di diffusione video Wan2.1 e incorpora tecniche di elaborazione audio da Wav2Vec, rappresentando una sintesi della ricerca AI all'avanguardia.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.