logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflow>Multitalk | Creatore di Video Parlanti Realistici

Multitalk | Creatore di Video Parlanti Realistici

Workflow Name: RunComfy/Multitalk
Workflow ID: 0000...1266
Questo workflow genera video sincronizzati con il labbiale da ritratti e audio, supportando sia output a singolo che multi-speaker con dettagliati movimenti facciali e allineamento del discorso.

ComfyUI MultiTalk: Video Parlante Multi-Persona e Singola Persona

Nota:
Questa è la versione migliorata Multi-Persona del nostro workflow ComfyUI MultiTalk Single Person.
Ora supporta la generazione di video conversazionali multi-persona pur includendo la modalità singola persona della nostra versione precedente.

Il workflow è ideale per contenuti social, spiegazioni di prodotti, dialoghi tra personaggi e previz rapidi. Abbina gli embedding audio di MultiTalk con la video diffusione in modo che le labbra, la mascella e i sottili segnali facciali seguano il discorso. Usalo come percorso integrativo sia per scene multi-speaker di Meigen MultiTalk che per clip a singolo speaker.


Modelli chiave nel workflow ComfyUI MultiTalk

Modello di diffusione video Wan 2.1

Guida la generazione video condizionata dal testo e dall'immagine. Gestisce l'aspetto della scena, la telecamera e il movimento accettando ulteriore guida per la dinamica della conversazione.

Wav2Vec 2.0

Estrae robuste rappresentazioni del discorso che MultiTalk converte in embedding specifici per il parlato. Riferimento: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

Metodo di ricerca per video conversazionali multi-persona guidati dall'audio. Implementazione di riferimento: MeiGen-AI/MultiTalk.

Wrapper Video ComfyUI Wan

Integrazione ComfyUI che espone il caricamento Wan 2.1, gli encoder e il campionatore video, oltre al nodo di embedding MultiTalk. Riferimento: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (opzionale)

Text-to-speech con riferimento vocale per generare tracce di dialogo pulite all'interno del workflow. Riferimento: chenpipi0807/ComfyUI-Index-TTS.


Come utilizzare il workflow ComfyUI MultiTalk

Questo workflow funziona end-to-end: prepari gli speaker e l'audio, imposti un breve prompt di scena, quindi esegui il rendering. Supporta sia configurazioni multi-persona che singola persona. I gruppi nel grafico mantengono tutto organizzato; i più importanti sono descritti di seguito.

Input & Output

Carica immagini di identità per i volti dei tuoi speaker e anteprima delle maschere, quindi unisci i frame finali con l'audio. I nodi LoadImage accettano i tuoi ritratti, mentre VHS_VideoCombine assembla i frame renderizzati con la traccia audio selezionata in un MP4. Puoi scorrere l'audio con PreviewAudio durante la configurazione per confermare i livelli e la durata.

Modello

Get_WanModel, Get_WanTextEncoder e WanVideoModelLoader inizializzano Wan 2.1 insieme ai componenti di testo e VAE. Pensa a questo come alla sala macchine: una volta caricato, il campionatore video può accettare immagini, testo e embedding di conversazione. Raramente è necessario cambiare qualcosa qui oltre a garantire che i pesi Wan corretti siano selezionati.

Audio degli speaker (due modi)

Puoi portare le tue tracce di dialogo o sintetizzarle:

  • Porta audio: Usa LoadAudio per importare la linea di ciascun speaker. Se un clip è mescolato con musica o rumore, passalo attraverso AudioSeparation e inoltra l'output Vocals pulito.
  • Genera audio: Usa Speaker 1 - Text e Speaker 2 - Text con IndexTTSNode per sintetizzare voci da righe digitate, fornendo eventualmente reference_audio per il timbro desiderato.

Embedding audio MultiTalk

MultiTalkWav2VecEmbeds converte il discorso in embedding MultiTalk che catturano tempistica e articolazione per ciascun speaker. Fornisci uno stream audio per una sola persona o due stream per dialoghi multi-persona. Se la tua scena necessita di targeting specifico per il volto, fornisci maschere facciali pulite come ref_target_masks in modo che ciascuna voce guidi la persona corretta.

Prompting e contesto testuale

Un breve prompt di scena tramite Prompt e WanVideoTextEncodeSingle imposta l'atmosfera visiva e l'ambiente. Mantieni i prompt concisi e descrittivi (luogo, tono, illuminazione). L'encoder di testo genera una guida semantica che Wan utilizza insieme ai segnali di identità e conversazione.

Uni3C e Resize

Il gruppo Uni3C prepara embedding di contesto globale che aiutano a stabilizzare l'identità, l'inquadratura e la composizione nel tempo. Il gruppo Resize assicura che le immagini sorgente e le maschere siano scalate a dimensioni amiche del modello in modo che il campionatore riceva input coerenti.

KSampler e elaborazione del campionamento

WanVideoSampler è dove tutto si unisce: embedding di immagini di identità, embedding di testo ed embedding audio MultiTalk si combinano per produrre i frame finali. Il gruppo Sampling processing a valle applica eventuali passaggi post necessari per la fluidità e la coerenza prima di consegnare al combinatore video.

Maschere per multi-persona

Per clip multi-persona, disegna una maschera per volto nell'editor di maschere di ComfyUI. Mantieni le maschere separate in modo che non si tocchino. Se fornisci solo una maschera e una traccia audio, il workflow si comporta automaticamente come una configurazione MultiTalk a singola persona.


Nodi chiave nel workflow ComfyUI MultiTalk

MultiTalkWav2VecEmbeds (#79/#162)

Converte una o più tracce di dialogo in embedding di conversazione MultiTalk. Inizia con un input audio per singola persona o due per multi-persona; aggiungi maschere quando hai bisogno di instradamento per volto. Regola solo ciò che conta: numero di frame per abbinare la lunghezza del clip pianificato e se fornire ref_target_masks per un allineamento preciso speaker-volto.

AudioSeparation (#88/#160/#161)

Pulizia opzionale per input rumorosi. Instrada il tuo clip rumoroso in questo nodo e inoltra l'output Vocals. Usalo quando le registrazioni sul campo includono musica di sottofondo o chiacchiere; saltalo se hai già tracce vocali pulite.

IndexTTSNode (#163/#164)

Trasforma Speaker 1 - Text e Speaker 2 - Text in audio di dialogo. Fornisci un breve reference_audio per clonare tono e ritmo, quindi fornisci righe di testo. Mantieni le frasi brevi e naturali per la migliore sincronizzazione labiale in MultiTalk.

WanVideoTextEncodeSingle (#18)

Codifica il tuo prompt di scena per Wan 2.1. Preferisci descrizioni semplici e concrete di luogo, illuminazione e stile. Evita lunghe liste; una o due frasi sono sufficienti per il campionatore per l


Riconoscimenti

Ricerca Originale: MultiTalk è sviluppato da MeiGen-AI con la collaborazione di ricercatori leader nel campo. L'articolo originale "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" presenta la ricerca rivoluzionaria dietro questa tecnologia. Integrazione ComfyUI: L'implementazione ComfyUI è fornita da Kijai attraverso il repository ComfyUI-WanVideoWrapper, rendendo questa tecnologia avanzata accessibile alla più ampia comunità creativa.

Tecnologia di Base: Costruita sul modello di diffusione video Wan2.1 e incorpora tecniche di elaborazione audio da Wav2Vec, rappresentando una sintesi della ricerca AI all'avanguardia.

Link e Risorse

  • Ricerca Originale: Repository MeiGen-AI MultiTalk
  • Pagina del Progetto: https://meigen-ai.github.io/multi-talk/
  • Integrazione ComfyUI: ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Hallo2 | Animazione di Ritratti Lip-Sync

Lip-sync guidato da audio per animazione di ritratti in 4K.

Sonic | Animazione Lip-Sync per Ritratti

Sonic offre un lip-sync avanzato guidato dall'audio per ritratti con animazioni di alta qualità.

IPAdapter Plus (V2) | Cambia Vestiti

IPAdapter Plus (V2) | Cambia Vestiti

Usa IPAdapter Plus per la creazione dei tuoi modelli di moda, cambiando facilmente outfit e stili

EchoMimic | Animazioni di Ritratti Guidate dall'Audio

Genera teste parlanti realistiche e gesti del corpo sincronizzati con l'audio fornito.

Flux Upscaler - Ultimate 32k | Image Upscaler

Flux Upscaler - Ultimate 32k | Image Upscaler

Flux Upscaler – Raggiungi risoluzioni 4k, 8k, 16k e Ultimate 32k!

ComfyUI FLUX | Una Nuova Generazione di Immagini Artistiche

ComfyUI FLUX | Una Nuova Generazione di Immagini Artistiche

Un nuovo modello di generazione di immagini sviluppato da Black Forest Labs

Addestramento FLUX LoRA

Addestramento FLUX LoRA

Guidarti attraverso l'intero processo di addestramento dei modelli FLUX LoRA utilizzando i tuoi dataset personalizzati.

AnimateDiff + AutoMask + ControlNet | Effetti Visivi (VFX)

Migliora gli effetti visivi con AnimateDiff, AutoMask e ControlNet per risultati precisi e controllati.

Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2025 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.