logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>Workflow>Multitalk | Creatore di Video Parlanti Realistici

Multitalk | Creatore di Video Parlanti Realistici

Workflow Name: RunComfy/Multitalk
Workflow ID: 0000...1266
Questo workflow genera video sincronizzati con il labbiale da ritratti e audio, supportando sia output a singolo che multi-speaker con dettagliati movimenti facciali e allineamento del discorso.

ComfyUI Multitalk Workflow

ComfyUI Multitalk Workflow | Multi-Speaker Lip-Synced Video Generator
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Multitalk Examples

ComfyUI Multitalk Description

ComfyUI MultiTalk: Video Parlante Multi-Persona e Singola Persona

Nota:
Questa è la versione migliorata Multi-Persona del nostro workflow ComfyUI MultiTalk .
Ora supporta la generazione di video conversazionali multi-persona pur includendo la modalità singola persona della nostra versione precedente.

Il workflow è ideale per contenuti social, spiegazioni di prodotti, dialoghi tra personaggi e previz rapidi. Abbina gli embedding audio di MultiTalk con la video diffusione in modo che le labbra, la mascella e i sottili segnali facciali seguano il discorso. Usalo come percorso integrativo sia per scene multi-speaker di Meigen MultiTalk che per clip a singolo speaker.


Modelli chiave nel workflow ComfyUI MultiTalk

Modello di diffusione video Wan 2.1

Guida la generazione video condizionata dal testo e dall'immagine. Gestisce l'aspetto della scena, la telecamera e il movimento accettando ulteriore guida per la dinamica della conversazione.

Wav2Vec 2.0

Estrae robuste rappresentazioni del discorso che MultiTalk converte in embedding specifici per il parlato. Riferimento: .

MultiTalk (MeiGen-AI)

Metodo di ricerca per video conversazionali multi-persona guidati dall'audio. Implementazione di riferimento: .

Wrapper Video ComfyUI Wan

Integrazione ComfyUI che espone il caricamento Wan 2.1, gli encoder e il campionatore video, oltre al nodo di embedding MultiTalk. Riferimento: .

Index-TTS (opzionale)

Text-to-speech con riferimento vocale per generare tracce di dialogo pulite all'interno del workflow. Riferimento: .


Come utilizzare il workflow ComfyUI MultiTalk

Questo workflow funziona end-to-end: prepari gli speaker e l'audio, imposti un breve prompt di scena, quindi esegui il rendering. Supporta sia configurazioni multi-persona che singola persona. I gruppi nel grafico mantengono tutto organizzato; i più importanti sono descritti di seguito.

Input & Output

Carica immagini di identità per i volti dei tuoi speaker e anteprima delle maschere, quindi unisci i frame finali con l'audio. I nodi LoadImage accettano i tuoi ritratti, mentre VHS_VideoCombine assembla i frame renderizzati con la traccia audio selezionata in un MP4. Puoi scorrere l'audio con PreviewAudio durante la configurazione per confermare i livelli e la durata.

Modello

Get_WanModel, Get_WanTextEncoder e WanVideoModelLoader inizializzano Wan 2.1 insieme ai componenti di testo e VAE. Pensa a questo come alla sala macchine: una volta caricato, il campionatore video può accettare immagini, testo e embedding di conversazione. Raramente è necessario cambiare qualcosa qui oltre a garantire che i pesi Wan corretti siano selezionati.

Audio degli speaker (due modi)

Puoi portare le tue tracce di dialogo o sintetizzarle:

  • Porta audio: Usa LoadAudio per importare la linea di ciascun speaker. Se un clip è mescolato con musica o rumore, passalo attraverso AudioSeparation e inoltra l'output Vocals pulito.
  • Genera audio: Usa Speaker 1 - Text e Speaker 2 - Text con IndexTTSNode per sintetizzare voci da righe digitate, fornendo eventualmente reference_audio per il timbro desiderato.

Embedding audio MultiTalk

MultiTalkWav2VecEmbeds converte il discorso in embedding MultiTalk che catturano tempistica e articolazione per ciascun speaker. Fornisci uno stream audio per una sola persona o due stream per dialoghi multi-persona. Se la tua scena necessita di targeting specifico per il volto, fornisci maschere facciali pulite come ref_target_masks in modo che ciascuna voce guidi la persona corretta.

Prompting e contesto testuale

Un breve prompt di scena tramite Prompt e WanVideoTextEncodeSingle imposta l'atmosfera visiva e l'ambiente. Mantieni i prompt concisi e descrittivi (luogo, tono, illuminazione). L'encoder di testo genera una guida semantica che Wan utilizza insieme ai segnali di identità e conversazione.

Uni3C e Resize

Il gruppo Uni3C prepara embedding di contesto globale che aiutano a stabilizzare l'identità, l'inquadratura e la composizione nel tempo. Il gruppo Resize assicura che le immagini sorgente e le maschere siano scalate a dimensioni amiche del modello in modo che il campionatore riceva input coerenti.

KSampler e elaborazione del campionamento

WanVideoSampler è dove tutto si unisce: embedding di immagini di identità, embedding di testo ed embedding audio MultiTalk si combinano per produrre i frame finali. Il gruppo Sampling processing a valle applica eventuali passaggi post necessari per la fluidità e la coerenza prima di consegnare al combinatore video.

Maschere per multi-persona

Per clip multi-persona, disegna una maschera per volto nell'editor di maschere di ComfyUI. Mantieni le maschere separate in modo che non si tocchino. Se fornisci solo una maschera e una traccia audio, il workflow si comporta automaticamente come una configurazione MultiTalk a singola persona.


Nodi chiave nel workflow ComfyUI MultiTalk

MultiTalkWav2VecEmbeds (#79/#162)

Converte una o più tracce di dialogo in embedding di conversazione MultiTalk. Inizia con un input audio per singola persona o due per multi-persona; aggiungi maschere quando hai bisogno di instradamento per volto. Regola solo ciò che conta: numero di frame per abbinare la lunghezza del clip pianificato e se fornire ref_target_masks per un allineamento preciso speaker-volto.

AudioSeparation (#88/#160/#161)

Pulizia opzionale per input rumorosi. Instrada il tuo clip rumoroso in questo nodo e inoltra l'output Vocals. Usalo quando le registrazioni sul campo includono musica di sottofondo o chiacchiere; saltalo se hai già tracce vocali pulite.

IndexTTSNode (#163/#164)

Trasforma Speaker 1 - Text e Speaker 2 - Text in audio di dialogo. Fornisci un breve reference_audio per clonare tono e ritmo, quindi fornisci righe di testo. Mantieni le frasi brevi e naturali per la migliore sincronizzazione labiale in MultiTalk.

WanVideoTextEncodeSingle (#18)

Codifica il tuo prompt di scena per Wan 2.1. Preferisci descrizioni semplici e concrete di luogo, illuminazione e stile. Evita lunghe liste; una o due frasi sono sufficienti per il campionatore per l


Riconoscimenti

Ricerca Originale: MultiTalk è sviluppato da MeiGen-AI con la collaborazione di ricercatori leader nel campo. L'articolo originale "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" presenta la ricerca rivoluzionaria dietro questa tecnologia. Integrazione ComfyUI: L'implementazione ComfyUI è fornita da Kijai attraverso il repository ComfyUI-WanVideoWrapper, rendendo questa tecnologia avanzata accessibile alla più ampia comunità creativa.

Tecnologia di Base: Costruita sul modello di diffusione video Wan2.1 e incorpora tecniche di elaborazione audio da Wav2Vec, rappresentando una sintesi della ricerca AI all'avanguardia.

Link e Risorse

  • Ricerca Originale:
  • Pagina del Progetto:
  • Integrazione ComfyUI:

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2025 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.