ComfyUI>Fluxos de Trabalho>Multitalk | Criador de Vídeo Falante Realista

Multitalk | Criador de Vídeo Falante Realista

Workflow Name: RunComfy/Multitalk
Workflow ID: 0000...1266
Este fluxo de trabalho gera vídeos sincronizados com os lábios a partir de retratos e áudio, suportando saídas de um único falante e multi-falante com movimento facial detalhado e alinhamento da fala.

ComfyUI Multitalk Workflow

ComfyUI Multitalk Workflow | Multi-Speaker Lip-Synced Video Generator
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Multitalk Examples

ComfyUI MultiTalk: Vídeo Falante de Multi-Pessoas e de Pessoa Única#

Nota: Esta é a versão aprimorada de Multi-Pessoas do nosso fluxo de trabalho ComfyUI MultiTalk Pessoa Única. Agora suporta geração de vídeo conversacional de multi-pessoas mantendo o modo de pessoa única da nossa versão anterior.

O fluxo de trabalho é ideal para conteúdo social, explicações de produtos, diálogos de personagens e previz rápida. Ele combina embeddings de áudio MultiTalk com difusão de vídeo para que os lábios, maxilar e sutis dicas faciais sigam a fala. Use-o como um caminho de inserção para cenas de multi-falantes Meigen MultiTalk ou clipes simples de falante único.


Modelos principais no fluxo de trabalho ComfyUI MultiTalk#

Modelo de difusão de vídeo Wan 2.1

Dirige a geração de vídeo condicionada por texto e imagem. Lida com a aparência da cena, câmera e movimento enquanto aceita orientações adicionais para dinâmicas de conversa.

Wav2Vec 2.0

Extrai representações robustas de fala que o MultiTalk converte em embeddings específicos para fala. Referência: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

Método de pesquisa para vídeo de conversa de multi-pessoas orientado por áudio. Implementação de referência: MeiGen-AI/MultiTalk.

ComfyUI Wan Video Wrapper

Integração ComfyUI que expõe o carregamento Wan 2.1, codificadores e o amostrador de vídeo, além do nó de embedding MultiTalk. Referência: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (opcional)

Texto para fala com referência de voz para gerar trilhas de diálogo limpas dentro do fluxo de trabalho. Referência: chenpipi0807/ComfyUI-Index-TTS.


Como usar o fluxo de trabalho ComfyUI MultiTalk#

Este fluxo de trabalho executa de ponta a ponta: você prepara os falantes e o áudio, define um prompt de cena curto e depois renderiza. Suporta configurações de multi-pessoas e de pessoa única. Grupos no gráfico mantêm as coisas organizadas; os mais importantes são descritos abaixo.

Entrada & Saída#

Carregue imagens de identidade para os rostos dos seus falantes e pré-visualize máscaras, depois combine os quadros finais com o áudio. Os nós LoadImage aceitam seus retratos, enquanto VHS_VideoCombine monta os quadros renderizados com a faixa de áudio selecionada em um MP4. Você pode navegar no áudio com PreviewAudio durante a configuração para confirmar níveis e duração.

Modelo#

Get_WanModel, Get_WanTextEncoder e WanVideoModelLoader inicializam Wan 2.1 junto com os componentes de texto e VAE. Pense nisso como a sala de máquinas: uma vez carregado, o amostrador de vídeo pode aceitar imagem, texto e embeddings de conversa. Você raramente precisa mudar algo aqui além de garantir que os pesos Wan corretos sejam selecionados.

Áudio do Falante (duas maneiras)#

Você pode trazer suas próprias trilhas de diálogo ou sintetizá-las:

  • Trazer áudio: Use LoadAudio para importar a fala de cada falante. Se um clipe estiver misturado com música ou ruído, passe-o por AudioSeparation e direcione a saída limpa Vocals para frente.
  • Gerar áudio: Use Speaker 1 - Text e Speaker 2 - Text com IndexTTSNode para sintetizar vozes a partir de linhas digitadas, opcionalmente fornecendo reference_audio para o timbre desejado.

Embeddings de áudio MultiTalk#

MultiTalkWav2VecEmbeds converte a fala em embeddings MultiTalk que capturam dicas de tempo e articulação para cada falante. Alimente com um fluxo de áudio para uma pessoa ou dois fluxos para diálogo de multi-pessoas. Se sua cena precisar de direcionamento específico para o rosto, forneça máscaras de rosto limpas como ref_target_masks para que cada voz dirija a pessoa correta.

Prompt e contexto de texto#

Um prompt de cena curto via Prompt e WanVideoTextEncodeSingle define o ambiente visual e o humor. Mantenha os prompts concisos e descritivos (localização, tom, iluminação). O codificador de texto gera orientação semântica que o Wan usa junto com sinais de identidade e conversa.

Uni3C e Redimensionar#

O grupo Uni3C prepara embeddings de contexto global que ajudam a estabilizar identidade, enquadramento e composição ao longo do tempo. O grupo Redimensionar garante que imagens-fonte e máscaras sejam dimensionadas para dimensões amigáveis ao modelo para que o amostrador receba entradas consistentes.

KSampler e processamento de amostragem#

WanVideoSampler é onde tudo se encontra: embeddings de imagem de identidade, embeddings de texto e embeddings de áudio MultiTalk se combinam para produzir os quadros finais. O grupo Processamento de amostragem downstream aplica quaisquer etapas pós-processamento necessárias para suavidade e consistência antes da entrega ao combinador de vídeo.

Máscaras para multi-pessoas#

Para clipes de multi-pessoas, desenhe uma máscara por rosto no editor de máscaras do ComfyUI. Mantenha as máscaras separadas para que nunca se toquem. Se você fornecer apenas uma máscara e uma faixa de áudio, o fluxo de trabalho se comporta automaticamente como uma configuração de MultiTalk de pessoa única.


Nós principais no fluxo de trabalho ComfyUI MultiTalk#

MultiTalkWav2VecEmbeds (#79/#162)#

Converte uma ou mais trilhas de diálogo em embeddings de conversa MultiTalk. Comece com uma entrada de áudio para uma pessoa ou duas para multi-pessoas; adicione máscaras quando precisar de roteamento por rosto. Ajuste apenas o que importa: número de quadros para corresponder ao comprimento planejado do clipe e se fornecer ref_target_masks para alinhamento preciso falante-para-rosto.

AudioSeparation (#88/#160/#161)#

Limpeza opcional para entradas ruidosas. Direcione seu clipe ruidoso para este nó e encaminhe a saída Vocals. Use-o quando gravações de campo incluírem música de fundo ou conversas; pule se você já tiver faixas de voz limpas.

IndexTTSNode (#163/#164)#

Transforma Speaker 1 - Text e Speaker 2 - Text em áudio de diálogo. Forneça um curto reference_audio para clonar tom e ritmo, depois forneça linhas de texto. Mantenha as frases breves e naturais para melhor sincronização labial no MultiTalk.

WanVideoTextEncodeSingle (#18)#

Codifica seu prompt de cena para Wan 2.1. Prefira descrições simples e concretas de local, iluminação e estilo. Evite listas longas; uma ou duas frases são suficientes para o amostrador.


Agradecimentos#

Pesquisa Original: MultiTalk é desenvolvido pela MeiGen-AI com colaboração de pesquisadores líderes na área. O artigo original "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" apresenta a pesquisa inovadora por trás desta tecnologia. Integração ComfyUI: A implementação ComfyUI é fornecida por Kijai através do repositório ComfyUI-WanVideoWrapper, tornando esta tecnologia avançada acessível à comunidade criativa mais ampla.

Tecnologia Base: Construído sobre o modelo de difusão de vídeo Wan2.1 e incorpora técnicas de processamento de áudio do Wav2Vec, representando uma síntese de pesquisa de ponta em IA.

RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.