ComfyUI>Fluxos de Trabalho>Multitalk | Criador de Vídeo Falante Realista

Multitalk | Criador de Vídeo Falante Realista

Workflow Name: RunComfy/Multitalk

Workflow ID: 0000...1266

Este fluxo de trabalho gera vídeos sincronizados com os lábios a partir de retratos e áudio, suportando saídas de um único falante e multi-falante com movimento facial detalhado e alinhamento da fala.

ComfyUI MultiTalk: Vídeo Falante de Multi-Pessoas e de Pessoa Única

Nota:
Esta é a versão aprimorada de Multi-Pessoas do nosso fluxo de trabalho ComfyUI MultiTalk Pessoa Única.
Agora suporta geração de vídeo conversacional de multi-pessoas mantendo o modo de pessoa única da nossa versão anterior.

O fluxo de trabalho é ideal para conteúdo social, explicações de produtos, diálogos de personagens e previz rápida. Ele combina embeddings de áudio MultiTalk com difusão de vídeo para que os lábios, maxilar e sutis dicas faciais sigam a fala. Use-o como um caminho de inserção para cenas de multi-falantes Meigen MultiTalk ou clipes simples de falante único.

Modelos principais no fluxo de trabalho ComfyUI MultiTalk

Modelo de difusão de vídeo Wan 2.1

Dirige a geração de vídeo condicionada por texto e imagem. Lida com a aparência da cena, câmera e movimento enquanto aceita orientações adicionais para dinâmicas de conversa.

Wav2Vec 2.0

Extrai representações robustas de fala que o MultiTalk converte em embeddings específicos para fala. Referência: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

Método de pesquisa para vídeo de conversa de multi-pessoas orientado por áudio. Implementação de referência: MeiGen-AI/MultiTalk.

ComfyUI Wan Video Wrapper

Integração ComfyUI que expõe o carregamento Wan 2.1, codificadores e o amostrador de vídeo, além do nó de embedding MultiTalk. Referência: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (opcional)

Texto para fala com referência de voz para gerar trilhas de diálogo limpas dentro do fluxo de trabalho. Referência: chenpipi0807/ComfyUI-Index-TTS.

Como usar o fluxo de trabalho ComfyUI MultiTalk

Este fluxo de trabalho executa de ponta a ponta: você prepara os falantes e o áudio, define um prompt de cena curto e depois renderiza. Suporta configurações de multi-pessoas e de pessoa única. Grupos no gráfico mantêm as coisas organizadas; os mais importantes são descritos abaixo.

Entrada & Saída

Carregue imagens de identidade para os rostos dos seus falantes e pré-visualize máscaras, depois combine os quadros finais com o áudio. Os nós LoadImage aceitam seus retratos, enquanto VHS_VideoCombine monta os quadros renderizados com a faixa de áudio selecionada em um MP4. Você pode navegar no áudio com PreviewAudio durante a configuração para confirmar níveis e duração.

Modelo

Get_WanModel, Get_WanTextEncoder e WanVideoModelLoader inicializam Wan 2.1 junto com os componentes de texto e VAE. Pense nisso como a sala de máquinas: uma vez carregado, o amostrador de vídeo pode aceitar imagem, texto e embeddings de conversa. Você raramente precisa mudar algo aqui além de garantir que os pesos Wan corretos sejam selecionados.

Áudio do Falante (duas maneiras)

Você pode trazer suas próprias trilhas de diálogo ou sintetizá-las:

Trazer áudio: Use LoadAudio para importar a fala de cada falante. Se um clipe estiver misturado com música ou ruído, passe-o por AudioSeparation e direcione a saída limpa Vocals para frente.
Gerar áudio: Use Speaker 1 - Text e Speaker 2 - Text com IndexTTSNode para sintetizar vozes a partir de linhas digitadas, opcionalmente fornecendo reference_audio para o timbre desejado.

Embeddings de áudio MultiTalk

MultiTalkWav2VecEmbeds converte a fala em embeddings MultiTalk que capturam dicas de tempo e articulação para cada falante. Alimente com um fluxo de áudio para uma pessoa ou dois fluxos para diálogo de multi-pessoas. Se sua cena precisar de direcionamento específico para o rosto, forneça máscaras de rosto limpas como ref_target_masks para que cada voz dirija a pessoa correta.

Prompt e contexto de texto

Um prompt de cena curto via Prompt e WanVideoTextEncodeSingle define o ambiente visual e o humor. Mantenha os prompts concisos e descritivos (localização, tom, iluminação). O codificador de texto gera orientação semântica que o Wan usa junto com sinais de identidade e conversa.

Uni3C e Redimensionar

O grupo Uni3C prepara embeddings de contexto global que ajudam a estabilizar identidade, enquadramento e composição ao longo do tempo. O grupo Redimensionar garante que imagens-fonte e máscaras sejam dimensionadas para dimensões amigáveis ao modelo para que o amostrador receba entradas consistentes.

KSampler e processamento de amostragem

WanVideoSampler é onde tudo se encontra: embeddings de imagem de identidade, embeddings de texto e embeddings de áudio MultiTalk se combinam para produzir os quadros finais. O grupo Processamento de amostragem downstream aplica quaisquer etapas pós-processamento necessárias para suavidade e consistência antes da entrega ao combinador de vídeo.

Máscaras para multi-pessoas

Para clipes de multi-pessoas, desenhe uma máscara por rosto no editor de máscaras do ComfyUI. Mantenha as máscaras separadas para que nunca se toquem. Se você fornecer apenas uma máscara e uma faixa de áudio, o fluxo de trabalho se comporta automaticamente como uma configuração de MultiTalk de pessoa única.

Nós principais no fluxo de trabalho ComfyUI MultiTalk

`MultiTalkWav2VecEmbeds` (#79/#162)

Converte uma ou mais trilhas de diálogo em embeddings de conversa MultiTalk. Comece com uma entrada de áudio para uma pessoa ou duas para multi-pessoas; adicione máscaras quando precisar de roteamento por rosto. Ajuste apenas o que importa: número de quadros para corresponder ao comprimento planejado do clipe e se fornecer ref_target_masks para alinhamento preciso falante-para-rosto.

`AudioSeparation` (#88/#160/#161)

Limpeza opcional para entradas ruidosas. Direcione seu clipe ruidoso para este nó e encaminhe a saída Vocals. Use-o quando gravações de campo incluírem música de fundo ou conversas; pule se você já tiver faixas de voz limpas.

`IndexTTSNode` (#163/#164)

Transforma Speaker 1 - Text e Speaker 2 - Text em áudio de diálogo. Forneça um curto reference_audio para clonar tom e ritmo, depois forneça linhas de texto. Mantenha as frases breves e naturais para melhor sincronização labial no MultiTalk.

`WanVideoTextEncodeSingle` (#18)

Codifica seu prompt de cena para Wan 2.1. Prefira descrições simples e concretas de local, iluminação e estilo. Evite listas longas; uma ou duas frases são suficientes para o amostrador.

Agradecimentos

Pesquisa Original: MultiTalk é desenvolvido pela MeiGen-AI com colaboração de pesquisadores líderes na área. O artigo original "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" apresenta a pesquisa inovadora por trás desta tecnologia. Integração ComfyUI: A implementação ComfyUI é fornecida por Kijai através do repositório ComfyUI-WanVideoWrapper, tornando esta tecnologia avançada acessível à comunidade criativa mais ampla.

Tecnologia Base: Construído sobre o modelo de difusão de vídeo Wan2.1 e incorpora técnicas de processamento de áudio do Wav2Vec, representando uma síntese de pesquisa de ponta em IA.

Links e Recursos

Pesquisa Original: MeiGen-AI MultiTalk Repository
Página do Projeto: https://meigen-ai.github.io/multi-talk/
Integração ComfyUI: ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Hallo2 | Animação de Retrato com Sincronização Labial

Sincronização labial guiada por áudio para animação de retratos em 4K.

Sonic | Animação de Retratos com Sincronização Labial

Sonic oferece sincronização labial avançada e dirigida por áudio para retratos com animação de alta qualidade.

IPAdapter Plus (V2) | Mudar de roupa

Use o IPAdapter Plus para a criação de seus modelos de moda, mudando facilmente de trajes e estilos

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

IPAdapter Plus (V2) | Mesclar Imagens

Use vários métodos de mesclagem com IPAdapter Plus para um controle preciso e eficiente da mistura de imagens.

Iluminação de Produtos | Alternativa ao Magnific.AI Relight

Eleve sua fotografia de produtos sem esforço, uma excelente alternativa ao Magnific.AI Relight.

OmniGen | Imagem-Para-Imagem

OmniGen: Modifique Imagens Baseadas em Imagens de Referência e Prompts

FLUX Kontext Dev | Edição Inteligente de Imagem

Kontext Dev = Controlável + Todas as Necessidades de Design Gráfico em Uma Ferramenta

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.