Nota:
Esta é a versão aprimorada de Multi-Pessoas do nosso fluxo de trabalho ComfyUI MultiTalk .
Agora suporta geração de vídeo conversacional de multi-pessoas mantendo o modo de pessoa única da nossa versão anterior.
O fluxo de trabalho é ideal para conteúdo social, explicações de produtos, diálogos de personagens e previz rápida. Ele combina embeddings de áudio MultiTalk com difusão de vídeo para que os lábios, maxilar e sutis dicas faciais sigam a fala. Use-o como um caminho de inserção para cenas de multi-falantes Meigen MultiTalk ou clipes simples de falante único.
Modelo de difusão de vídeo Wan 2.1
Dirige a geração de vídeo condicionada por texto e imagem. Lida com a aparência da cena, câmera e movimento enquanto aceita orientações adicionais para dinâmicas de conversa.
Wav2Vec 2.0
Extrai representações robustas de fala que o MultiTalk converte em embeddings específicos para fala. Referência: .
MultiTalk (MeiGen-AI)
Método de pesquisa para vídeo de conversa de multi-pessoas orientado por áudio. Implementação de referência: .
ComfyUI Wan Video Wrapper
Integração ComfyUI que expõe o carregamento Wan 2.1, codificadores e o amostrador de vídeo, além do nó de embedding MultiTalk. Referência: .
Index-TTS (opcional)
Texto para fala com referência de voz para gerar trilhas de diálogo limpas dentro do fluxo de trabalho. Referência: .
Este fluxo de trabalho executa de ponta a ponta: você prepara os falantes e o áudio, define um prompt de cena curto e depois renderiza. Suporta configurações de multi-pessoas e de pessoa única. Grupos no gráfico mantêm as coisas organizadas; os mais importantes são descritos abaixo.
Carregue imagens de identidade para os rostos dos seus falantes e pré-visualize máscaras, depois combine os quadros finais com o áudio. Os nós LoadImage
aceitam seus retratos, enquanto VHS_VideoCombine
monta os quadros renderizados com a faixa de áudio selecionada em um MP4. Você pode navegar no áudio com PreviewAudio
durante a configuração para confirmar níveis e duração.
Get_WanModel
, Get_WanTextEncoder
e WanVideoModelLoader
inicializam Wan 2.1 junto com os componentes de texto e VAE. Pense nisso como a sala de máquinas: uma vez carregado, o amostrador de vídeo pode aceitar imagem, texto e embeddings de conversa. Você raramente precisa mudar algo aqui além de garantir que os pesos Wan corretos sejam selecionados.
Você pode trazer suas próprias trilhas de diálogo ou sintetizá-las:
LoadAudio
para importar a fala de cada falante. Se um clipe estiver misturado com música ou ruído, passe-o por AudioSeparation
e direcione a saída limpa Vocals
para frente.Speaker 1 - Text
e Speaker 2 - Text
com IndexTTSNode
para sintetizar vozes a partir de linhas digitadas, opcionalmente fornecendo reference_audio
para o timbre desejado.MultiTalkWav2VecEmbeds
converte a fala em embeddings MultiTalk que capturam dicas de tempo e articulação para cada falante. Alimente com um fluxo de áudio para uma pessoa ou dois fluxos para diálogo de multi-pessoas. Se sua cena precisar de direcionamento específico para o rosto, forneça máscaras de rosto limpas como ref_target_masks
para que cada voz dirija a pessoa correta.
Um prompt de cena curto via Prompt
e WanVideoTextEncodeSingle
define o ambiente visual e o humor. Mantenha os prompts concisos e descritivos (localização, tom, iluminação). O codificador de texto gera orientação semântica que o Wan usa junto com sinais de identidade e conversa.
O grupo Uni3C prepara embeddings de contexto global que ajudam a estabilizar identidade, enquadramento e composição ao longo do tempo. O grupo Redimensionar garante que imagens-fonte e máscaras sejam dimensionadas para dimensões amigáveis ao modelo para que o amostrador receba entradas consistentes.
WanVideoSampler
é onde tudo se encontra: embeddings de imagem de identidade, embeddings de texto e embeddings de áudio MultiTalk se combinam para produzir os quadros finais. O grupo Processamento de amostragem downstream aplica quaisquer etapas pós-processamento necessárias para suavidade e consistência antes da entrega ao combinador de vídeo.
Para clipes de multi-pessoas, desenhe uma máscara por rosto no editor de máscaras do ComfyUI. Mantenha as máscaras separadas para que nunca se toquem. Se você fornecer apenas uma máscara e uma faixa de áudio, o fluxo de trabalho se comporta automaticamente como uma configuração de MultiTalk de pessoa única.
MultiTalkWav2VecEmbeds
(#79/#162)Converte uma ou mais trilhas de diálogo em embeddings de conversa MultiTalk. Comece com uma entrada de áudio para uma pessoa ou duas para multi-pessoas; adicione máscaras quando precisar de roteamento por rosto. Ajuste apenas o que importa: número de quadros para corresponder ao comprimento planejado do clipe e se fornecer ref_target_masks
para alinhamento preciso falante-para-rosto.
AudioSeparation
(#88/#160/#161)Limpeza opcional para entradas ruidosas. Direcione seu clipe ruidoso para este nó e encaminhe a saída Vocals
. Use-o quando gravações de campo incluírem música de fundo ou conversas; pule se você já tiver faixas de voz limpas.
IndexTTSNode
(#163/#164)Transforma Speaker 1 - Text
e Speaker 2 - Text
em áudio de diálogo. Forneça um curto reference_audio
para clonar tom e ritmo, depois forneça linhas de texto. Mantenha as frases breves e naturais para melhor sincronização labial no MultiTalk.
WanVideoTextEncodeSingle
(#18)Codifica seu prompt de cena para Wan 2.1. Prefira descrições simples e concretas de local, iluminação e estilo. Evite listas longas; uma ou duas frases são suficientes para o amostrador.
Pesquisa Original: MultiTalk é desenvolvido pela MeiGen-AI com colaboração de pesquisadores líderes na área. O artigo original "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" apresenta a pesquisa inovadora por trás desta tecnologia. Integração ComfyUI: A implementação ComfyUI é fornecida por Kijai através do repositório ComfyUI-WanVideoWrapper, tornando esta tecnologia avançada acessível à comunidade criativa mais ampla.
Tecnologia Base: Construído sobre o modelo de difusão de vídeo Wan2.1 e incorpora técnicas de processamento de áudio do Wav2Vec, representando uma síntese de pesquisa de ponta em IA.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.