ComfyUI InfiniteTalk Workflow | Áudio-Retrato para Vídeo Sincronizado com Lábios

ComfyUI InfiniteTalk Fluxo de Trabalho

ComfyUI InfiniteTalk Workflow | Audio-Portrait to Lip-Synced Video

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

ComfyUI InfiniteTalk Exemplos

InfiniteTalk: vídeo de retrato sincronizado com lábios a partir de uma única imagem no ComfyUI#

Este fluxo de trabalho InfiniteTalk do ComfyUI cria vídeos de retrato naturais e sincronizados com a fala a partir de uma única imagem de referência e um clipe de áudio. Ele combina a geração de imagem para vídeo do WanVideo 2.1 com o modelo de cabeça falante MultiTalk para produzir movimento labial expressivo e identidade estável. Se você precisa de clipes sociais curtos, dublagens de vídeo ou atualizações de avatar, o InfiniteTalk transforma uma foto estática em um vídeo falante fluido em minutos.

O InfiniteTalk é baseado na excelente pesquisa MultiTalk da MeiGen-AI. Para contexto e atribuições, veja o projeto de código aberto: MeiGen-AI/MultiTalk.

Modelos principais no fluxo de trabalho Comfyui InfiniteTalk#

MultiTalk (GGUF, variante InfiniteTalk): Impulsiona o movimento facial consciente de fonemas a partir do áudio, para que os movimentos da boca e mandíbula acompanhem a fala naturalmente. Referência: Kijai/WanVideo_comfy_GGUF › InfiniteTalk e ideia original: MeiGen-AI/MultiTalk.
WanVideo 2.1 I2V 14B (GGUF): O gerador primário de imagem para vídeo que preserva identidade, iluminação e pose enquanto anima os quadros. Pesos recomendados: city96/Wan2.1-I2V-14B-480P-gguf.
Wan 2.1 VAE (bf16): Decodifica quadros latentes para RGB com mudança mínima de cor; fornecido nos pacotes WanVideo acima.
Codificador de texto UMT5-XXL: Interpreta seus prompts positivos e negativos para ajustar estilo, cena e contexto de movimento. Família do modelo: google/umt5-xxl.
CLIP Vision: Extrai embeddings visuais da sua imagem de referência para fixar identidade e aparência geral.
Wav2Vec2 (Tencent GameMate): Converte fala bruta em recursos de áudio robustos para embeddings MultiTalk, melhorando sincronização e prosódia: TencentGameMate/chinese-wav2vec2-base.

Dica: este gráfico InfiniteTalk é construído para GGUF. Mantenha os pesos MultiTalk do InfiniteTalk e a base WanVideo em GGUF para evitar incompatibilidades. Construções opcionais fp8/fp16 também estão disponíveis: Kijai/WanVideo_comfy_fp8_scaled e Kijai/WanVideo_comfy.

Como usar o fluxo de trabalho Comfyui InfiniteTalk#

O fluxo de trabalho executa da esquerda para a direita. Você fornece três coisas: uma imagem de retrato limpa, um arquivo de áudio de fala e um prompt curto para direcionar o estilo. O gráfico então extrai pistas de texto, imagem e áudio, funde-as em latentes de vídeo conscientes de movimento e renderiza um MP4 sincronizado.

Modelos#

Este grupo carrega WanVideo, VAE, MultiTalk, CLIP Vision e o codificador de texto. WanVideoModelLoader (#122) seleciona a base Wan 2.1 I2V 14B GGUF, enquanto WanVideoVAELoader (#129) prepara o VAE correspondente. MultiTalkModelLoader (#120) carrega a variante InfiniteTalk que impulsiona o movimento orientado pela fala. Você pode opcionalmente anexar um Wan LoRA em WanVideoLoraSelect (#13) para influenciar aparência e movimento. Deixe estes intocados para uma primeira execução rápida; eles estão pré-configurados para um pipeline 480p que é amigável para a maioria das GPUs.

Prompt#

WanVideoTextEncodeCached (#241) pega seus prompts positivos e negativos e os codifica com UMT5. Use o prompt positivo para descrever o assunto e o tom da cena, não a identidade; a identidade vem da foto de referência. Mantenha o prompt negativo focado em artefatos que você deseja evitar (borrões, membros extras, fundos cinzas). Prompts em InfiniteTalk moldam principalmente iluminação e energia de movimento enquanto o rosto permanece consistente.

Imagem de entrada#

CLIPVisionLoader (#238) e WanVideoClipVisionEncode (#237) incorporam seu retrato. Use uma foto nítida, de frente, de cabeça e ombros com luz uniforme. Se necessário, corte suavemente para que o rosto tenha espaço para se mover; cortes pesados podem desestabilizar o movimento. Os embeddings da imagem são passados adiante para preservar detalhes de identidade e vestuário à medida que o vídeo é animado.

Áudio para MultiTalk#

Carregue sua fala em LoadAudio (#125); corte-a com AudioCrop (#159) para pré-visualizações rápidas. DownloadAndLoadWav2VecModel (#137) busca Wav2Vec2, e MultiTalkWav2VecEmbeds (#194) transforma o clipe em recursos de movimento conscientes de fonemas. Cortes curtos de 4–8 segundos são ótimos para iteração; você pode executar takes mais longos uma vez que goste da aparência. Faixas de voz limpa e seca funcionam melhor; música de fundo forte pode confundir a sincronização labial.

Imagem para vídeo, amostragem e saída#

WanVideoImageToVideoMultiTalk (#192) funde sua imagem, incorporações CLIP Vision e MultiTalk em incorporações de imagem quadro a quadro dimensionadas pelas constantes Width e Height. WanVideoSampler (#128) gera os quadros latentes usando o modelo WanVideo de Get_wanmodel e seus embeds de texto. WanVideoDecode (#130) converte latentes para quadros RGB. Finalmente, VHS_VideoCombine (#131) mistura quadros e áudio em um MP4 a 25 fps com uma configuração de qualidade equilibrada, produzindo o clipe InfiniteTalk final.

Nós principais no fluxo de trabalho Comfyui InfiniteTalk#

`WanVideoImageToVideoMultiTalk` (#192)#

Este nó é o coração do InfiniteTalk: ele condiciona a animação da cabeça falante mesclando a imagem inicial, recursos CLIP Vision e orientação MultiTalk na sua resolução alvo. Ajuste width e height para definir aspecto; 832×480 é um bom padrão para velocidade e estabilidade. Use-o como o principal local para alinhar identidade com movimento antes da amostragem.

`MultiTalkWav2VecEmbeds` (#194)#

Converte recursos Wav2Vec2 em embeddings de movimento MultiTalk. Se o movimento labial for muito sutil, aumente sua influência (escalonamento de áudio) nesta etapa; se for exagerado, diminua a influência. Certifique-se de que o áudio seja dominante em fala para timing de fonema confiável.

`WanVideoSampler` (#128)#

Gera os latentes de vídeo dados as incorporações de imagem, texto e MultiTalk. Para primeiras execuções, mantenha o agendador e os passos padrão. Se você notar cintilação, aumentar o total de passos ou habilitar CFG pode ajudar; se o movimento parecer muito rígido, reduza CFG ou a força do amostrador.

`WanVideoTextEncodeCached` (#241)#

Codifica prompts positivos e negativos com UMT5-XXL. Use linguagem concisa e concreta como "luz de estúdio, pele suave, cor natural" e mantenha os prompts negativos focados. Lembre-se de que prompts refinam enquadramento e estilo, enquanto a sincronização labial vem do MultiTalk.

Extras opcionais#

Mantenha MultiTalk e WanVideo na mesma família de implantação (todos GGUF ou todos não-GGUF) para evitar incompatibilidades.
Itere com um corte de áudio de 5–8 segundos e o tamanho padrão de 480p; aumente a escala posteriormente, se necessário.
Se a identidade oscilar, experimente uma foto de origem mais limpa ou um LoRA mais suave. LoRAs fortes podem sobrepor a semelhança.
Grave a fala em um quarto silencioso e normalize os níveis; o InfiniteTalk rastreia fonemas melhor com voz clara e seca.

Agradecimentos#

O fluxo de trabalho InfiniteTalk representa um grande avanço na geração de vídeo impulsionada por IA ao combinar o sistema de nós flexível do ComfyUI com o modelo de IA MultiTalk. Esta implementação foi possível graças à pesquisa original e lançamento da MeiGen-AI, cujo projeto MultiTalk impulsiona a sincronização natural de fala do InfiniteTalk. Agradecimentos especiais também vão para a equipe do projeto InfiniteTalk por fornecer a referência de origem, e para a comunidade de desenvolvedores do ComfyUI por permitir a integração perfeita do fluxo de trabalho.

Além disso, o crédito vai para Kijai, que implementou o InfiniteTalk no nó Wan Video Sampler, tornando mais fácil para os criadores produzirem retratos falantes e cantantes de alta qualidade diretamente no ComfyUI. O link do recurso original para InfiniteTalk está disponível aqui: InfiniteTalk Example Workflow.

Juntas, essas contribuições tornam possível para criadores transformarem retratos simples em avatares falantes contínuos e realistas, desbloqueando novas oportunidades para narrativas, dublagens e conteúdo de performance impulsionados por IA.

Want More ComfyUI Workflows?

Wan 2.1 Fun | I2V + T2V

Potencialize seus vídeos de IA com o Wan 2.1 Fun.

Wan 2.1 LoRA

Melhore a geração de vídeo Wan 2.1 com modelos LoRA para estilo e personalização aprimorados.

Wan 2.1 Fun | Geração de Vídeos ControlNet

Gere vídeos com passagens visuais estilo ControlNet como Profundidade, Canny e OpenPose.

Wan 2.1 | Geração de Vídeo Revolucionária

Crie vídeos incríveis a partir de texto ou imagens com IA revolucionária rodando em CPUs comuns.

Wan FusionX | T2V+I2V+VACE Completo

A solução de geração de vídeo mais poderosa até agora! Detalhe com qualidade de cinema, seu estúdio de cinema pessoal.

Wan 2.1 FLF2V | Vídeo de Quadro Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.1 FLF2V.

Qwen Image 2512 LoRA Inferência | AI Toolkit ComfyUI

Utilize um LoRA treinado pelo AI Toolkit com Qwen Image 2512 no ComfyUI através de um nó RCQwenImage2512 para gerações alinhadas ao preview.

Retrato Fantástico | Animação Fotográfica Expressiva

Foto → animação facial cinematográfica expressiva, rápida e precisa em identidade.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios