logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>Fluxos de Trabalho>InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

Workflow Name: RunComfy/InfiniteTalk
Workflow ID: 0000...1278
Usando o fluxo de trabalho InfiniteTalk, você pode criar vídeos de avatar realistas a partir de um retrato e voz, com identidade consistente, sincronização labial precisa e animação personalizável impulsionada por prompts, alimentada pelo modelo MultiTalk AI.

ComfyUI InfiniteTalk Workflow

ComfyUI InfiniteTalk Workflow | Audio-Portrait to Lip-Synced Video
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI InfiniteTalk Examples

ComfyUI InfiniteTalk Description

InfiniteTalk: vídeo de retrato sincronizado com lábios a partir de uma única imagem no ComfyUI

Este fluxo de trabalho InfiniteTalk do ComfyUI cria vídeos de retrato naturais e sincronizados com a fala a partir de uma única imagem de referência e um clipe de áudio. Ele combina a geração de imagem para vídeo do WanVideo 2.1 com o modelo de cabeça falante MultiTalk para produzir movimento labial expressivo e identidade estável. Se você precisa de clipes sociais curtos, dublagens de vídeo ou atualizações de avatar, o InfiniteTalk transforma uma foto estática em um vídeo falante fluido em minutos.

O InfiniteTalk é baseado na excelente pesquisa MultiTalk da MeiGen-AI. Para contexto e atribuições, veja o projeto de código aberto: .

Modelos principais no fluxo de trabalho Comfyui InfiniteTalk

  • MultiTalk (GGUF, variante InfiniteTalk): Impulsiona o movimento facial consciente de fonemas a partir do áudio, para que os movimentos da boca e mandíbula acompanhem a fala naturalmente. Referência: e ideia original: .
  • WanVideo 2.1 I2V 14B (GGUF): O gerador primário de imagem para vídeo que preserva identidade, iluminação e pose enquanto anima os quadros. Pesos recomendados: .
  • Wan 2.1 VAE (bf16): Decodifica quadros latentes para RGB com mudança mínima de cor; fornecido nos pacotes WanVideo acima.
  • Codificador de texto UMT5-XXL: Interpreta seus prompts positivos e negativos para ajustar estilo, cena e contexto de movimento. Família do modelo: .
  • CLIP Vision: Extrai embeddings visuais da sua imagem de referência para fixar identidade e aparência geral.
  • Wav2Vec2 (Tencent GameMate): Converte fala bruta em recursos de áudio robustos para embeddings MultiTalk, melhorando sincronização e prosódia: .

Dica: este gráfico InfiniteTalk é construído para GGUF. Mantenha os pesos MultiTalk do InfiniteTalk e a base WanVideo em GGUF para evitar incompatibilidades. Construções opcionais fp8/fp16 também estão disponíveis: e .


Como usar o fluxo de trabalho Comfyui InfiniteTalk

O fluxo de trabalho executa da esquerda para a direita. Você fornece três coisas: uma imagem de retrato limpa, um arquivo de áudio de fala e um prompt curto para direcionar o estilo. O gráfico então extrai pistas de texto, imagem e áudio, funde-as em latentes de vídeo conscientes de movimento e renderiza um MP4 sincronizado.

Modelos

Este grupo carrega WanVideo, VAE, MultiTalk, CLIP Vision e o codificador de texto. WanVideoModelLoader (#122) seleciona a base Wan 2.1 I2V 14B GGUF, enquanto WanVideoVAELoader (#129) prepara o VAE correspondente. MultiTalkModelLoader (#120) carrega a variante InfiniteTalk que impulsiona o movimento orientado pela fala. Você pode opcionalmente anexar um Wan LoRA em WanVideoLoraSelect (#13) para influenciar aparência e movimento. Deixe estes intocados para uma primeira execução rápida; eles estão pré-configurados para um pipeline 480p que é amigável para a maioria das GPUs.

Prompt

WanVideoTextEncodeCached (#241) pega seus prompts positivos e negativos e os codifica com UMT5. Use o prompt positivo para descrever o assunto e o tom da cena, não a identidade; a identidade vem da foto de referência. Mantenha o prompt negativo focado em artefatos que você deseja evitar (borrões, membros extras, fundos cinzas). Prompts em InfiniteTalk moldam principalmente iluminação e energia de movimento enquanto o rosto permanece consistente.

Imagem de entrada

CLIPVisionLoader (#238) e WanVideoClipVisionEncode (#237) incorporam seu retrato. Use uma foto nítida, de frente, de cabeça e ombros com luz uniforme. Se necessário, corte suavemente para que o rosto tenha espaço para se mover; cortes pesados podem desestabilizar o movimento. Os embeddings da imagem são passados adiante para preservar detalhes de identidade e vestuário à medida que o vídeo é animado.

Áudio para MultiTalk

Carregue sua fala em LoadAudio (#125); corte-a com AudioCrop (#159) para pré-visualizações rápidas. DownloadAndLoadWav2VecModel (#137) busca Wav2Vec2, e MultiTalkWav2VecEmbeds (#194) transforma o clipe em recursos de movimento conscientes de fonemas. Cortes curtos de 4–8 segundos são ótimos para iteração; você pode executar takes mais longos uma vez que goste da aparência. Faixas de voz limpa e seca funcionam melhor; música de fundo forte pode confundir a sincronização labial.

Imagem para vídeo, amostragem e saída

WanVideoImageToVideoMultiTalk (#192) funde sua imagem, incorporações CLIP Vision e MultiTalk em incorporações de imagem quadro a quadro dimensionadas pelas constantes Width e Height. WanVideoSampler (#128) gera os quadros latentes usando o modelo WanVideo de Get_wanmodel e seus embeds de texto. WanVideoDecode (#130) converte latentes para quadros RGB. Finalmente, VHS_VideoCombine (#131) mistura quadros e áudio em um MP4 a 25 fps com uma configuração de qualidade equilibrada, produzindo o clipe InfiniteTalk final.


Nós principais no fluxo de trabalho Comfyui InfiniteTalk

WanVideoImageToVideoMultiTalk (#192)

Este nó é o coração do InfiniteTalk: ele condiciona a animação da cabeça falante mesclando a imagem inicial, recursos CLIP Vision e orientação MultiTalk na sua resolução alvo. Ajuste width e height para definir aspecto; 832×480 é um bom padrão para velocidade e estabilidade. Use-o como o principal local para alinhar identidade com movimento antes da amostragem.

MultiTalkWav2VecEmbeds (#194)

Converte recursos Wav2Vec2 em embeddings de movimento MultiTalk. Se o movimento labial for muito sutil, aumente sua influência (escalonamento de áudio) nesta etapa; se for exagerado, diminua a influência. Certifique-se de que o áudio seja dominante em fala para timing de fonema confiável.

WanVideoSampler (#128)

Gera os latentes de vídeo dados as incorporações de imagem, texto e MultiTalk. Para primeiras execuções, mantenha o agendador e os passos padrão. Se você notar cintilação, aumentar o total de passos ou habilitar CFG pode ajudar; se o movimento parecer muito rígido, reduza CFG ou a força do amostrador.

WanVideoTextEncodeCached (#241)

Codifica prompts positivos e negativos com UMT5-XXL. Use linguagem concisa e concreta como "luz de estúdio, pele suave, cor natural" e mantenha os prompts negativos focados. Lembre-se de que prompts refinam enquadramento e estilo, enquanto a sincronização labial vem do MultiTalk.

Extras opcionais

  • Mantenha MultiTalk e WanVideo na mesma família de implantação (todos GGUF ou todos não-GGUF) para evitar incompatibilidades.
  • Itere com um corte de áudio de 5–8 segundos e o tamanho padrão de 480p; aumente a escala posteriormente, se necessário.
  • Se a identidade oscilar, experimente uma foto de origem mais limpa ou um LoRA mais suave. LoRAs fortes podem sobrepor a semelhança.
  • Grave a fala em um quarto silencioso e normalize os níveis; o InfiniteTalk rastreia fonemas melhor com voz clara e seca.

Agradecimentos

O fluxo de trabalho InfiniteTalk representa um grande avanço na geração de vídeo impulsionada por IA ao combinar o sistema de nós flexível do ComfyUI com o modelo de IA MultiTalk. Esta implementação foi possível graças à pesquisa original e lançamento da MeiGen-AI, cujo projeto impulsiona a sincronização natural de fala do InfiniteTalk. Agradecimentos especiais também vão para a equipe do projeto InfiniteTalk por fornecer a referência de origem, e para a comunidade de desenvolvedores do ComfyUI por permitir a integração perfeita do fluxo de trabalho.

Além disso, o crédito vai para Kijai, que implementou o InfiniteTalk no nó Wan Video Sampler, tornando mais fácil para os criadores produzirem retratos falantes e cantantes de alta qualidade diretamente no ComfyUI. O link do recurso original para InfiniteTalk está disponível aqui: .

Juntas, essas contribuições tornam possível para criadores transformarem retratos simples em avatares falantes contínuos e realistas, desbloqueando novas oportunidades para narrativas, dublagens e conteúdo de performance impulsionados por IA.

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2025 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.