LongCat Avatar no ComfyUI | Animação de Identidade Preservada WanVideo

LongCat Avatar in ComfyUI Workflow

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

LongCat Avatar in ComfyUI Examples

LongCat Avatar no ComfyUI: imagem única para vídeo de avatar falante#

LongCat Avatar no ComfyUI transforma uma única imagem de referência em um vídeo de avatar estável em identidade e dirigido por áudio. Construído sobre o wrapper WanVideo de kijai, foca na coerência facial, continuidade de movimento suave e sincronização labial natural sem ajuste fino por personagem. Você fornece uma imagem de personagem e uma faixa de áudio; o fluxo de trabalho renderiza uma performance temporalmente consistente, adequada para clipes de cabeças falantes, performances de personagens estilizados e testes rápidos de movimento de avatares.

Criadores que desejam iteração rápida encontrarão LongCat Avatar no ComfyUI pragmático e confiável. O fluxo de trabalho usa o modelo de preservação de identidade do LongCat e um esquema de geração com janelas para estender sequências enquanto mantém expressões estáveis. As saídas são montadas em vídeo com o áudio de origem para revisão ou publicação direta.

Nota: Em máquinas 2XL ou superiores, por favor, configure o backend de atenção para "sdpa" no nó WanVideo Model Loader. O backend segeattn padrão pode causar problemas de compatibilidade em GPUs de alto desempenho.

Modelos principais no fluxo de trabalho Comfyui LongCat Avatar no ComfyUI#

Modelo LongCat-Avatar para WanVideo. Geração de imagem para vídeo focada em identidade adaptada para ComfyUI, proporcionando forte preservação de personagem ao longo dos quadros. Veja os lançamentos WanVideo Comfy de kijai no Hugging Face para checkpoints e notas. Hugging Face: Kijai/WanVideo_comfy
LongCat distill LoRA. Um LoRA destilado que reforça a estrutura facial e características de identidade durante a amostragem, melhorando a estabilidade sob movimento. Disponível com ativos WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
Wan 2.1 VAE. VAE de vídeo usado para codificar o(s) quadro(s) de referência em latentes e decodificar amostras geradas de volta para imagens. Hugging Face: Kijai/WanVideo_comfy
Codificador de texto UM-T5. Usado pelo WanVideo para interpretar prompts de texto que direcionam a descrição da cena e o estilo enquanto mantém a identidade intacta. Hugging Face: google/umt5-xxl
Representações de fala Wav2Vec 2.0. Fornece características de fala robustas que impulsionam o movimento dos lábios e mandíbula via embeddigns MultiTalk. Artigo de fundo: wav2vec 2.0. arXiv e uma variante de modelo compatível: Hugging Face: TencentGameMate/chinese-wav2vec2-base
Separador vocal MelBandRoFormer. Separação opcional de vocal-música para que o módulo de sincronização labial receba um sinal de fala mais limpo. Hugging Face: Kijai/MelBandRoFormer_comfy

Como usar o fluxo de trabalho Comfyui LongCat Avatar no ComfyUI#

O fluxo de trabalho tem três fases principais: modelos e configurações, áudio para pistas de movimento, e imagem de referência para vídeo com extensão em janela. Ele renderiza a uma taxa fixa projetada para movimento dirigido por áudio, depois costura janelas para um clipe contínuo.

Modelos
- O WanVideoModelLoader (#122) carrega o checkpoint LongCat-Avatar e o LongCat distill LoRA, enquanto WanVideoVAELoader (#129) fornece o VAE de vídeo. O WanVideoSchedulerv2 (#325) prepara o cronograma do sampler usado durante a difusão. Esses componentes definem fidelidade, retenção de identidade e o visual geral. Uma vez configurados, eles atuam como a espinha dorsal para todas as etapas subsequentes de amostragem.
Áudio
- Carregue uma faixa de voz com LoadAudio (#125), opcionalmente corte com TrimAudioDuration (#317), e separe vocais com MelBandRoFormerSampler (#302) para reduzir o sangramento de fundo. MultiTalkWav2VecEmbeds (#194) converte a fala limpa em embeddigns que impulsionam o movimento da boca e dinâmicas sutis da cabeça. A contagem efetiva de quadros é derivada da duração do áudio, então áudios mais longos levam a sequências mais longas. O fluxo de áudio é posteriormente multiplexado com imagens na etapa de combinação de vídeo.
Imagem de entrada
- Adicione sua imagem de personagem com LoadImage (#284). ImageResizeKJv2 (#281) dimensiona para o modelo, e WanVideoEncode (#312) transforma em um ref_latent que ancora a identidade em todos os quadros. Este latente é a referência fixa que o pipeline LongCat Avatar no ComfyUI reutiliza enquanto injeta movimento variável no tempo a partir de áudio e prompts.
Estender janela 1
- WanVideoLongCatAvatarExtendEmbeds (#345) funde o ref_latent com embeddigns de áudio para criar embeddigns de imagem para a primeira janela. WanVideoSamplerv2 (#324) então denoise os latentes em um clipe curto. WanVideoDecode (#313) transforma esses em imagens para visualização e o primeiro vídeo exportado com VHS_VideoCombine (#320). O tamanho da janela e a sobreposição são rastreados internamente para que a próxima janela possa se alinhar sem costuras visíveis.
Estender janela 2
- O segundo grupo de extensão repete a mesma ideia para continuar a sequência. WanVideoLongCatAvatarExtendEmbeds (#346, #461) computa embeddigns condicionados nos latentes anteriores, enquadrados pela sobreposição atual. WanVideoSamplerv2 (#327, #456) gera o próximo pedaço, que é decodificado e mesclado com ImageBatchExtendWithOverlap (#341, #460) para manter a continuidade. Etapas adicionais de janela podem ser repetidas para resultados mais longos, e cada estágio pode ser exportado com VHS_VideoCombine (#386, #453).

Nós principais no fluxo de trabalho Comfyui LongCat Avatar no ComfyUI#

WanVideoModelLoader (#122)
- Carrega o checkpoint LongCat-Avatar e anexa o LongCat distill LoRA, definindo fidelidade de identidade e comportamento de movimento. Se você executar instâncias maiores, altere a implementação de atenção para melhor rendimento conforme recomendado no wrapper WanVideo. Repositório de referência: github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds (#194)
- Produz embeddigns dirigidos por áudio a partir da fala que guiam lábios, mandíbula e movimento sutil da cabeça. Para articulação mais forte, aumente a influência da fala e considere uma passagem adicional para sincronização mais apertada quando seu áudio estiver muito claro. Informações do modelo de fundo: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds (#346)
- Essencial para LongCat Avatar no ComfyUI, este nó estende embeddigns de imagem ao longo do tempo enquanto permanece ancorado no latente de referência. Ajuste o comprimento da janela e a sobreposição para equilibrar suavidade, tempo de execução e estabilidade em clipes mais longos.
WanVideoSamplerv2 (#327)
- Executa o processo de difusão usando o modelo, agendador, orientação de texto e embeddigns de imagem. Ajuste a força da orientação para equilibrar aderência ao prompt contra variação; pequenas mudanças podem ter efeitos visíveis na rigidez da identidade e movimento.
VHS_VideoCombine (#320)
- Muxa quadros renderizados com o áudio original em um mp4 para visualização fácil. Use a opção de corte embutida quando quiser que os visuais terminem exatamente com o áudio ou para exportar apenas a janela mais recente.

Extras opcionais#

Certifique-se de que a duração do áudio cobre todas as janelas de extensão planejadas para evitar ficar sem fala no meio da sequência.
Para clipes longos, aumente o tamanho da janela moderadamente e mantenha alguma sobreposição para que as transições permaneçam suaves; pouca sobreposição pode introduzir estalos, muita pode desacelerar a renderização.
O pipeline opera a uma taxa de quadros fixa vinculada ao passo dirigido por fala, que mantém a sincronização labial alinhada durante a exportação.
Se você usar um tipo de máquina grande, configure a implementação de atenção no carregador de modelo para uma opção eficiente em memória para melhor velocidade.
Não misture formatos de modelo incompatíveis; mantenha o modelo principal e quaisquer componentes de fala em famílias correspondentes conforme fornecido nos lançamentos WanVideo Comfy. Hubs de modelos úteis: Kijai/WanVideo_comfy e variantes GGUF como city96/Wan2.1-I2V-14B-480P-gguf.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a Kijai pelo ComfyUI-WanVideoWrapper (fluxo de trabalho LongCatAvatar) e @Benji’s AI Playground o criador do vídeo do YouTube referenciado por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

YouTube/Video tutorial
- Docs / Release Notes: Benji’s AI Playground YouTube video
Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Docs / Release Notes: LongCatAvatar_testing_wip.json (branch longcat_avatar)

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 | Geração de Vídeo Revolucionária

Crie vídeos incríveis a partir de texto ou imagens com IA revolucionária rodando em CPUs comuns.

Wan 2.1 LoRA

Melhore a geração de vídeo Wan 2.1 com modelos LoRA para estilo e personalização aprimorados.

Wan 2.1 Control LoRA | Profundidade e Azulejo

Avance na geração de vídeo Wan 2.1 com LoRAs de profundidade e azulejo leves para melhorar a estrutura e o detalhe.

Janus-Pro | Modelo T2I + I2T

Janus-Pro: Geração Avançada de Texto-para-Imagem e Imagem-para-Texto.

Wan FusionX | T2V+I2V+VACE Completo

A solução de geração de vídeo mais poderosa até agora! Detalhe com qualidade de cinema, seu estúdio de cinema pessoal.

Wan Alpha | Gerador de Vídeo Transparente

Magia do Alpha: vídeos instantâneos com fundo transparente para VFX e design.

LTX 2.3 Cozy Felt | Criador de Texto-para-Vídeo Suave

Transforme suas ideias em vídeos no estilo feltro artesanal sem esforço.

MeshGraphormer ControlNet | Corrigir Mãos

O MeshGraphormer ControlNet corrige mãos malformadas em imagens, preservando o restante.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LongCat Avatar no ComfyUI | Animação de Avatar Consistente em Identidade