ComfyUI>Fluxos de Trabalho>LongCat Video Avatar 1.5 ComfyUI | Gerador Sincronizado com Lábios

LongCat Video Avatar 1.5 ComfyUI | Gerador Sincronizado com Lábios

Workflow Name: RunComfy/LongCat-Video-Avatar-1.5
Workflow ID: 0000...1437
Este fluxo de trabalho ajuda você a transformar uma imagem de personagem e um clipe de áudio em um vídeo de avatar falante perfeitamente alinhado. Ele utiliza LongCat-Avatar-15 com nós WanVideoWrapper para sincronização labial precisa. Com análise de áudio Whisper e decodificação Wan 2.1 VAE, ele gera saídas verticais em MP4 prontas para publicação. Você pode integrá-lo facilmente e executá-lo em seu pipeline criativo. Perfeito para criadores de conteúdo, designers visuais e desenvolvedores que precisam de um gerador confiável de vídeo avatar.

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

LongCat Video Avatar 1.5 Single Character ComfyUI | Audio2Video Sync
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Este fluxo de trabalho transforma uma única imagem de referência e uma faixa de voz em um avatar falante vertical sincronizado com os lábios. Construído em torno do LongCat-Avatar-15 e dos nós personalizados WanVideoWrapper, ele usa Whisper para extrair sinais de fala, Wan 2.1 VAE para codificação/decodificação latente e um LongCat LoRA destilado para preservar a identidade. O resultado é um vídeo retrato em MP4 que mantém a aparência do personagem e o movimento da boca em sincronia.

Projetado como o caminho de um único personagem, o fluxo de trabalho LongCat Video Avatar 1.5 Single Character ComfyUI é ideal para criadores que querem um modelo pronto para RunComfy com entradas claras e uma saída reproduzível. Você fornece uma imagem de rosto e um clipe de áudio, ajusta alguns prompts de estilo e renderiza um vídeo avatar consistente sem fiação extra.

Modelos principais no fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

  • LongCat-Avatar-15 (destilado) e LongCat Avatar LoRA: pesos de geração de vídeo que preservam a identidade adaptados para ComfyUI. Fornecido no pacote comunitário para que o avatar mantenha a aparência enquanto fala. Arquivos do modelo
  • Wan 2.1 VAE: autoencoder variacional orientado para vídeo usado para codificar o quadro de referência em latentes e decodificar quadros finais de volta para imagens. Incluído no mesmo pacote comunitário. Arquivos do modelo
  • OpenAI Whisper large v3: representação de fala que orienta formas da boca e tempo para sincronização labial precisa. Cartão do modelo
  • Google UMT5‑XXL text encoder: converte prompts positivos/negativos em condicionamento para nuances de movimento e pose. Cartão do modelo

Como usar o fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

O gráfico segue um caminho claro das entradas para o vídeo: carregar ativos, calcular embeddings de áudio, preparar orientação de texto, codificar a aparência, amostrar quadros, então muxar áudio e salvar.

Imagem de referência#

Carregue um retrato de frente único em LoadImage (#26). A imagem é normalizada por ImageResizeKJv2 (#25) para uma tela vertical 9:16 para que o personagem preencha o quadro sem distorção. Use um rosto limpo, uniformemente iluminado, com mínimas obstruções para melhor retenção de identidade. Se sua fonte for mais larga que alta, corte ao redor da cabeça e ombros.

Áudio de voz#

Solte um arquivo de áudio em LoadAudio (#5). Se necessário, corte-o com TrimAudioDuration (#29) para que a duração final do vídeo corresponda ao seu alvo. A pequena utilidade matemática (Evaluate Floats (#39)) multiplica os segundos escolhidos por quadros por segundo para definir a contagem total de quadros automaticamente. Uma maneira rápida de controlar a duração é ajustar os segundos ou FPS antes de renderizar.

Embeddings de fala (sincronização labial)#

LongCatAvatarWhisperEmbeds (#3) executa Whisper para produzir embeddings MultiTalk que codificam fonemas, pausas e ênfase. Esses embeddings são a espinha dorsal do tempo para formas da boca e movimento sutil da cabeça. Certifique-se de que os quadros totais e FPS aqui correspondam às suas configurações de exportação para evitar desvio. Opcionalmente, ative a normalização de volume quando sua gravação variar em nível.

Orientação de texto#

LoadWanVideoT5TextEncoder (#16) e WanVideoTextEncode (#15) transformam seus prompts positivos e negativos em condicionamento. Use o prompt positivo para descrever o comportamento natural que deseja (movimentos suaves da cabeça, acenos sutis) e mantenha o prompt negativo para artefatos a evitar (movimento rígido, mãos deformadas). A orientação de texto dá um empurrão no estilo de movimento sem alterar a identidade do personagem.

Codificar a aparência#

WanVideoVAELoader (#19) e WanVideoEncode (#24) convertem seu retrato em latentes. WanVideoLongCatAvatarExtendEmbeds (#6) então funde o latente de referência com os embeddings de áudio para que a identidade seja estável entre os quadros enquanto a boca segue a fala. Se o áudio for mais curto que o clipe, o nó pode preencher ou repetir inteligentemente para que o tempo permaneça suave.

Carregar o modelo de avatar#

WanVideoLoraSelect (#27) conecta o LongCat Avatar LoRA destilado ao modelo base LongCat‑Avatar‑15, todos carregados por WanVideoModelLoader (#8). Este emparelhamento preserva traços faciais enquanto permite movimento expressivo ao falar. Auxiliares de troca de bloco internos mantêm o uso de VRAM previsível em GPUs compartilhadas ou modestas.

Amostrar quadros#

WanVideoSchedulerv2 (#52) escolhe um cronograma de solução ajustado para destilar LongCat, e WanVideoSamplerv2 (#51) gera o vídeo latente. Defina uma semente para resultados reproduzíveis e ajuste a força de orientação se precisar de mais ou menos adesão aos prompts. O sampler leva imagem, texto e embeddings de imagem guiados por áudio juntos para que a boca, cabeça e identidade coesos.

Decodificar e salvar MP4#

WanVideoDecode (#20) transforma os latentes finais de volta em imagens. VHS_VideoCombine (#14) mescla quadros e áudio em um MP4 H.264 com a taxa de quadros e prefixo de nome de arquivo especificados. A saída é um clipe de avatar falante vertical pronto para compartilhar que mantém a sincronização labial e o estilo intactos.

Nós principais no fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

LongCatAvatarWhisperEmbeds (#3)#

Cria embeddings de áudio MultiTalk a partir do Whisper que impulsionam a sincronização labial e micro-temporalidade. Mantenha fps e num_frames alinhados com sua exportação para evitar dessincronização. Quando as gravações variam em nível, ative a normalização de volume. Este nó vem da integração LongCat do WanVideoWrapper. Repositório

WanVideoLongCatAvatarExtendEmbeds (#6)#

Funde os latentes de referência e os embeddings de áudio em embeddings de imagem cientes do quadro. Se sua fala for mais curta que o comprimento alvo, escolha como preencher ou repetir para que o movimento permaneça natural. Configurações de sobreposição e quadro de referência ajudam a manter a estabilidade da identidade entre fatias em clipes mais longos. Repositório

WanVideoModelLoader (#8)#

Carrega a base LongCat‑Avatar‑15 com o LongCat Avatar LoRA selecionado para fidelidade de identidade. Use-o com a gestão de VRAM incluída e opções de troca de bloco ao rodar em hardware limitado. Troque para uma variante LongCat diferente ou LoRA aqui para mudar o estilo sem reconfiguração. Repositório

WanVideoSamplerv2 (#51)#

O gerador principal que sintetiza quadros a partir de modelo, programador, texto e embeddings de imagem. Ajuste a orientação sem classificador se precisar de aderência mais rigorosa aos prompts ou movimento mais solto. Fixe a semente para travar a reprodutibilidade em várias renderizações. Repositório

ImageResizeKJv2 (#25)#

Prepara uma tela orientada para retrato para que o avatar preencha um quadro 9:16. Mantenha cortes corretos de aspecto ao redor do rosto e ombros para codificação de identidade confiável. Correspondência da divisibilidade do codificador/decodificador evita artefatos de borda.

VHS_VideoCombine (#14)#

Muxa quadros e áudio em um único MP4 com sua taxa de quadros e prefixo de nome de arquivo escolhidos. Ative o salvamento de metadados para facilitar o rastreamento de iteração. Este nó é parte do VideoHelperSuite. Repositório

Extras opcionais#

  • Use uma foto neutra, voltada para frente, com olhos e boca claros; evite obstruções pesadas e ângulos extremos.
  • Limpe o áudio (remova longos silêncios, reduza o ruído de fundo) para um movimento de boca mais estável.
  • Mantenha o FPS consistente entre a etapa de embedding do Whisper e a exportação final para manter a sincronização labial apertada.
  • Para uma preservação mais forte da identidade, fique com o LongCat Avatar LoRA fornecido; troque LoRAs apenas quando pretender uma mudança de estilo. Arquivos do modelo
  • Defina uma semente fixa quando precisar de rerenders idênticos ou testar A/B apenas uma única mudança de prompt.
  • Em VRAM inferior, ative a troca de bloco no carregador de modelo para trocar alguma velocidade por estabilidade.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos RunningHub pela fonte do fluxo de trabalho, Meigen AI pelo LongCat Video Avatar 1.5, e Kijai pelo LongCat-Video_comfy e ComfyUI-WanVideoWrapper por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.