LongCat Video Avatar 1.5 Single Character ComfyUI

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Este fluxo de trabalho transforma uma única imagem de referência e uma faixa de voz em um avatar falante vertical sincronizado com os lábios. Construído em torno do LongCat-Avatar-15 e dos nós personalizados WanVideoWrapper, ele usa Whisper para extrair sinais de fala, Wan 2.1 VAE para codificação/decodificação latente e um LongCat LoRA destilado para preservar a identidade. O resultado é um vídeo retrato em MP4 que mantém a aparência do personagem e o movimento da boca em sincronia.

Projetado como o caminho de um único personagem, o fluxo de trabalho LongCat Video Avatar 1.5 Single Character ComfyUI é ideal para criadores que querem um modelo pronto para RunComfy com entradas claras e uma saída reproduzível. Você fornece uma imagem de rosto e um clipe de áudio, ajusta alguns prompts de estilo e renderiza um vídeo avatar consistente sem fiação extra.

Modelos principais no fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

LongCat-Avatar-15 (destilado) e LongCat Avatar LoRA: pesos de geração de vídeo que preservam a identidade adaptados para ComfyUI. Fornecido no pacote comunitário para que o avatar mantenha a aparência enquanto fala. Arquivos do modelo
Wan 2.1 VAE: autoencoder variacional orientado para vídeo usado para codificar o quadro de referência em latentes e decodificar quadros finais de volta para imagens. Incluído no mesmo pacote comunitário. Arquivos do modelo
OpenAI Whisper large v3: representação de fala que orienta formas da boca e tempo para sincronização labial precisa. Cartão do modelo
Google UMT5‑XXL text encoder: converte prompts positivos/negativos em condicionamento para nuances de movimento e pose. Cartão do modelo

Como usar o fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

O gráfico segue um caminho claro das entradas para o vídeo: carregar ativos, calcular embeddings de áudio, preparar orientação de texto, codificar a aparência, amostrar quadros, então muxar áudio e salvar.

Imagem de referência#

Carregue um retrato de frente único em LoadImage (#26). A imagem é normalizada por ImageResizeKJv2 (#25) para uma tela vertical 9:16 para que o personagem preencha o quadro sem distorção. Use um rosto limpo, uniformemente iluminado, com mínimas obstruções para melhor retenção de identidade. Se sua fonte for mais larga que alta, corte ao redor da cabeça e ombros.

Áudio de voz#

Solte um arquivo de áudio em LoadAudio (#5). Se necessário, corte-o com TrimAudioDuration (#29) para que a duração final do vídeo corresponda ao seu alvo. A pequena utilidade matemática (Evaluate Floats (#39)) multiplica os segundos escolhidos por quadros por segundo para definir a contagem total de quadros automaticamente. Uma maneira rápida de controlar a duração é ajustar os segundos ou FPS antes de renderizar.

Embeddings de fala (sincronização labial)#

LongCatAvatarWhisperEmbeds (#3) executa Whisper para produzir embeddings MultiTalk que codificam fonemas, pausas e ênfase. Esses embeddings são a espinha dorsal do tempo para formas da boca e movimento sutil da cabeça. Certifique-se de que os quadros totais e FPS aqui correspondam às suas configurações de exportação para evitar desvio. Opcionalmente, ative a normalização de volume quando sua gravação variar em nível.

Orientação de texto#

LoadWanVideoT5TextEncoder (#16) e WanVideoTextEncode (#15) transformam seus prompts positivos e negativos em condicionamento. Use o prompt positivo para descrever o comportamento natural que deseja (movimentos suaves da cabeça, acenos sutis) e mantenha o prompt negativo para artefatos a evitar (movimento rígido, mãos deformadas). A orientação de texto dá um empurrão no estilo de movimento sem alterar a identidade do personagem.

Codificar a aparência#

WanVideoVAELoader (#19) e WanVideoEncode (#24) convertem seu retrato em latentes. WanVideoLongCatAvatarExtendEmbeds (#6) então funde o latente de referência com os embeddings de áudio para que a identidade seja estável entre os quadros enquanto a boca segue a fala. Se o áudio for mais curto que o clipe, o nó pode preencher ou repetir inteligentemente para que o tempo permaneça suave.

Carregar o modelo de avatar#

WanVideoLoraSelect (#27) conecta o LongCat Avatar LoRA destilado ao modelo base LongCat‑Avatar‑15, todos carregados por WanVideoModelLoader (#8). Este emparelhamento preserva traços faciais enquanto permite movimento expressivo ao falar. Auxiliares de troca de bloco internos mantêm o uso de VRAM previsível em GPUs compartilhadas ou modestas.

Amostrar quadros#

WanVideoSchedulerv2 (#52) escolhe um cronograma de solução ajustado para destilar LongCat, e WanVideoSamplerv2 (#51) gera o vídeo latente. Defina uma semente para resultados reproduzíveis e ajuste a força de orientação se precisar de mais ou menos adesão aos prompts. O sampler leva imagem, texto e embeddings de imagem guiados por áudio juntos para que a boca, cabeça e identidade coesos.

Decodificar e salvar MP4#

WanVideoDecode (#20) transforma os latentes finais de volta em imagens. VHS_VideoCombine (#14) mescla quadros e áudio em um MP4 H.264 com a taxa de quadros e prefixo de nome de arquivo especificados. A saída é um clipe de avatar falante vertical pronto para compartilhar que mantém a sincronização labial e o estilo intactos.

Nós principais no fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

`LongCatAvatarWhisperEmbeds` (#3)#

Cria embeddings de áudio MultiTalk a partir do Whisper que impulsionam a sincronização labial e micro-temporalidade. Mantenha fps e num_frames alinhados com sua exportação para evitar dessincronização. Quando as gravações variam em nível, ative a normalização de volume. Este nó vem da integração LongCat do WanVideoWrapper. Repositório

`WanVideoLongCatAvatarExtendEmbeds` (#6)#

Funde os latentes de referência e os embeddings de áudio em embeddings de imagem cientes do quadro. Se sua fala for mais curta que o comprimento alvo, escolha como preencher ou repetir para que o movimento permaneça natural. Configurações de sobreposição e quadro de referência ajudam a manter a estabilidade da identidade entre fatias em clipes mais longos. Repositório

`WanVideoModelLoader` (#8)#

Carrega a base LongCat‑Avatar‑15 com o LongCat Avatar LoRA selecionado para fidelidade de identidade. Use-o com a gestão de VRAM incluída e opções de troca de bloco ao rodar em hardware limitado. Troque para uma variante LongCat diferente ou LoRA aqui para mudar o estilo sem reconfiguração. Repositório

`WanVideoSamplerv2` (#51)#

O gerador principal que sintetiza quadros a partir de modelo, programador, texto e embeddings de imagem. Ajuste a orientação sem classificador se precisar de aderência mais rigorosa aos prompts ou movimento mais solto. Fixe a semente para travar a reprodutibilidade em várias renderizações. Repositório

`ImageResizeKJv2` (#25)#

Prepara uma tela orientada para retrato para que o avatar preencha um quadro 9:16. Mantenha cortes corretos de aspecto ao redor do rosto e ombros para codificação de identidade confiável. Correspondência da divisibilidade do codificador/decodificador evita artefatos de borda.

`VHS_VideoCombine` (#14)#

Muxa quadros e áudio em um único MP4 com sua taxa de quadros e prefixo de nome de arquivo escolhidos. Ative o salvamento de metadados para facilitar o rastreamento de iteração. Este nó é parte do VideoHelperSuite. Repositório

Extras opcionais#

Use uma foto neutra, voltada para frente, com olhos e boca claros; evite obstruções pesadas e ângulos extremos.
Limpe o áudio (remova longos silêncios, reduza o ruído de fundo) para um movimento de boca mais estável.
Mantenha o FPS consistente entre a etapa de embedding do Whisper e a exportação final para manter a sincronização labial apertada.
Para uma preservação mais forte da identidade, fique com o LongCat Avatar LoRA fornecido; troque LoRAs apenas quando pretender uma mudança de estilo. Arquivos do modelo
Defina uma semente fixa quando precisar de rerenders idênticos ou testar A/B apenas uma única mudança de prompt.
Em VRAM inferior, ative a troca de bloco no carregador de modelo para trocar alguma velocidade por estabilidade.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos RunningHub pela fonte do fluxo de trabalho, Meigen AI pelo LongCat Video Avatar 1.5, e Kijai pelo LongCat-Video_comfy e ComfyUI-WanVideoWrapper por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

RunningHub/Fonte do fluxo de trabalho
- Documentos / Notas de Lançamento: Fonte do fluxo de trabalho RunningHub
Meigen AI/Página do projeto LongCat Video Avatar 1.5
- Documentos / Notas de Lançamento: Página do projeto LongCat Video Avatar 1.5
Kijai/Arquivos de modelo LongCat Video Comfy
- Hugging Face: Kijai/LongCat-Video_comfy
Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

Foto + Voz = Avatar Falante Perfeitamente Sincronizado em Minutos

Multitalk | Criador de Vídeo Falante Realista

Crie vídeos de sincronização labial com vários falantes a partir de retratos e vozes com um clique!

LatentSync| Modelo de Sincronização Labial

Tecnologia avançada de sincronização labial guiada por áudio.

Hallo2 | Animação de Retrato com Sincronização Labial

Sincronização labial guiada por áudio para animação de retratos em 4K.

Flux TTP Upscale | Restauração de Rostos 4K

Repare rostos distorcidos e amplie imagens para resolução 4K.

Wan 2.2 Animate | Troca de Personagens & Sincronização Labial

Transforma qualquer rosto para falar e se mover como o original com facilidade.

LongCat Avatar no ComfyUI | Animação de Avatar Consistente em Identidade

Transforma uma imagem em animação de avatar suave e consistente em identidade.

Wan 2.2 Lightning T2V I2V | 4 Etapas Ultra Rápido

Wan 2.2 agora 20x mais rápido! T2V + I2V em 4 etapas.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LongCat Video Avatar 1.5 ComfyUI | Gerador Sincronizado com Lábios