LongCat Video Avatar 1.5 Single Character ComfyUI#
Este fluxo de trabalho transforma uma única imagem de referência e uma faixa de voz em um avatar falante vertical sincronizado com os lábios. Construído em torno do LongCat-Avatar-15 e dos nós personalizados WanVideoWrapper, ele usa Whisper para extrair sinais de fala, Wan 2.1 VAE para codificação/decodificação latente e um LongCat LoRA destilado para preservar a identidade. O resultado é um vídeo retrato em MP4 que mantém a aparência do personagem e o movimento da boca em sincronia.
Projetado como o caminho de um único personagem, o fluxo de trabalho LongCat Video Avatar 1.5 Single Character ComfyUI é ideal para criadores que querem um modelo pronto para RunComfy com entradas claras e uma saída reproduzível. Você fornece uma imagem de rosto e um clipe de áudio, ajusta alguns prompts de estilo e renderiza um vídeo avatar consistente sem fiação extra.
Modelos principais no fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
- LongCat-Avatar-15 (destilado) e LongCat Avatar LoRA: pesos de geração de vídeo que preservam a identidade adaptados para ComfyUI. Fornecido no pacote comunitário para que o avatar mantenha a aparência enquanto fala. Arquivos do modelo
- Wan 2.1 VAE: autoencoder variacional orientado para vídeo usado para codificar o quadro de referência em latentes e decodificar quadros finais de volta para imagens. Incluído no mesmo pacote comunitário. Arquivos do modelo
- OpenAI Whisper large v3: representação de fala que orienta formas da boca e tempo para sincronização labial precisa. Cartão do modelo
- Google UMT5‑XXL text encoder: converte prompts positivos/negativos em condicionamento para nuances de movimento e pose. Cartão do modelo
Como usar o fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
O gráfico segue um caminho claro das entradas para o vídeo: carregar ativos, calcular embeddings de áudio, preparar orientação de texto, codificar a aparência, amostrar quadros, então muxar áudio e salvar.
Imagem de referência#
Carregue um retrato de frente único em LoadImage (#26). A imagem é normalizada por ImageResizeKJv2 (#25) para uma tela vertical 9:16 para que o personagem preencha o quadro sem distorção. Use um rosto limpo, uniformemente iluminado, com mínimas obstruções para melhor retenção de identidade. Se sua fonte for mais larga que alta, corte ao redor da cabeça e ombros.
Áudio de voz#
Solte um arquivo de áudio em LoadAudio (#5). Se necessário, corte-o com TrimAudioDuration (#29) para que a duração final do vídeo corresponda ao seu alvo. A pequena utilidade matemática (Evaluate Floats (#39)) multiplica os segundos escolhidos por quadros por segundo para definir a contagem total de quadros automaticamente. Uma maneira rápida de controlar a duração é ajustar os segundos ou FPS antes de renderizar.
Embeddings de fala (sincronização labial)#
LongCatAvatarWhisperEmbeds (#3) executa Whisper para produzir embeddings MultiTalk que codificam fonemas, pausas e ênfase. Esses embeddings são a espinha dorsal do tempo para formas da boca e movimento sutil da cabeça. Certifique-se de que os quadros totais e FPS aqui correspondam às suas configurações de exportação para evitar desvio. Opcionalmente, ative a normalização de volume quando sua gravação variar em nível.
Orientação de texto#
LoadWanVideoT5TextEncoder (#16) e WanVideoTextEncode (#15) transformam seus prompts positivos e negativos em condicionamento. Use o prompt positivo para descrever o comportamento natural que deseja (movimentos suaves da cabeça, acenos sutis) e mantenha o prompt negativo para artefatos a evitar (movimento rígido, mãos deformadas). A orientação de texto dá um empurrão no estilo de movimento sem alterar a identidade do personagem.
Codificar a aparência#
WanVideoVAELoader (#19) e WanVideoEncode (#24) convertem seu retrato em latentes. WanVideoLongCatAvatarExtendEmbeds (#6) então funde o latente de referência com os embeddings de áudio para que a identidade seja estável entre os quadros enquanto a boca segue a fala. Se o áudio for mais curto que o clipe, o nó pode preencher ou repetir inteligentemente para que o tempo permaneça suave.
Carregar o modelo de avatar#
WanVideoLoraSelect (#27) conecta o LongCat Avatar LoRA destilado ao modelo base LongCat‑Avatar‑15, todos carregados por WanVideoModelLoader (#8). Este emparelhamento preserva traços faciais enquanto permite movimento expressivo ao falar. Auxiliares de troca de bloco internos mantêm o uso de VRAM previsível em GPUs compartilhadas ou modestas.
Amostrar quadros#
WanVideoSchedulerv2 (#52) escolhe um cronograma de solução ajustado para destilar LongCat, e WanVideoSamplerv2 (#51) gera o vídeo latente. Defina uma semente para resultados reproduzíveis e ajuste a força de orientação se precisar de mais ou menos adesão aos prompts. O sampler leva imagem, texto e embeddings de imagem guiados por áudio juntos para que a boca, cabeça e identidade coesos.
Decodificar e salvar MP4#
WanVideoDecode (#20) transforma os latentes finais de volta em imagens. VHS_VideoCombine (#14) mescla quadros e áudio em um MP4 H.264 com a taxa de quadros e prefixo de nome de arquivo especificados. A saída é um clipe de avatar falante vertical pronto para compartilhar que mantém a sincronização labial e o estilo intactos.
Nós principais no fluxo de trabalho Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
LongCatAvatarWhisperEmbeds (#3)#
Cria embeddings de áudio MultiTalk a partir do Whisper que impulsionam a sincronização labial e micro-temporalidade. Mantenha fps e num_frames alinhados com sua exportação para evitar dessincronização. Quando as gravações variam em nível, ative a normalização de volume. Este nó vem da integração LongCat do WanVideoWrapper. Repositório
WanVideoLongCatAvatarExtendEmbeds (#6)#
Funde os latentes de referência e os embeddings de áudio em embeddings de imagem cientes do quadro. Se sua fala for mais curta que o comprimento alvo, escolha como preencher ou repetir para que o movimento permaneça natural. Configurações de sobreposição e quadro de referência ajudam a manter a estabilidade da identidade entre fatias em clipes mais longos. Repositório
WanVideoModelLoader (#8)#
Carrega a base LongCat‑Avatar‑15 com o LongCat Avatar LoRA selecionado para fidelidade de identidade. Use-o com a gestão de VRAM incluída e opções de troca de bloco ao rodar em hardware limitado. Troque para uma variante LongCat diferente ou LoRA aqui para mudar o estilo sem reconfiguração. Repositório
WanVideoSamplerv2 (#51)#
O gerador principal que sintetiza quadros a partir de modelo, programador, texto e embeddings de imagem. Ajuste a orientação sem classificador se precisar de aderência mais rigorosa aos prompts ou movimento mais solto. Fixe a semente para travar a reprodutibilidade em várias renderizações. Repositório
ImageResizeKJv2 (#25)#
Prepara uma tela orientada para retrato para que o avatar preencha um quadro 9:16. Mantenha cortes corretos de aspecto ao redor do rosto e ombros para codificação de identidade confiável. Correspondência da divisibilidade do codificador/decodificador evita artefatos de borda.
VHS_VideoCombine (#14)#
Muxa quadros e áudio em um único MP4 com sua taxa de quadros e prefixo de nome de arquivo escolhidos. Ative o salvamento de metadados para facilitar o rastreamento de iteração. Este nó é parte do VideoHelperSuite. Repositório
Extras opcionais#
- Use uma foto neutra, voltada para frente, com olhos e boca claros; evite obstruções pesadas e ângulos extremos.
- Limpe o áudio (remova longos silêncios, reduza o ruído de fundo) para um movimento de boca mais estável.
- Mantenha o FPS consistente entre a etapa de embedding do Whisper e a exportação final para manter a sincronização labial apertada.
- Para uma preservação mais forte da identidade, fique com o LongCat Avatar LoRA fornecido; troque LoRAs apenas quando pretender uma mudança de estilo. Arquivos do modelo
- Defina uma semente fixa quando precisar de rerenders idênticos ou testar A/B apenas uma única mudança de prompt.
- Em VRAM inferior, ative a troca de bloco no carregador de modelo para trocar alguma velocidade por estabilidade.
Agradecimentos#
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos RunningHub pela fonte do fluxo de trabalho, Meigen AI pelo LongCat Video Avatar 1.5, e Kijai pelo LongCat-Video_comfy e ComfyUI-WanVideoWrapper por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos#
- RunningHub/Fonte do fluxo de trabalho
- Documentos / Notas de Lançamento: Fonte do fluxo de trabalho RunningHub
- Meigen AI/Página do projeto LongCat Video Avatar 1.5
- Documentos / Notas de Lançamento: Página do projeto LongCat Video Avatar 1.5
- Kijai/Arquivos de modelo LongCat Video Comfy
- Hugging Face: Kijai/LongCat-Video_comfy
- Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
