LongCat Video Avatar 1.5 Single Character ComfyUI

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Questo flusso di lavoro trasforma un'unica immagine di riferimento e una traccia vocale in un avatar parlante verticale sincronizzato con le labbra. Costruito attorno a LongCat-Avatar-15 e ai nodi personalizzati WanVideoWrapper, utilizza Whisper per estrarre indizi vocali, Wan 2.1 VAE per codifica/decodifica latente, e un LongCat LoRA distillato per preservare l'identità. Il risultato è un video ritratto MP4 che mantiene l'aspetto del personaggio e il movimento della bocca in sincronia.

Progettato come percorso a singolo personaggio, il flusso di lavoro LongCat Video Avatar 1.5 Single Character ComfyUI è ideale per i creatori che vogliono un template pronto per RunComfy con input chiari e output riproducibile. Fornisci un'immagine del viso e una clip audio, regola alcuni prompt di stile e rendi un video avatar coerente senza cablaggi aggiuntivi.

Modelli chiave nel flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

LongCat-Avatar-15 (distillato) e LongCat Avatar LoRA: pesi di generazione video che preservano l'identità adattati per ComfyUI. Fornito nel pacchetto comunitario in modo che l'avatar mantenga l'aspetto mentre parla. Model files
Wan 2.1 VAE: autoencoder variazionale orientato al video utilizzato per codificare il frame di riferimento in latenti e decodificare i frame finali in immagini. Incluso con lo stesso pacchetto comunitario. Model files
OpenAI Whisper large v3: rappresentazione vocale che guida le forme della bocca e il timing per una sincronizzazione labiale accurata. Model card
Google UMT5‑XXL text encoder: converte i prompt positivi/negativi in condizionamento per sfumature di movimento e posa. Model card

Come utilizzare il flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

Il grafico segue un percorso chiaro dagli input al video: carica asset, calcola embeddings audio, prepara la guida testuale, codifica l'aspetto, campiona i frame, quindi mux audio e salva.

Immagine di riferimento#

Carica un ritratto frontale singolo in LoadImage (#26). L'immagine è normalizzata da ImageResizeKJv2 (#25) su una tela verticale 9:16 in modo che il personaggio riempia il frame senza distorsioni. Usa un viso pulito, uniformemente illuminato con minime occlusioni per la migliore ritenzione dell'identità. Se la tua fonte è più larga che alta, ritaglia centralmente attorno alla testa e alle spalle.

Audio vocale#

Inserisci un file audio in LoadAudio (#5). Se necessario, taglialo con TrimAudioDuration (#29) in modo che la lunghezza del video finale corrisponda al tuo obiettivo. La piccola utility matematica (Evaluate Floats (#39)) moltiplica i secondi scelti per frame al secondo per impostare automaticamente il conteggio totale dei frame. Un modo rapido per controllare la durata è regolare i secondi o FPS prima del rendering.

Embeddings vocali (sincronizzazione labiale)#

LongCatAvatarWhisperEmbeds (#3) esegue Whisper per produrre embeddings MultiTalk che codificano fonemi, pause e enfasi. Questi embeddings sono la spina dorsale del timing per le forme della bocca e il movimento sottile della testa. Assicurati che i frame totali e FPS qui corrispondano alle tue impostazioni di esportazione per prevenire deragliamenti. Opzionalmente abilita la normalizzazione del volume quando la tua registrazione varia di livello.

Guida testuale#

LoadWanVideoT5TextEncoder (#16) e WanVideoTextEncode (#15) trasformano i tuoi prompt positivi e negativi in condizionamento. Usa il prompt positivo per descrivere il comportamento naturale desiderato (giri di testa calmi, cenni sottili) e mantieni il prompt negativo per evitare artefatti (movimento rigido, mani deformate). La guida testuale indirizza lo stile del movimento senza cambiare l'identità del personaggio.

Codifica dell'aspetto#

WanVideoVAELoader (#19) e WanVideoEncode (#24) convertono il tuo ritratto in latenti. WanVideoLongCatAvatarExtendEmbeds (#6) quindi fonde il latente di riferimento con gli embeddings audio in modo che l'identità sia stabile tra i frame mentre la bocca segue il discorso. Se l'audio è più corto del clip, il nodo può riempire o ripetere intelligentemente in modo che il timing rimanga fluido.

Carica il modello avatar#

WanVideoLoraSelect (#27) collega il LongCat Avatar LoRA distillato al modello base LongCat‑Avatar‑15, tutto caricato da WanVideoModelLoader (#8). Questo abbinamento preserva i tratti facciali consentendo un movimento parlante espressivo. Gli helper interni per lo scambio di blocchi mantengono l'uso di VRAM prevedibile su GPU condivise o modeste.

Campiona i frame#

WanVideoSchedulerv2 (#52) sceglie un programma di risoluzione ottimizzato per LongCat distill, e WanVideoSamplerv2 (#51) genera il video latente. Imposta un seed per risultati riproducibili e regola la forza della guida se hai bisogno di maggiore o minore aderenza ai prompt. Il sampler prende insieme immagine, testo e embeddings immagine guidati dall'audio in modo che bocca, testa e identità siano coerenti.

Decodifica e salva MP4#

WanVideoDecode (#20) trasforma i latenti finali in immagini. VHS_VideoCombine (#14) unisce frame e audio in un MP4 H.264 con il frame rate e il prefisso del nome file specificati. L'output è una clip avatar parlante verticale pronta per essere condivisa che mantiene la sincronizzazione labiale e lo stile intatti.

Nodi chiave nel flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

`LongCatAvatarWhisperEmbeds` (#3)#

Crea embeddings audio MultiTalk da Whisper che guidano la sincronizzazione labiale e il micro-timing. Mantieni fps e num_frames allineati con la tua esportazione per evitare desincronizzazioni. Quando le registrazioni variano di livello, abilita la normalizzazione del volume. Questo nodo proviene dall'integrazione LongCat di WanVideoWrapper. Repo

`WanVideoLongCatAvatarExtendEmbeds` (#6)#

Fonde il latente di riferimento e gli embeddings audio in embeddings immagine consapevoli del frame. Se il tuo discorso è più corto della lunghezza target, scegli come riempire o ripetere in modo che il movimento rimanga naturale. Le impostazioni di sovrapposizione e frame di riferimento aiutano a mantenere la stabilità dell'identità tra le sezioni di clip più lunghe. Repo

`WanVideoModelLoader` (#8)#

Carica il LongCat‑Avatar‑15 base con il LongCat Avatar LoRA selezionato per la fedeltà dell'identità. Usalo con le opzioni di gestione VRAM e scambio di blocchi incluse quando si esegue su hardware limitato. Passa a una variante diversa di LongCat o LoRA qui per cambiare stile senza ricablare. Repo

`WanVideoSamplerv2` (#51)#

Il generatore principale che sintetizza i frame da modello, scheduler, testo e embeddings immagine. Regola la guida senza classificatore se hai bisogno di una maggiore aderenza al prompt o di un movimento più libero. Fissa il seed per bloccare la riproducibilità tra più render. Repo

`ImageResizeKJv2` (#25)#

Prepara una tela orientata al ritratto in modo che l'avatar riempia un frame 9:16. Mantieni ritagli corretti per l'aspetto attorno al viso e alle spalle per una codifica affidabile dell'identità. Abbinare la divisibilità dell'encoder/decoder evita artefatti ai bordi.

`VHS_VideoCombine` (#14)#

Unisce frame e audio in un singolo MP4 con il frame rate e prefisso del nome file scelti. Abilita il salvataggio dei metadati per un più facile monitoraggio delle iterazioni. Questo nodo fa parte di VideoHelperSuite. Repo

Extra opzionali#

Usa una foto neutra, rivolta in avanti con occhi e bocca chiari; evita occlusioni pesanti e angoli estremi.
Pulisci l'audio (rimuovi silenzi lunghi, riduci il rumore di fondo) per un movimento della bocca più stabile.
Mantieni FPS costante tra la fase di embedding whisper e l'esportazione finale per mantenere una sincronizzazione labiale stretta.
Per una conservazione più forte dell'identità, rimani con il LongCat Avatar LoRA fornito; scambia LoRA solo quando intendi un cambio di stile. Model files
Imposta un seed fisso quando hai bisogno di render identici o test A/B solo di una singola modifica del prompt.
Su VRAM inferiore, abilita lo scambio di blocchi nel caricatore del modello per scambiare un po' di velocità per stabilità.

Riconoscimenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine RunningHub per la fonte del flusso di lavoro, Meigen AI per LongCat Video Avatar 1.5, e Kijai per i file del modello LongCat-Video_comfy e il ComfyUI-WanVideoWrapper per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione e ai repository originali collegati di seguito.

Risorse#

RunningHub/Workflow source
- Docs / Note di rilascio: RunningHub workflow source
Meigen AI/LongCat Video Avatar 1.5 project page
- Docs / Note di rilascio: LongCat Video Avatar 1.5 project page
Kijai/LongCat Video Comfy model files
- Hugging Face: Kijai/LongCat-Video_comfy
Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dagli autori e manutentori.

Want More ComfyUI Workflows?

InfiniteTalk | Generatore di Avatar Sincronizzato sulle Labbra

Foto + Voce = Avatar Parlante Perfettamente Sincronizzato in Minuti

Multitalk | Creatore di Video Parlanti Realistici

Crea con un clic video sincronizzati con il labbiale multi-speaker da ritratti e voci!

LatentSync| Modello di Lip Sync

Tecnologia avanzata di lip sync guidata dall'audio.

Hallo2 | Animazione di Ritratti Lip-Sync

Lip-sync guidato da audio per animazione di ritratti in 4K.

Omost | Migliora la Creazione di Immagini

Omost utilizza la codifica LLM per generare immagini precise e di alta qualità.

Put It Here Kontext | Sostituzione Oggetti

Metti qualsiasi cosa ovunque. Kontext lo fa sembrare reale. Funziona perfettamente.

HiDream O1 T2I | Generatore Cinematografico di Testo in Immagine

Trasforma il testo in capolavori visivi cinematografici e di alta qualità istantaneamente.

Flux Klein Face Swap | Editor di Volti AI Realistico

Scambia volti perfettamente. Modifica naturale, realistica e veloce con l'AI.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

LongCat Video Avatar 1.5 ComfyUI | Generatore Sincronizzato con le Labbra