LongCat Video Avatar 1.5 Single Character ComfyUI#
Questo flusso di lavoro trasforma un'unica immagine di riferimento e una traccia vocale in un avatar parlante verticale sincronizzato con le labbra. Costruito attorno a LongCat-Avatar-15 e ai nodi personalizzati WanVideoWrapper, utilizza Whisper per estrarre indizi vocali, Wan 2.1 VAE per codifica/decodifica latente, e un LongCat LoRA distillato per preservare l'identità. Il risultato è un video ritratto MP4 che mantiene l'aspetto del personaggio e il movimento della bocca in sincronia.
Progettato come percorso a singolo personaggio, il flusso di lavoro LongCat Video Avatar 1.5 Single Character ComfyUI è ideale per i creatori che vogliono un template pronto per RunComfy con input chiari e output riproducibile. Fornisci un'immagine del viso e una clip audio, regola alcuni prompt di stile e rendi un video avatar coerente senza cablaggi aggiuntivi.
Modelli chiave nel flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
- LongCat-Avatar-15 (distillato) e LongCat Avatar LoRA: pesi di generazione video che preservano l'identità adattati per ComfyUI. Fornito nel pacchetto comunitario in modo che l'avatar mantenga l'aspetto mentre parla. Model files
- Wan 2.1 VAE: autoencoder variazionale orientato al video utilizzato per codificare il frame di riferimento in latenti e decodificare i frame finali in immagini. Incluso con lo stesso pacchetto comunitario. Model files
- OpenAI Whisper large v3: rappresentazione vocale che guida le forme della bocca e il timing per una sincronizzazione labiale accurata. Model card
- Google UMT5‑XXL text encoder: converte i prompt positivi/negativi in condizionamento per sfumature di movimento e posa. Model card
Come utilizzare il flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
Il grafico segue un percorso chiaro dagli input al video: carica asset, calcola embeddings audio, prepara la guida testuale, codifica l'aspetto, campiona i frame, quindi mux audio e salva.
Immagine di riferimento#
Carica un ritratto frontale singolo in LoadImage (#26). L'immagine è normalizzata da ImageResizeKJv2 (#25) su una tela verticale 9:16 in modo che il personaggio riempia il frame senza distorsioni. Usa un viso pulito, uniformemente illuminato con minime occlusioni per la migliore ritenzione dell'identità. Se la tua fonte è più larga che alta, ritaglia centralmente attorno alla testa e alle spalle.
Audio vocale#
Inserisci un file audio in LoadAudio (#5). Se necessario, taglialo con TrimAudioDuration (#29) in modo che la lunghezza del video finale corrisponda al tuo obiettivo. La piccola utility matematica (Evaluate Floats (#39)) moltiplica i secondi scelti per frame al secondo per impostare automaticamente il conteggio totale dei frame. Un modo rapido per controllare la durata è regolare i secondi o FPS prima del rendering.
Embeddings vocali (sincronizzazione labiale)#
LongCatAvatarWhisperEmbeds (#3) esegue Whisper per produrre embeddings MultiTalk che codificano fonemi, pause e enfasi. Questi embeddings sono la spina dorsale del timing per le forme della bocca e il movimento sottile della testa. Assicurati che i frame totali e FPS qui corrispondano alle tue impostazioni di esportazione per prevenire deragliamenti. Opzionalmente abilita la normalizzazione del volume quando la tua registrazione varia di livello.
Guida testuale#
LoadWanVideoT5TextEncoder (#16) e WanVideoTextEncode (#15) trasformano i tuoi prompt positivi e negativi in condizionamento. Usa il prompt positivo per descrivere il comportamento naturale desiderato (giri di testa calmi, cenni sottili) e mantieni il prompt negativo per evitare artefatti (movimento rigido, mani deformate). La guida testuale indirizza lo stile del movimento senza cambiare l'identità del personaggio.
Codifica dell'aspetto#
WanVideoVAELoader (#19) e WanVideoEncode (#24) convertono il tuo ritratto in latenti. WanVideoLongCatAvatarExtendEmbeds (#6) quindi fonde il latente di riferimento con gli embeddings audio in modo che l'identità sia stabile tra i frame mentre la bocca segue il discorso. Se l'audio è più corto del clip, il nodo può riempire o ripetere intelligentemente in modo che il timing rimanga fluido.
Carica il modello avatar#
WanVideoLoraSelect (#27) collega il LongCat Avatar LoRA distillato al modello base LongCat‑Avatar‑15, tutto caricato da WanVideoModelLoader (#8). Questo abbinamento preserva i tratti facciali consentendo un movimento parlante espressivo. Gli helper interni per lo scambio di blocchi mantengono l'uso di VRAM prevedibile su GPU condivise o modeste.
Campiona i frame#
WanVideoSchedulerv2 (#52) sceglie un programma di risoluzione ottimizzato per LongCat distill, e WanVideoSamplerv2 (#51) genera il video latente. Imposta un seed per risultati riproducibili e regola la forza della guida se hai bisogno di maggiore o minore aderenza ai prompt. Il sampler prende insieme immagine, testo e embeddings immagine guidati dall'audio in modo che bocca, testa e identità siano coerenti.
Decodifica e salva MP4#
WanVideoDecode (#20) trasforma i latenti finali in immagini. VHS_VideoCombine (#14) unisce frame e audio in un MP4 H.264 con il frame rate e il prefisso del nome file specificati. L'output è una clip avatar parlante verticale pronta per essere condivisa che mantiene la sincronizzazione labiale e lo stile intatti.
Nodi chiave nel flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
LongCatAvatarWhisperEmbeds (#3)#
Crea embeddings audio MultiTalk da Whisper che guidano la sincronizzazione labiale e il micro-timing. Mantieni fps e num_frames allineati con la tua esportazione per evitare desincronizzazioni. Quando le registrazioni variano di livello, abilita la normalizzazione del volume. Questo nodo proviene dall'integrazione LongCat di WanVideoWrapper. Repo
WanVideoLongCatAvatarExtendEmbeds (#6)#
Fonde il latente di riferimento e gli embeddings audio in embeddings immagine consapevoli del frame. Se il tuo discorso è più corto della lunghezza target, scegli come riempire o ripetere in modo che il movimento rimanga naturale. Le impostazioni di sovrapposizione e frame di riferimento aiutano a mantenere la stabilità dell'identità tra le sezioni di clip più lunghe. Repo
WanVideoModelLoader (#8)#
Carica il LongCat‑Avatar‑15 base con il LongCat Avatar LoRA selezionato per la fedeltà dell'identità. Usalo con le opzioni di gestione VRAM e scambio di blocchi incluse quando si esegue su hardware limitato. Passa a una variante diversa di LongCat o LoRA qui per cambiare stile senza ricablare. Repo
WanVideoSamplerv2 (#51)#
Il generatore principale che sintetizza i frame da modello, scheduler, testo e embeddings immagine. Regola la guida senza classificatore se hai bisogno di una maggiore aderenza al prompt o di un movimento più libero. Fissa il seed per bloccare la riproducibilità tra più render. Repo
ImageResizeKJv2 (#25)#
Prepara una tela orientata al ritratto in modo che l'avatar riempia un frame 9:16. Mantieni ritagli corretti per l'aspetto attorno al viso e alle spalle per una codifica affidabile dell'identità. Abbinare la divisibilità dell'encoder/decoder evita artefatti ai bordi.
VHS_VideoCombine (#14)#
Unisce frame e audio in un singolo MP4 con il frame rate e prefisso del nome file scelti. Abilita il salvataggio dei metadati per un più facile monitoraggio delle iterazioni. Questo nodo fa parte di VideoHelperSuite. Repo
Extra opzionali#
- Usa una foto neutra, rivolta in avanti con occhi e bocca chiari; evita occlusioni pesanti e angoli estremi.
- Pulisci l'audio (rimuovi silenzi lunghi, riduci il rumore di fondo) per un movimento della bocca più stabile.
- Mantieni FPS costante tra la fase di embedding whisper e l'esportazione finale per mantenere una sincronizzazione labiale stretta.
- Per una conservazione più forte dell'identità, rimani con il LongCat Avatar LoRA fornito; scambia LoRA solo quando intendi un cambio di stile. Model files
- Imposta un seed fisso quando hai bisogno di render identici o test A/B solo di una singola modifica del prompt.
- Su VRAM inferiore, abilita lo scambio di blocchi nel caricatore del modello per scambiare un po' di velocità per stabilità.
Riconoscimenti#
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine RunningHub per la fonte del flusso di lavoro, Meigen AI per LongCat Video Avatar 1.5, e Kijai per i file del modello LongCat-Video_comfy e il ComfyUI-WanVideoWrapper per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione e ai repository originali collegati di seguito.
Risorse#
- RunningHub/Workflow source
- Docs / Note di rilascio: RunningHub workflow source
- Meigen AI/LongCat Video Avatar 1.5 project page
- Docs / Note di rilascio: LongCat Video Avatar 1.5 project page
- Kijai/LongCat Video Comfy model files
- Hugging Face: Kijai/LongCat-Video_comfy
- Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dagli autori e manutentori.

