ComfyUI>Workflow>LongCat Video Avatar 1.5 ComfyUI | Generatore Sincronizzato con le Labbra

LongCat Video Avatar 1.5 ComfyUI | Generatore Sincronizzato con le Labbra

Workflow Name: RunComfy/LongCat-Video-Avatar-1.5
Workflow ID: 0000...1437
Questo flusso di lavoro ti aiuta a trasformare un'immagine di un personaggio e una clip audio in un video avatar parlante perfettamente allineato. Sfrutta LongCat-Avatar-15 con nodi WanVideoWrapper per una sincronizzazione labiale accurata. Con l'analisi audio Whisper e la decodifica Wan 2.1 VAE, genera output MP4 verticali pronti per la pubblicazione. Puoi facilmente integrarlo ed eseguirlo nella tua pipeline creativa. Perfetto per creatori di contenuti, designer visivi e sviluppatori che necessitano di un generatore affidabile di video avatar.

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

LongCat Video Avatar 1.5 Single Character ComfyUI | Audio2Video Sync
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Questo flusso di lavoro trasforma un'unica immagine di riferimento e una traccia vocale in un avatar parlante verticale sincronizzato con le labbra. Costruito attorno a LongCat-Avatar-15 e ai nodi personalizzati WanVideoWrapper, utilizza Whisper per estrarre indizi vocali, Wan 2.1 VAE per codifica/decodifica latente, e un LongCat LoRA distillato per preservare l'identità. Il risultato è un video ritratto MP4 che mantiene l'aspetto del personaggio e il movimento della bocca in sincronia.

Progettato come percorso a singolo personaggio, il flusso di lavoro LongCat Video Avatar 1.5 Single Character ComfyUI è ideale per i creatori che vogliono un template pronto per RunComfy con input chiari e output riproducibile. Fornisci un'immagine del viso e una clip audio, regola alcuni prompt di stile e rendi un video avatar coerente senza cablaggi aggiuntivi.

Modelli chiave nel flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

  • LongCat-Avatar-15 (distillato) e LongCat Avatar LoRA: pesi di generazione video che preservano l'identità adattati per ComfyUI. Fornito nel pacchetto comunitario in modo che l'avatar mantenga l'aspetto mentre parla. Model files
  • Wan 2.1 VAE: autoencoder variazionale orientato al video utilizzato per codificare il frame di riferimento in latenti e decodificare i frame finali in immagini. Incluso con lo stesso pacchetto comunitario. Model files
  • OpenAI Whisper large v3: rappresentazione vocale che guida le forme della bocca e il timing per una sincronizzazione labiale accurata. Model card
  • Google UMT5‑XXL text encoder: converte i prompt positivi/negativi in condizionamento per sfumature di movimento e posa. Model card

Come utilizzare il flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

Il grafico segue un percorso chiaro dagli input al video: carica asset, calcola embeddings audio, prepara la guida testuale, codifica l'aspetto, campiona i frame, quindi mux audio e salva.

Immagine di riferimento#

Carica un ritratto frontale singolo in LoadImage (#26). L'immagine è normalizzata da ImageResizeKJv2 (#25) su una tela verticale 9:16 in modo che il personaggio riempia il frame senza distorsioni. Usa un viso pulito, uniformemente illuminato con minime occlusioni per la migliore ritenzione dell'identità. Se la tua fonte è più larga che alta, ritaglia centralmente attorno alla testa e alle spalle.

Audio vocale#

Inserisci un file audio in LoadAudio (#5). Se necessario, taglialo con TrimAudioDuration (#29) in modo che la lunghezza del video finale corrisponda al tuo obiettivo. La piccola utility matematica (Evaluate Floats (#39)) moltiplica i secondi scelti per frame al secondo per impostare automaticamente il conteggio totale dei frame. Un modo rapido per controllare la durata è regolare i secondi o FPS prima del rendering.

Embeddings vocali (sincronizzazione labiale)#

LongCatAvatarWhisperEmbeds (#3) esegue Whisper per produrre embeddings MultiTalk che codificano fonemi, pause e enfasi. Questi embeddings sono la spina dorsale del timing per le forme della bocca e il movimento sottile della testa. Assicurati che i frame totali e FPS qui corrispondano alle tue impostazioni di esportazione per prevenire deragliamenti. Opzionalmente abilita la normalizzazione del volume quando la tua registrazione varia di livello.

Guida testuale#

LoadWanVideoT5TextEncoder (#16) e WanVideoTextEncode (#15) trasformano i tuoi prompt positivi e negativi in condizionamento. Usa il prompt positivo per descrivere il comportamento naturale desiderato (giri di testa calmi, cenni sottili) e mantieni il prompt negativo per evitare artefatti (movimento rigido, mani deformate). La guida testuale indirizza lo stile del movimento senza cambiare l'identità del personaggio.

Codifica dell'aspetto#

WanVideoVAELoader (#19) e WanVideoEncode (#24) convertono il tuo ritratto in latenti. WanVideoLongCatAvatarExtendEmbeds (#6) quindi fonde il latente di riferimento con gli embeddings audio in modo che l'identità sia stabile tra i frame mentre la bocca segue il discorso. Se l'audio è più corto del clip, il nodo può riempire o ripetere intelligentemente in modo che il timing rimanga fluido.

Carica il modello avatar#

WanVideoLoraSelect (#27) collega il LongCat Avatar LoRA distillato al modello base LongCat‑Avatar‑15, tutto caricato da WanVideoModelLoader (#8). Questo abbinamento preserva i tratti facciali consentendo un movimento parlante espressivo. Gli helper interni per lo scambio di blocchi mantengono l'uso di VRAM prevedibile su GPU condivise o modeste.

Campiona i frame#

WanVideoSchedulerv2 (#52) sceglie un programma di risoluzione ottimizzato per LongCat distill, e WanVideoSamplerv2 (#51) genera il video latente. Imposta un seed per risultati riproducibili e regola la forza della guida se hai bisogno di maggiore o minore aderenza ai prompt. Il sampler prende insieme immagine, testo e embeddings immagine guidati dall'audio in modo che bocca, testa e identità siano coerenti.

Decodifica e salva MP4#

WanVideoDecode (#20) trasforma i latenti finali in immagini. VHS_VideoCombine (#14) unisce frame e audio in un MP4 H.264 con il frame rate e il prefisso del nome file specificati. L'output è una clip avatar parlante verticale pronta per essere condivisa che mantiene la sincronizzazione labiale e lo stile intatti.

Nodi chiave nel flusso di lavoro Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

LongCatAvatarWhisperEmbeds (#3)#

Crea embeddings audio MultiTalk da Whisper che guidano la sincronizzazione labiale e il micro-timing. Mantieni fps e num_frames allineati con la tua esportazione per evitare desincronizzazioni. Quando le registrazioni variano di livello, abilita la normalizzazione del volume. Questo nodo proviene dall'integrazione LongCat di WanVideoWrapper. Repo

WanVideoLongCatAvatarExtendEmbeds (#6)#

Fonde il latente di riferimento e gli embeddings audio in embeddings immagine consapevoli del frame. Se il tuo discorso è più corto della lunghezza target, scegli come riempire o ripetere in modo che il movimento rimanga naturale. Le impostazioni di sovrapposizione e frame di riferimento aiutano a mantenere la stabilità dell'identità tra le sezioni di clip più lunghe. Repo

WanVideoModelLoader (#8)#

Carica il LongCat‑Avatar‑15 base con il LongCat Avatar LoRA selezionato per la fedeltà dell'identità. Usalo con le opzioni di gestione VRAM e scambio di blocchi incluse quando si esegue su hardware limitato. Passa a una variante diversa di LongCat o LoRA qui per cambiare stile senza ricablare. Repo

WanVideoSamplerv2 (#51)#

Il generatore principale che sintetizza i frame da modello, scheduler, testo e embeddings immagine. Regola la guida senza classificatore se hai bisogno di una maggiore aderenza al prompt o di un movimento più libero. Fissa il seed per bloccare la riproducibilità tra più render. Repo

ImageResizeKJv2 (#25)#

Prepara una tela orientata al ritratto in modo che l'avatar riempia un frame 9:16. Mantieni ritagli corretti per l'aspetto attorno al viso e alle spalle per una codifica affidabile dell'identità. Abbinare la divisibilità dell'encoder/decoder evita artefatti ai bordi.

VHS_VideoCombine (#14)#

Unisce frame e audio in un singolo MP4 con il frame rate e prefisso del nome file scelti. Abilita il salvataggio dei metadati per un più facile monitoraggio delle iterazioni. Questo nodo fa parte di VideoHelperSuite. Repo

Extra opzionali#

  • Usa una foto neutra, rivolta in avanti con occhi e bocca chiari; evita occlusioni pesanti e angoli estremi.
  • Pulisci l'audio (rimuovi silenzi lunghi, riduci il rumore di fondo) per un movimento della bocca più stabile.
  • Mantieni FPS costante tra la fase di embedding whisper e l'esportazione finale per mantenere una sincronizzazione labiale stretta.
  • Per una conservazione più forte dell'identità, rimani con il LongCat Avatar LoRA fornito; scambia LoRA solo quando intendi un cambio di stile. Model files
  • Imposta un seed fisso quando hai bisogno di render identici o test A/B solo di una singola modifica del prompt.
  • Su VRAM inferiore, abilita lo scambio di blocchi nel caricatore del modello per scambiare un po' di velocità per stabilità.

Riconoscimenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine RunningHub per la fonte del flusso di lavoro, Meigen AI per LongCat Video Avatar 1.5, e Kijai per i file del modello LongCat-Video_comfy e il ComfyUI-WanVideoWrapper per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione e ai repository originali collegati di seguito.

Risorse#

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dagli autori e manutentori.

RunComfy
Copyright 2026 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.