LongCat Avatar in ComfyUI | WanVideo Identity-Preserved Animation

LongCat Avatar in ComfyUI: da un'unica immagine a video avatar parlante

LongCat Avatar in ComfyUI trasforma un'unica immagine di riferimento in un video avatar stabile nell'identità e guidato dall'audio. Basato sul wrapper WanVideo di kijai, si concentra sulla coerenza facciale, continuità del movimento fluido e sincronizzazione labiale naturale senza alcuna messa a punto per personaggio. Fornisci un'immagine del personaggio e una traccia audio; il workflow rende una performance temporalmente coerente, adatta per clip parlanti, performance di personaggi stilizzati e test rapidi di movimento avatar.

I creatori che desiderano iterazioni rapide troveranno LongCat Avatar in ComfyUI pragmatico e affidabile. Il workflow utilizza il modello di preservazione dell'identità di LongCat e uno schema di generazione finestrato per estendere le sequenze mantenendo stabili le espressioni. Gli output vengono assemblati in video con l'audio sorgente per una revisione o pubblicazione diretta.

Nota: Su macchine 2XL o superiori, si prega di impostare il backend di attenzione su "sdpa" nel nodo WanVideo Model Loader. Il backend predefinito segeattn può causare problemi di compatibilità su GPU di fascia alta.

Modelli chiave nel workflow Comfyui LongCat Avatar in ComfyUI

Modello LongCat-Avatar per WanVideo. Generazione immagine-a-video focalizzata sull'identità adattata per ComfyUI, fornendo una forte preservazione del personaggio attraverso i fotogrammi. Vedi le versioni Comfy di WanVideo di kijai su Hugging Face per checkpoint e note. Hugging Face: Kijai/WanVideo_comfy
LongCat distill LoRA. Un LoRA distillato che rafforza la struttura facciale e le caratteristiche dell'identità durante il campionamento, migliorando la stabilità sotto movimento. Disponibile con risorse WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
Wan 2.1 VAE. VAE video utilizzato per codificare il/i fotogramma/i di riferimento in latenti e decodificare i campioni generati in immagini. Hugging Face: Kijai/WanVideo_comfy
Codificatore di testo UM-T5. Utilizzato da WanVideo per interpretare i prompt di testo che guidano la descrizione della scena e lo stile mantenendo intatta l'identità. Hugging Face: google/umt5-xxl
Rappresentazioni vocali Wav2Vec 2.0. Fornisce robuste caratteristiche vocali che guidano il movimento delle labbra e della mascella tramite embedding MultiTalk. Documento di riferimento: wav2vec 2.0. arXiv e una variante del modello compatibile: Hugging Face: TencentGameMate/chinese-wav2vec2-base
Separatore vocale MelBandRoFormer. Separazione opzionale voce-musica così che il modulo di sincronizzazione labiale riceva un segnale vocale più pulito. Hugging Face: Kijai/MelBandRoFormer_comfy

Come utilizzare il workflow Comfyui LongCat Avatar in ComfyUI

Il workflow ha tre fasi principali: modelli e impostazioni, audio per indizi di movimento, e immagine di riferimento per video con estensione finestrata. Rende a una velocità fissa progettata per il movimento guidato dall'audio, quindi cuce le finestre in un clip senza soluzione di continuità.

Modelli
- Il WanVideoModelLoader (#122) carica il checkpoint LongCat-Avatar e il LongCat distill LoRA, mentre WanVideoVAELoader (#129) fornisce il VAE video. Il WanVideoSchedulerv2 (#325) prepara il programma del campionatore utilizzato durante la diffusione. Questi componenti definiscono fedeltà, ritenzione dell'identità e aspetto generale. Una volta impostati, agiscono da spina dorsale per tutti i passaggi di campionamento successivi.
Audio
- Carica una traccia vocale con LoadAudio (#125), eventualmente taglia con TrimAudioDuration (#317), e separa le voci con MelBandRoFormerSampler (#302) per ridurre il rumore di fondo. MultiTalkWav2VecEmbeds (#194) converte il discorso pulito in embedding che guidano il movimento della bocca e le dinamiche sottili della testa. Il conteggio effettivo dei fotogrammi è derivato dalla durata dell'audio, quindi audio più lungo porta a sequenze più lunghe. Il flusso audio viene successivamente multiplexato con le immagini nella fase di combinazione video.
Immagine di input
- Aggiungi l'immagine del tuo personaggio con LoadImage (#284). ImageResizeKJv2 (#281) la dimensiona per il modello, e WanVideoEncode (#312) la trasforma in un ref_latent che ancora l'identità in tutti i fotogrammi. Questo latente è il riferimento fisso che la pipeline LongCat Avatar in ComfyUI riutilizza mentre inietta movimento variabile nel tempo da audio e prompt.
Estendi finestra 1
- WanVideoLongCatAvatarExtendEmbeds (#345) fonde il ref_latent con embedding audio per creare embedding di immagini per la prima finestra. WanVideoSamplerv2 (#324) poi denoisa i latenti in un breve clip. WanVideoDecode (#313) li trasforma in immagini per l'anteprima e la prima esportazione video con VHS_VideoCombine (#320). La dimensione della finestra e la sovrapposizione sono tracciate internamente così la finestra successiva può allinearsi senza cuciture visibili.
Estendi finestra 2
- Il secondo gruppo di estensione ripete lo stesso concetto per continuare la sequenza. WanVideoLongCatAvatarExtendEmbeds (#346, #461) calcola embedding condizionati sui latenti precedenti, incorniciati dalla sovrapposizione corrente. WanVideoSamplerv2 (#327, #456) genera il prossimo pezzo, che viene decodificato e unito con ImageBatchExtendWithOverlap (#341, #460) per mantenere la continuità. Ulteriori passaggi di finestra possono essere ripetuti per risultati più lunghi, e ogni fase può essere esportata con VHS_VideoCombine (#386, #453).

Nodi chiave nel workflow Comfyui LongCat Avatar in ComfyUI

WanVideoModelLoader (#122)
- Carica il checkpoint LongCat-Avatar e collega il LongCat distill LoRA, definendo la fedeltà dell'identità e il comportamento del movimento. Se si eseguono istanze più grandi, cambiare l'implementazione dell'attenzione per una migliore velocità come raccomandato nel wrapper WanVideo. Repository di riferimento: github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds (#194)
- Produce embedding guidati dall'audio dalla voce che guidano il movimento delle labbra, della mascella e della testa. Per una articolazione più forte, aumentare l'influenza del discorso e considerare un passaggio aggiuntivo per una sincronizzazione più stretta quando l'audio è molto chiaro. Informazioni sul modello di base: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds (#346)
- Fondamentale per LongCat Avatar in ComfyUI, questo nodo estende gli embedding delle immagini nel tempo restando ancorato al latente di riferimento. Regolare la lunghezza della finestra e la sovrapposizione per bilanciare fluidità, runtime e stabilità su clip più lunghi.
WanVideoSamplerv2 (#327)
- Esegue il processo di diffusione utilizzando il modello, il programmatore, la guida testuale e gli embedding delle immagini. Regolare la forza della guida per bilanciare l'aderenza al prompt contro la variazione; piccoli cambiamenti possono avere effetti visibili sulla rigidità dell'identità e sul movimento.
VHS_VideoCombine (#320)
- Mixa i fotogrammi renderizzati con l'audio originale in un mp4 per una visione facile. Utilizzare l'opzione di taglio integrata quando si desidera che i visual finiscano esattamente con l'audio o per esportare solo l'ultima finestra.

Extra opzionali

Assicurarsi che la durata dell'audio copra tutte le finestre di estensione pianificate per evitare di rimanere senza discorso a metà sequenza.
Per clip lunghi, aumentare moderatamente la dimensione della finestra e mantenere una certa sovrapposizione affinché le transizioni rimangano fluide; troppa poca sovrapposizione può introdurre scatti, troppa può rallentare il rendering.
La pipeline opera a un frame rate fisso legato al passo guidato dal discorso, che mantiene la sincronizzazione labiale allineata durante l'esportazione.
Se si utilizza un tipo di macchina grande, impostare l'implementazione dell'attenzione nel caricatore del modello su un'opzione efficiente in termini di memoria per una migliore velocità.
Non mescolare formati di modello incompatibili; mantenere il modello principale e qualsiasi componente vocale in famiglie corrispondenti come fornito nelle versioni Comfy di WanVideo. Hub di modelli utili: Kijai/WanVideo_comfy e varianti GGUF come city96/Wan2.1-I2V-14B-480P-gguf.

Riconoscimenti

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo Kijai per ComfyUI-WanVideoWrapper (workflow LongCatAvatar) e @Benji’s AI Playground il creatore del video YouTube di riferimento per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

YouTube/Video tutorial
- Documenti / Note di rilascio: Benji’s AI Playground YouTube video
Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Documenti / Note di rilascio: LongCatAvatar_testing_wip.json (branch longcat_avatar)

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.1 | Generazione Video Rivoluzionaria

Crea video incredibili da testo o immagini con l'innovativa AI che funziona su CPU di tutti i giorni.

Wan 2.1 LoRA

Migliora la generazione video Wan 2.1 con modelli LoRA per uno stile e una personalizzazione avanzati.

Wan 2.1 Control LoRA | Profondità e Tile

Avanza la generazione video Wan 2.1 con LoRA di profondità e tile leggeri per una struttura e dettagli migliorati.

Janus-Pro | Modello T2I + I2T

Janus-Pro: Generazione avanzata Text-to-Image e Image-to-Text.

Wan FusionX | T2V+I2V+VACE Completo

La soluzione di generazione video più potente di sempre! Dettagli di qualità cinematografica, il tuo studio cinematografico personale.

Flux Klein Face Swap | Editor di Volti AI Realistico

Scambia volti perfettamente. Modifica naturale, realistica e veloce con l'AI.

Instagirl v.20 | Demo Wan 2.2 LoRA

Un workflow Wan 2.2 per dimostrare l'Instagirl LoRA di Instara.

FLUX.2 Dev LoRA Inferenza | AI Toolkit ComfyUI

Esegui il tuo FLUX.2 Dev LoRA addestrato con AI Toolkit in ComfyUI con comportamento corrispondente all'addestramento utilizzando un singolo nodo personalizzato RunComfy RC.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

LongCat Avatar in ComfyUI | Animazione Avatar Coerente con l'Identità

LongCat Avatar in ComfyUI: da un'unica immagine a video avatar parlante

Modelli chiave nel workflow Comfyui LongCat Avatar in ComfyUI

Come utilizzare il workflow Comfyui LongCat Avatar in ComfyUI

Nodi chiave nel workflow Comfyui LongCat Avatar in ComfyUI

Extra opzionali

Riconoscimenti

Risorse

Want More ComfyUI Workflows?

Wan 2.1 | Generazione Video Rivoluzionaria

Wan 2.1 LoRA

Wan 2.1 Control LoRA | Profondità e Tile

Janus-Pro | Modello T2I + I2T

Wan FusionX | T2V+I2V+VACE Completo

Flux Klein Face Swap | Editor di Volti AI Realistico

Instagirl v.20 | Demo Wan 2.2 LoRA

FLUX.2 Dev LoRA Inferenza | AI Toolkit ComfyUI