LongCat Avatar in ComfyUI: da un'unica immagine a video avatar parlante
LongCat Avatar in ComfyUI trasforma un'unica immagine di riferimento in un video avatar stabile nell'identità e guidato dall'audio. Basato sul wrapper WanVideo di kijai, si concentra sulla coerenza facciale, continuità del movimento fluido e sincronizzazione labiale naturale senza alcuna messa a punto per personaggio. Fornisci un'immagine del personaggio e una traccia audio; il workflow rende una performance temporalmente coerente, adatta per clip parlanti, performance di personaggi stilizzati e test rapidi di movimento avatar.
I creatori che desiderano iterazioni rapide troveranno LongCat Avatar in ComfyUI pragmatico e affidabile. Il workflow utilizza il modello di preservazione dell'identità di LongCat e uno schema di generazione finestrato per estendere le sequenze mantenendo stabili le espressioni. Gli output vengono assemblati in video con l'audio sorgente per una revisione o pubblicazione diretta.
Nota: Su macchine 2XL o superiori, si prega di impostare il backend di attenzione su "sdpa" nel nodo WanVideo Model Loader. Il backend predefinito segeattn può causare problemi di compatibilità su GPU di fascia alta.
Modelli chiave nel workflow Comfyui LongCat Avatar in ComfyUI
- Modello LongCat-Avatar per WanVideo. Generazione immagine-a-video focalizzata sull'identità adattata per ComfyUI, fornendo una forte preservazione del personaggio attraverso i fotogrammi. Vedi le versioni Comfy di WanVideo di kijai su Hugging Face per checkpoint e note. Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA. Un LoRA distillato che rafforza la struttura facciale e le caratteristiche dell'identità durante il campionamento, migliorando la stabilità sotto movimento. Disponibile con risorse WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE. VAE video utilizzato per codificare il/i fotogramma/i di riferimento in latenti e decodificare i campioni generati in immagini. Hugging Face: Kijai/WanVideo_comfy
- Codificatore di testo UM-T5. Utilizzato da WanVideo per interpretare i prompt di testo che guidano la descrizione della scena e lo stile mantenendo intatta l'identità. Hugging Face: google/umt5-xxl
- Rappresentazioni vocali Wav2Vec 2.0. Fornisce robuste caratteristiche vocali che guidano il movimento delle labbra e della mascella tramite embedding MultiTalk. Documento di riferimento: wav2vec 2.0. arXiv e una variante del modello compatibile: Hugging Face: TencentGameMate/chinese-wav2vec2-base
- Separatore vocale MelBandRoFormer. Separazione opzionale voce-musica così che il modulo di sincronizzazione labiale riceva un segnale vocale più pulito. Hugging Face: Kijai/MelBandRoFormer_comfy
Come utilizzare il workflow Comfyui LongCat Avatar in ComfyUI
Il workflow ha tre fasi principali: modelli e impostazioni, audio per indizi di movimento, e immagine di riferimento per video con estensione finestrata. Rende a una velocità fissa progettata per il movimento guidato dall'audio, quindi cuce le finestre in un clip senza soluzione di continuità.
- Modelli
- Il
WanVideoModelLoader(#122) carica il checkpoint LongCat-Avatar e il LongCat distill LoRA, mentreWanVideoVAELoader(#129) fornisce il VAE video. IlWanVideoSchedulerv2(#325) prepara il programma del campionatore utilizzato durante la diffusione. Questi componenti definiscono fedeltà, ritenzione dell'identità e aspetto generale. Una volta impostati, agiscono da spina dorsale per tutti i passaggi di campionamento successivi.
- Il
- Audio
- Carica una traccia vocale con
LoadAudio(#125), eventualmente taglia conTrimAudioDuration(#317), e separa le voci conMelBandRoFormerSampler(#302) per ridurre il rumore di fondo.MultiTalkWav2VecEmbeds(#194) converte il discorso pulito in embedding che guidano il movimento della bocca e le dinamiche sottili della testa. Il conteggio effettivo dei fotogrammi è derivato dalla durata dell'audio, quindi audio più lungo porta a sequenze più lunghe. Il flusso audio viene successivamente multiplexato con le immagini nella fase di combinazione video.
- Carica una traccia vocale con
- Immagine di input
- Aggiungi l'immagine del tuo personaggio con
LoadImage(#284).ImageResizeKJv2(#281) la dimensiona per il modello, eWanVideoEncode(#312) la trasforma in unref_latentche ancora l'identità in tutti i fotogrammi. Questo latente è il riferimento fisso che la pipeline LongCat Avatar in ComfyUI riutilizza mentre inietta movimento variabile nel tempo da audio e prompt.
- Aggiungi l'immagine del tuo personaggio con
- Estendi finestra 1
WanVideoLongCatAvatarExtendEmbeds(#345) fonde ilref_latentcon embedding audio per creare embedding di immagini per la prima finestra.WanVideoSamplerv2(#324) poi denoisa i latenti in un breve clip.WanVideoDecode(#313) li trasforma in immagini per l'anteprima e la prima esportazione video conVHS_VideoCombine(#320). La dimensione della finestra e la sovrapposizione sono tracciate internamente così la finestra successiva può allinearsi senza cuciture visibili.
- Estendi finestra 2
- Il secondo gruppo di estensione ripete lo stesso concetto per continuare la sequenza.
WanVideoLongCatAvatarExtendEmbeds(#346, #461) calcola embedding condizionati sui latenti precedenti, incorniciati dalla sovrapposizione corrente.WanVideoSamplerv2(#327, #456) genera il prossimo pezzo, che viene decodificato e unito conImageBatchExtendWithOverlap(#341, #460) per mantenere la continuità. Ulteriori passaggi di finestra possono essere ripetuti per risultati più lunghi, e ogni fase può essere esportata conVHS_VideoCombine(#386, #453).
- Il secondo gruppo di estensione ripete lo stesso concetto per continuare la sequenza.
Nodi chiave nel workflow Comfyui LongCat Avatar in ComfyUI
WanVideoModelLoader(#122)- Carica il checkpoint LongCat-Avatar e collega il LongCat distill LoRA, definendo la fedeltà dell'identità e il comportamento del movimento. Se si eseguono istanze più grandi, cambiare l'implementazione dell'attenzione per una migliore velocità come raccomandato nel wrapper WanVideo. Repository di riferimento: github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds(#194)- Produce embedding guidati dall'audio dalla voce che guidano il movimento delle labbra, della mascella e della testa. Per una articolazione più forte, aumentare l'influenza del discorso e considerare un passaggio aggiuntivo per una sincronizzazione più stretta quando l'audio è molto chiaro. Informazioni sul modello di base: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds(#346)- Fondamentale per LongCat Avatar in ComfyUI, questo nodo estende gli embedding delle immagini nel tempo restando ancorato al latente di riferimento. Regolare la lunghezza della finestra e la sovrapposizione per bilanciare fluidità, runtime e stabilità su clip più lunghi.
WanVideoSamplerv2(#327)- Esegue il processo di diffusione utilizzando il modello, il programmatore, la guida testuale e gli embedding delle immagini. Regolare la forza della guida per bilanciare l'aderenza al prompt contro la variazione; piccoli cambiamenti possono avere effetti visibili sulla rigidità dell'identità e sul movimento.
VHS_VideoCombine(#320)- Mixa i fotogrammi renderizzati con l'audio originale in un mp4 per una visione facile. Utilizzare l'opzione di taglio integrata quando si desidera che i visual finiscano esattamente con l'audio o per esportare solo l'ultima finestra.
Extra opzionali
- Assicurarsi che la durata dell'audio copra tutte le finestre di estensione pianificate per evitare di rimanere senza discorso a metà sequenza.
- Per clip lunghi, aumentare moderatamente la dimensione della finestra e mantenere una certa sovrapposizione affinché le transizioni rimangano fluide; troppa poca sovrapposizione può introdurre scatti, troppa può rallentare il rendering.
- La pipeline opera a un frame rate fisso legato al passo guidato dal discorso, che mantiene la sincronizzazione labiale allineata durante l'esportazione.
- Se si utilizza un tipo di macchina grande, impostare l'implementazione dell'attenzione nel caricatore del modello su un'opzione efficiente in termini di memoria per una migliore velocità.
- Non mescolare formati di modello incompatibili; mantenere il modello principale e qualsiasi componente vocale in famiglie corrispondenti come fornito nelle versioni Comfy di WanVideo. Hub di modelli utili: Kijai/WanVideo_comfy e varianti GGUF come city96/Wan2.1-I2V-14B-480P-gguf.
Riconoscimenti
Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo Kijai per ComfyUI-WanVideoWrapper (workflow LongCatAvatar) e @Benji’s AI Playground il creatore del video YouTube di riferimento per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse
- YouTube/Video tutorial
- Documenti / Note di rilascio: Benji’s AI Playground YouTube video
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Documenti / Note di rilascio: LongCatAvatar_testing_wip.json (branch longcat_avatar)
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
