logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Workflow>LongCat Avatar in ComfyUI | Animazione Avatar Coerente con l'Identità

LongCat Avatar in ComfyUI | Animazione Avatar Coerente con l'Identità

Workflow Name: RunComfy/LongCat-Avatar-in-ComfyUI
Workflow ID: 0000...1327
Utilizzando il framework WanVideo, questo potente workflow trasforma un'immagine statica in avatar animati fluidi ed espressivi. Puoi mantenere l'identità del personaggio e l'integrità del volto in ogni fotogramma. Consente una prototipazione rapida e stabile di animazioni con una configurazione minima. Ideale per testare stili di avatar o idee di movimento, questo sistema mantiene ogni animazione coerente ed emotivamente coinvolgente. Perfetto per i creatori che esplorano il movimento dei personaggi senza un addestramento intensivo o una configurazione complessa.

LongCat Avatar in ComfyUI: da un'unica immagine a video avatar parlante

LongCat Avatar in ComfyUI trasforma un'unica immagine di riferimento in un video avatar stabile nell'identità e guidato dall'audio. Basato sul wrapper WanVideo di kijai, si concentra sulla coerenza facciale, continuità del movimento fluido e sincronizzazione labiale naturale senza alcuna messa a punto per personaggio. Fornisci un'immagine del personaggio e una traccia audio; il workflow rende una performance temporalmente coerente, adatta per clip parlanti, performance di personaggi stilizzati e test rapidi di movimento avatar.

I creatori che desiderano iterazioni rapide troveranno LongCat Avatar in ComfyUI pragmatico e affidabile. Il workflow utilizza il modello di preservazione dell'identità di LongCat e uno schema di generazione finestrato per estendere le sequenze mantenendo stabili le espressioni. Gli output vengono assemblati in video con l'audio sorgente per una revisione o pubblicazione diretta.

Nota: Su macchine 2XL o superiori, si prega di impostare il backend di attenzione su "sdpa" nel nodo WanVideo Model Loader. Il backend predefinito segeattn può causare problemi di compatibilità su GPU di fascia alta.

Modelli chiave nel workflow Comfyui LongCat Avatar in ComfyUI

  • Modello LongCat-Avatar per WanVideo. Generazione immagine-a-video focalizzata sull'identità adattata per ComfyUI, fornendo una forte preservazione del personaggio attraverso i fotogrammi. Vedi le versioni Comfy di WanVideo di kijai su Hugging Face per checkpoint e note. Hugging Face: Kijai/WanVideo_comfy
  • LongCat distill LoRA. Un LoRA distillato che rafforza la struttura facciale e le caratteristiche dell'identità durante il campionamento, migliorando la stabilità sotto movimento. Disponibile con risorse WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
  • Wan 2.1 VAE. VAE video utilizzato per codificare il/i fotogramma/i di riferimento in latenti e decodificare i campioni generati in immagini. Hugging Face: Kijai/WanVideo_comfy
  • Codificatore di testo UM-T5. Utilizzato da WanVideo per interpretare i prompt di testo che guidano la descrizione della scena e lo stile mantenendo intatta l'identità. Hugging Face: google/umt5-xxl
  • Rappresentazioni vocali Wav2Vec 2.0. Fornisce robuste caratteristiche vocali che guidano il movimento delle labbra e della mascella tramite embedding MultiTalk. Documento di riferimento: wav2vec 2.0. arXiv e una variante del modello compatibile: Hugging Face: TencentGameMate/chinese-wav2vec2-base
  • Separatore vocale MelBandRoFormer. Separazione opzionale voce-musica così che il modulo di sincronizzazione labiale riceva un segnale vocale più pulito. Hugging Face: Kijai/MelBandRoFormer_comfy

Come utilizzare il workflow Comfyui LongCat Avatar in ComfyUI

Il workflow ha tre fasi principali: modelli e impostazioni, audio per indizi di movimento, e immagine di riferimento per video con estensione finestrata. Rende a una velocità fissa progettata per il movimento guidato dall'audio, quindi cuce le finestre in un clip senza soluzione di continuità.

  • Modelli
    • Il WanVideoModelLoader (#122) carica il checkpoint LongCat-Avatar e il LongCat distill LoRA, mentre WanVideoVAELoader (#129) fornisce il VAE video. Il WanVideoSchedulerv2 (#325) prepara il programma del campionatore utilizzato durante la diffusione. Questi componenti definiscono fedeltà, ritenzione dell'identità e aspetto generale. Una volta impostati, agiscono da spina dorsale per tutti i passaggi di campionamento successivi.
  • Audio
    • Carica una traccia vocale con LoadAudio (#125), eventualmente taglia con TrimAudioDuration (#317), e separa le voci con MelBandRoFormerSampler (#302) per ridurre il rumore di fondo. MultiTalkWav2VecEmbeds (#194) converte il discorso pulito in embedding che guidano il movimento della bocca e le dinamiche sottili della testa. Il conteggio effettivo dei fotogrammi è derivato dalla durata dell'audio, quindi audio più lungo porta a sequenze più lunghe. Il flusso audio viene successivamente multiplexato con le immagini nella fase di combinazione video.
  • Immagine di input
    • Aggiungi l'immagine del tuo personaggio con LoadImage (#284). ImageResizeKJv2 (#281) la dimensiona per il modello, e WanVideoEncode (#312) la trasforma in un ref_latent che ancora l'identità in tutti i fotogrammi. Questo latente è il riferimento fisso che la pipeline LongCat Avatar in ComfyUI riutilizza mentre inietta movimento variabile nel tempo da audio e prompt.
  • Estendi finestra 1
    • WanVideoLongCatAvatarExtendEmbeds (#345) fonde il ref_latent con embedding audio per creare embedding di immagini per la prima finestra. WanVideoSamplerv2 (#324) poi denoisa i latenti in un breve clip. WanVideoDecode (#313) li trasforma in immagini per l'anteprima e la prima esportazione video con VHS_VideoCombine (#320). La dimensione della finestra e la sovrapposizione sono tracciate internamente così la finestra successiva può allinearsi senza cuciture visibili.
  • Estendi finestra 2
    • Il secondo gruppo di estensione ripete lo stesso concetto per continuare la sequenza. WanVideoLongCatAvatarExtendEmbeds (#346, #461) calcola embedding condizionati sui latenti precedenti, incorniciati dalla sovrapposizione corrente. WanVideoSamplerv2 (#327, #456) genera il prossimo pezzo, che viene decodificato e unito con ImageBatchExtendWithOverlap (#341, #460) per mantenere la continuità. Ulteriori passaggi di finestra possono essere ripetuti per risultati più lunghi, e ogni fase può essere esportata con VHS_VideoCombine (#386, #453).

Nodi chiave nel workflow Comfyui LongCat Avatar in ComfyUI

  • WanVideoModelLoader (#122)
    • Carica il checkpoint LongCat-Avatar e collega il LongCat distill LoRA, definendo la fedeltà dell'identità e il comportamento del movimento. Se si eseguono istanze più grandi, cambiare l'implementazione dell'attenzione per una migliore velocità come raccomandato nel wrapper WanVideo. Repository di riferimento: github.com/kijai/ComfyUI-WanVideoWrapper.
  • MultiTalkWav2VecEmbeds (#194)
    • Produce embedding guidati dall'audio dalla voce che guidano il movimento delle labbra, della mascella e della testa. Per una articolazione più forte, aumentare l'influenza del discorso e considerare un passaggio aggiuntivo per una sincronizzazione più stretta quando l'audio è molto chiaro. Informazioni sul modello di base: arXiv: wav2vec 2.0.
  • WanVideoLongCatAvatarExtendEmbeds (#346)
    • Fondamentale per LongCat Avatar in ComfyUI, questo nodo estende gli embedding delle immagini nel tempo restando ancorato al latente di riferimento. Regolare la lunghezza della finestra e la sovrapposizione per bilanciare fluidità, runtime e stabilità su clip più lunghi.
  • WanVideoSamplerv2 (#327)
    • Esegue il processo di diffusione utilizzando il modello, il programmatore, la guida testuale e gli embedding delle immagini. Regolare la forza della guida per bilanciare l'aderenza al prompt contro la variazione; piccoli cambiamenti possono avere effetti visibili sulla rigidità dell'identità e sul movimento.
  • VHS_VideoCombine (#320)
    • Mixa i fotogrammi renderizzati con l'audio originale in un mp4 per una visione facile. Utilizzare l'opzione di taglio integrata quando si desidera che i visual finiscano esattamente con l'audio o per esportare solo l'ultima finestra.

Extra opzionali

  • Assicurarsi che la durata dell'audio copra tutte le finestre di estensione pianificate per evitare di rimanere senza discorso a metà sequenza.
  • Per clip lunghi, aumentare moderatamente la dimensione della finestra e mantenere una certa sovrapposizione affinché le transizioni rimangano fluide; troppa poca sovrapposizione può introdurre scatti, troppa può rallentare il rendering.
  • La pipeline opera a un frame rate fisso legato al passo guidato dal discorso, che mantiene la sincronizzazione labiale allineata durante l'esportazione.
  • Se si utilizza un tipo di macchina grande, impostare l'implementazione dell'attenzione nel caricatore del modello su un'opzione efficiente in termini di memoria per una migliore velocità.
  • Non mescolare formati di modello incompatibili; mantenere il modello principale e qualsiasi componente vocale in famiglie corrispondenti come fornito nelle versioni Comfy di WanVideo. Hub di modelli utili: Kijai/WanVideo_comfy e varianti GGUF come city96/Wan2.1-I2V-14B-480P-gguf.

Riconoscimenti

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo Kijai per ComfyUI-WanVideoWrapper (workflow LongCatAvatar) e @Benji’s AI Playground il creatore del video YouTube di riferimento per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

  • YouTube/Video tutorial
    • Documenti / Note di rilascio: Benji’s AI Playground YouTube video
  • Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
    • GitHub: kijai/ComfyUI-WanVideoWrapper
    • Documenti / Note di rilascio: LongCatAvatar_testing_wip.json (branch longcat_avatar)

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.1 | Generazione Video Rivoluzionaria

Crea video incredibili da testo o immagini con l'innovativa AI che funziona su CPU di tutti i giorni.

Wan 2.1 LoRA

Migliora la generazione video Wan 2.1 con modelli LoRA per uno stile e una personalizzazione avanzati.

Wan 2.1 Control LoRA | Profondità e Tile

Avanza la generazione video Wan 2.1 con LoRA di profondità e tile leggeri per una struttura e dettagli migliorati.

Janus-Pro | Modello T2I + I2T

Janus-Pro: Generazione avanzata Text-to-Image e Image-to-Text.

Wan FusionX | T2V+I2V+VACE Completo

La soluzione di generazione video più potente di sempre! Dettagli di qualità cinematografica, il tuo studio cinematografico personale.

AnimateDiff + ControlNet | Stile Scultura di Marmo

Trasforma i tuoi video in sculture di marmo senza tempo, catturando l'essenza dell'arte classica.

Omni Kontext | Integrazione di Scene Senza Soluzioni di Continuità

Scene perfettamente adatte. Stile unico. L'identità rimane. Kontext mantiene la realtà.

Qwen Image Edit 2509 | Editor Multi-Immagine

Trasforma 2–3 immagini in un capolavoro modificato senza soluzione di continuità istantaneamente.

Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2025 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.