LongCat Avatar dans ComfyUI : d'une image unique à une vidéo d'avatar parlant
LongCat Avatar dans ComfyUI transforme une image de référence unique en une vidéo d'avatar audio-dirigée et stable en termes d'identité. Basé sur le wrapper WanVideo de kijai, il se concentre sur la cohérence faciale, la continuité du mouvement fluide et la synchronisation labiale naturelle sans aucun ajustement fin par personnage. Vous fournissez une image de personnage et une piste audio ; le workflow rend une performance temporellement cohérente, adaptée aux clips de tête parlante, aux performances de personnages stylisés, et aux tests rapides de mouvement d'avatar.
Les créateurs qui souhaitent une itération rapide trouveront LongCat Avatar dans ComfyUI pragmatique et fiable. Le workflow utilise le modèle de préservation d'identité de LongCat et un schéma de génération fenêtré pour étendre les séquences tout en gardant les expressions stables. Les sorties sont assemblées en vidéo avec l'audio source pour un examen ou une publication simplifiés.
Remarque : Sur les machines 2XL ou plus, veuillez régler le backend d'attention sur "sdpa" dans le nœud WanVideo Model Loader. Le backend segeattn par défaut peut causer des problèmes de compatibilité sur les GPU haut de gamme.
Modèles clés dans le workflow Comfyui LongCat Avatar dans ComfyUI
- Modèle LongCat-Avatar pour WanVideo. Génération d'image à vidéo axée sur l'identité adaptée pour ComfyUI, offrant une forte préservation du personnage à travers les images. Voir les versions Comfy de WanVideo par kijai sur Hugging Face pour les points de contrôle et les notes. Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA. Un LoRA distillé qui renforce la structure faciale et les caractéristiques d'identité lors de l'échantillonnage, améliorant la stabilité sous mouvement. Disponible avec les ressources WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE. VAE vidéo utilisé pour encoder les images de référence en latents et décoder les échantillons générés en images. Hugging Face: Kijai/WanVideo_comfy
- Encodeur de texte UM-T5. Utilisé par WanVideo pour interpréter les invites textuelles qui orientent la description de la scène et le style tout en conservant l'identité. Hugging Face: google/umt5-xxl
- Représentations de la parole Wav2Vec 2.0. Fournit des caractéristiques de parole robustes qui pilotent le mouvement des lèvres et de la mâchoire via des embeddings MultiTalk. Document de fond : wav2vec 2.0. arXiv et une variante de modèle compatible : Hugging Face: TencentGameMate/chinese-wav2vec2-base
- Séparateur vocal MelBandRoFormer. Séparation vocale-musicale optionnelle pour que le module de synchronisation labiale reçoive un signal vocal plus propre. Hugging Face: Kijai/MelBandRoFormer_comfy
Comment utiliser le workflow Comfyui LongCat Avatar dans ComfyUI
Le workflow comporte trois phases principales : modèles et paramètres, audio vers indices de mouvement, et image de référence vers vidéo avec extension fenêtrée. Il rend à un taux fixe conçu pour le mouvement guidé par l'audio, puis assemble les fenêtres en un clip sans couture.
- Modèles
- Le
WanVideoModelLoader(#122) charge le point de contrôle LongCat-Avatar et le LoRA distill LongCat, tandis queWanVideoVAELoader(#129) fournit le VAE vidéo. LeWanVideoSchedulerv2(#325) prépare le calendrier de l'échantillonneur utilisé pendant la diffusion. Ces composants définissent la fidélité, la rétention de l'identité, et l'apparence générale. Une fois définis, ils servent de colonne vertébrale pour toutes les étapes d'échantillonnage ultérieures.
- Le
- Audio
- Chargez une piste vocale avec
LoadAudio(#125), coupez-la éventuellement avecTrimAudioDuration(#317), et séparez les voix avecMelBandRoFormerSampler(#302) pour réduire les saignements de fond.MultiTalkWav2VecEmbeds(#194) convertit la parole nettoyée en embeddings qui pilotent le mouvement de la bouche et les dynamiques subtiles de la tête. Le nombre d'images effectives est dérivé de la durée audio, donc un audio plus long conduit à des séquences plus longues. Le flux audio est ensuite multiplexé avec des images lors de l'étape de combinaison vidéo.
- Chargez une piste vocale avec
- Image d'entrée
- Ajoutez votre image de personnage avec
LoadImage(#284).ImageResizeKJv2(#281) la redimensionne pour le modèle, etWanVideoEncode(#312) la transforme enref_latentqui ancre l'identité à travers toutes les images. Ce latent est la référence fixe que le pipeline LongCat Avatar dans ComfyUI réutilise tout en injectant un mouvement variant dans le temps à partir de l'audio et des invites.
- Ajoutez votre image de personnage avec
- Étendre la fenêtre 1
WanVideoLongCatAvatarExtendEmbeds(#345) fusionne leref_latentavec les embeddings audio pour créer des embeddings d'image pour la première fenêtre.WanVideoSamplerv2(#324) débruite ensuite les latents en un court clip.WanVideoDecode(#313) les transforme en images pour un aperçu et la première exportation vidéo avecVHS_VideoCombine(#320). La taille de la fenêtre et le chevauchement sont suivis en interne afin que la fenêtre suivante puisse s'aligner sans coutures visibles.
- Étendre la fenêtre 2
- Le deuxième groupe d'extension répète la même idée pour continuer la séquence.
WanVideoLongCatAvatarExtendEmbeds(#346, #461) calcule les embeddings conditionnés sur les latents précédents, encadrés par le chevauchement actuel.WanVideoSamplerv2(#327, #456) génère le prochain segment, qui est décodé et fusionné avecImageBatchExtendWithOverlap(#341, #460) pour maintenir la continuité. Des étapes de fenêtre supplémentaires peuvent être répétées pour des résultats plus longs, et chaque étape peut être exportée avecVHS_VideoCombine(#386, #453).
- Le deuxième groupe d'extension répète la même idée pour continuer la séquence.
Nœuds clés dans le workflow Comfyui LongCat Avatar dans ComfyUI
WanVideoModelLoader(#122)- Charge le point de contrôle LongCat-Avatar et attache le LoRA distill LongCat, définissant la fidélité de l'identité et le comportement du mouvement. Si vous exécutez des instances plus grandes, changez l'implémentation de l'attention pour un meilleur débit comme recommandé dans le wrapper WanVideo. Référentiel pour référence : github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds(#194)- Produit des embeddings audio-dirigés à partir de la parole qui guident le mouvement des lèvres, de la mâchoire et de la tête subtile. Pour une articulation plus forte, augmentez l'influence de la parole et envisagez un passage supplémentaire pour une synchronisation plus étroite lorsque votre audio est très clair. Informations sur le modèle de fond : arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds(#346)- Au cœur de LongCat Avatar dans ComfyUI, ce nœud étend les embeddings d'image dans le temps tout en restant ancré au latent de référence. Ajustez la longueur et le chevauchement de la fenêtre pour équilibrer la fluidité, le temps d'exécution, et la stabilité sur des clips plus longs.
WanVideoSamplerv2(#327)- Exécute le processus de diffusion en utilisant le modèle, le planificateur, les conseils textuels, et les embeddings d'image. Ajustez la force des conseils pour équilibrer l'adhérence à l'invite contre la variation ; de petits changements peuvent avoir des effets visibles sur la rigidité de l'identité et le mouvement.
VHS_VideoCombine(#320)- Mux les cadres rendus avec l'audio original en un mp4 pour un visionnage facile. Utilisez l'option de découpage intégrée lorsque vous souhaitez que les visuels se terminent exactement avec l'audio ou pour exporter uniquement la dernière fenêtre.
Extras optionnels
- Assurez-vous que la durée audio couvre toutes les fenêtres d'extension prévues pour éviter de manquer de parole au milieu de la séquence.
- Pour les clips longs, augmentez modérément la taille de la fenêtre et gardez un certain chevauchement pour que les transitions restent fluides ; trop peu de chevauchement peut introduire des sauts, trop peut ralentir le rendu.
- Le pipeline fonctionne à un taux de trame fixe lié à la cadence guidée par la parole, ce qui maintient l'alignement de la synchronisation labiale pendant l'exportation.
- Si vous utilisez un type de machine grande, réglez l'implémentation de l'attention dans le chargeur de modèle sur une option économe en mémoire pour une meilleure vitesse.
- Ne mélangez pas de formats de modèle incompatibles ; gardez le modèle principal et les composants de parole dans les familles correspondantes fournies dans les versions WanVideo Comfy. Hubs de modèles utiles : Kijai/WanVideo_comfy et variantes GGUF comme city96/Wan2.1-I2V-14B-480P-gguf.
Remerciements
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Kijai pour ComfyUI-WanVideoWrapper (workflow LongCatAvatar) et @Benji’s AI Playground, le créateur de la vidéo YouTube référencée, pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources
- YouTube/Tutoriel vidéo
- Docs / Notes de version : Vidéo YouTube de Benji’s AI Playground
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub : kijai/ComfyUI-WanVideoWrapper
- Docs / Notes de version : LongCatAvatar_testing_wip.json (branche longcat_avatar)
Remarque : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

