LongCat Avatar dans ComfyUI | Animation à identité préservée de WanVideo

LongCat Avatar dans ComfyUI : d'une image unique à une vidéo d'avatar parlant

LongCat Avatar dans ComfyUI transforme une image de référence unique en une vidéo d'avatar audio-dirigée et stable en termes d'identité. Basé sur le wrapper WanVideo de kijai, il se concentre sur la cohérence faciale, la continuité du mouvement fluide et la synchronisation labiale naturelle sans aucun ajustement fin par personnage. Vous fournissez une image de personnage et une piste audio ; le workflow rend une performance temporellement cohérente, adaptée aux clips de tête parlante, aux performances de personnages stylisés, et aux tests rapides de mouvement d'avatar.

Les créateurs qui souhaitent une itération rapide trouveront LongCat Avatar dans ComfyUI pragmatique et fiable. Le workflow utilise le modèle de préservation d'identité de LongCat et un schéma de génération fenêtré pour étendre les séquences tout en gardant les expressions stables. Les sorties sont assemblées en vidéo avec l'audio source pour un examen ou une publication simplifiés.

Remarque : Sur les machines 2XL ou plus, veuillez régler le backend d'attention sur "sdpa" dans le nœud WanVideo Model Loader. Le backend segeattn par défaut peut causer des problèmes de compatibilité sur les GPU haut de gamme.

Modèles clés dans le workflow Comfyui LongCat Avatar dans ComfyUI

Modèle LongCat-Avatar pour WanVideo. Génération d'image à vidéo axée sur l'identité adaptée pour ComfyUI, offrant une forte préservation du personnage à travers les images. Voir les versions Comfy de WanVideo par kijai sur Hugging Face pour les points de contrôle et les notes. Hugging Face: Kijai/WanVideo_comfy
LongCat distill LoRA. Un LoRA distillé qui renforce la structure faciale et les caractéristiques d'identité lors de l'échantillonnage, améliorant la stabilité sous mouvement. Disponible avec les ressources WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
Wan 2.1 VAE. VAE vidéo utilisé pour encoder les images de référence en latents et décoder les échantillons générés en images. Hugging Face: Kijai/WanVideo_comfy
Encodeur de texte UM-T5. Utilisé par WanVideo pour interpréter les invites textuelles qui orientent la description de la scène et le style tout en conservant l'identité. Hugging Face: google/umt5-xxl
Représentations de la parole Wav2Vec 2.0. Fournit des caractéristiques de parole robustes qui pilotent le mouvement des lèvres et de la mâchoire via des embeddings MultiTalk. Document de fond : wav2vec 2.0. arXiv et une variante de modèle compatible : Hugging Face: TencentGameMate/chinese-wav2vec2-base
Séparateur vocal MelBandRoFormer. Séparation vocale-musicale optionnelle pour que le module de synchronisation labiale reçoive un signal vocal plus propre. Hugging Face: Kijai/MelBandRoFormer_comfy

Comment utiliser le workflow Comfyui LongCat Avatar dans ComfyUI

Le workflow comporte trois phases principales : modèles et paramètres, audio vers indices de mouvement, et image de référence vers vidéo avec extension fenêtrée. Il rend à un taux fixe conçu pour le mouvement guidé par l'audio, puis assemble les fenêtres en un clip sans couture.

Modèles
- Le WanVideoModelLoader (#122) charge le point de contrôle LongCat-Avatar et le LoRA distill LongCat, tandis que WanVideoVAELoader (#129) fournit le VAE vidéo. Le WanVideoSchedulerv2 (#325) prépare le calendrier de l'échantillonneur utilisé pendant la diffusion. Ces composants définissent la fidélité, la rétention de l'identité, et l'apparence générale. Une fois définis, ils servent de colonne vertébrale pour toutes les étapes d'échantillonnage ultérieures.
Audio
- Chargez une piste vocale avec LoadAudio (#125), coupez-la éventuellement avec TrimAudioDuration (#317), et séparez les voix avec MelBandRoFormerSampler (#302) pour réduire les saignements de fond. MultiTalkWav2VecEmbeds (#194) convertit la parole nettoyée en embeddings qui pilotent le mouvement de la bouche et les dynamiques subtiles de la tête. Le nombre d'images effectives est dérivé de la durée audio, donc un audio plus long conduit à des séquences plus longues. Le flux audio est ensuite multiplexé avec des images lors de l'étape de combinaison vidéo.
Image d'entrée
- Ajoutez votre image de personnage avec LoadImage (#284). ImageResizeKJv2 (#281) la redimensionne pour le modèle, et WanVideoEncode (#312) la transforme en ref_latent qui ancre l'identité à travers toutes les images. Ce latent est la référence fixe que le pipeline LongCat Avatar dans ComfyUI réutilise tout en injectant un mouvement variant dans le temps à partir de l'audio et des invites.
Étendre la fenêtre 1
- WanVideoLongCatAvatarExtendEmbeds (#345) fusionne le ref_latent avec les embeddings audio pour créer des embeddings d'image pour la première fenêtre. WanVideoSamplerv2 (#324) débruite ensuite les latents en un court clip. WanVideoDecode (#313) les transforme en images pour un aperçu et la première exportation vidéo avec VHS_VideoCombine (#320). La taille de la fenêtre et le chevauchement sont suivis en interne afin que la fenêtre suivante puisse s'aligner sans coutures visibles.
Étendre la fenêtre 2
- Le deuxième groupe d'extension répète la même idée pour continuer la séquence. WanVideoLongCatAvatarExtendEmbeds (#346, #461) calcule les embeddings conditionnés sur les latents précédents, encadrés par le chevauchement actuel. WanVideoSamplerv2 (#327, #456) génère le prochain segment, qui est décodé et fusionné avec ImageBatchExtendWithOverlap (#341, #460) pour maintenir la continuité. Des étapes de fenêtre supplémentaires peuvent être répétées pour des résultats plus longs, et chaque étape peut être exportée avec VHS_VideoCombine (#386, #453).

Nœuds clés dans le workflow Comfyui LongCat Avatar dans ComfyUI

WanVideoModelLoader (#122)
- Charge le point de contrôle LongCat-Avatar et attache le LoRA distill LongCat, définissant la fidélité de l'identité et le comportement du mouvement. Si vous exécutez des instances plus grandes, changez l'implémentation de l'attention pour un meilleur débit comme recommandé dans le wrapper WanVideo. Référentiel pour référence : github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds (#194)
- Produit des embeddings audio-dirigés à partir de la parole qui guident le mouvement des lèvres, de la mâchoire et de la tête subtile. Pour une articulation plus forte, augmentez l'influence de la parole et envisagez un passage supplémentaire pour une synchronisation plus étroite lorsque votre audio est très clair. Informations sur le modèle de fond : arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds (#346)
- Au cœur de LongCat Avatar dans ComfyUI, ce nœud étend les embeddings d'image dans le temps tout en restant ancré au latent de référence. Ajustez la longueur et le chevauchement de la fenêtre pour équilibrer la fluidité, le temps d'exécution, et la stabilité sur des clips plus longs.
WanVideoSamplerv2 (#327)
- Exécute le processus de diffusion en utilisant le modèle, le planificateur, les conseils textuels, et les embeddings d'image. Ajustez la force des conseils pour équilibrer l'adhérence à l'invite contre la variation ; de petits changements peuvent avoir des effets visibles sur la rigidité de l'identité et le mouvement.
VHS_VideoCombine (#320)
- Mux les cadres rendus avec l'audio original en un mp4 pour un visionnage facile. Utilisez l'option de découpage intégrée lorsque vous souhaitez que les visuels se terminent exactement avec l'audio ou pour exporter uniquement la dernière fenêtre.

Extras optionnels

Assurez-vous que la durée audio couvre toutes les fenêtres d'extension prévues pour éviter de manquer de parole au milieu de la séquence.
Pour les clips longs, augmentez modérément la taille de la fenêtre et gardez un certain chevauchement pour que les transitions restent fluides ; trop peu de chevauchement peut introduire des sauts, trop peut ralentir le rendu.
Le pipeline fonctionne à un taux de trame fixe lié à la cadence guidée par la parole, ce qui maintient l'alignement de la synchronisation labiale pendant l'exportation.
Si vous utilisez un type de machine grande, réglez l'implémentation de l'attention dans le chargeur de modèle sur une option économe en mémoire pour une meilleure vitesse.
Ne mélangez pas de formats de modèle incompatibles ; gardez le modèle principal et les composants de parole dans les familles correspondantes fournies dans les versions WanVideo Comfy. Hubs de modèles utiles : Kijai/WanVideo_comfy et variantes GGUF comme city96/Wan2.1-I2V-14B-480P-gguf.

Remerciements

Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Kijai pour ComfyUI-WanVideoWrapper (workflow LongCatAvatar) et @Benji’s AI Playground, le créateur de la vidéo YouTube référencée, pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources

YouTube/Tutoriel vidéo
- Docs / Notes de version : Vidéo YouTube de Benji’s AI Playground
Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub : kijai/ComfyUI-WanVideoWrapper
- Docs / Notes de version : LongCatAvatar_testing_wip.json (branche longcat_avatar)

Remarque : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.1 | Génération Vidéo Révolutionnaire

Créez des vidéos incroyables à partir de texte ou d'images avec une IA révolutionnaire fonctionnant sur des CPU quotidiens.

Wan 2.1 LoRA

Améliorez la génération vidéo Wan 2.1 avec des modèles LoRA pour un style et une personnalisation améliorés.

Wan 2.1 Control LoRA | Profondeur et Tuile

Améliorez la génération vidéo Wan 2.1 avec des LoRAs légers de profondeur et de tuiles pour une structure et des détails améliorés.

Janus-Pro | Modèle T2I + I2T

Janus-Pro : Génération avancée de texte-à-image et d'image-à-texte.

Wan FusionX | T2V+I2V+VACE Complet

La solution de génération vidéo la plus puissante à ce jour ! Détails de qualité cinéma, votre studio de film personnel.

Cosmos-Predict2 | Text2Image & Video2World

Rapide et réel ! NVIDIA Cosmos avec une vraie physique.

IPAdapter Plus (V2) | Style et Composition

IPAdapter Plus permet un transfert efficace de style et de composition, fonctionnant comme un LoRA à 1 image.

Hunyuan LoRA

Utilisez les LoRAs Hunyuan téléchargés pour contrôler le style et la cohérence des personnages dans la génération vidéo.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

LongCat Avatar dans ComfyUI | Animation d'avatar cohérente en termes d'identité

LongCat Avatar dans ComfyUI : d'une image unique à une vidéo d'avatar parlant

Modèles clés dans le workflow Comfyui LongCat Avatar dans ComfyUI

Comment utiliser le workflow Comfyui LongCat Avatar dans ComfyUI

Nœuds clés dans le workflow Comfyui LongCat Avatar dans ComfyUI

Extras optionnels

Remerciements

Ressources

Want More ComfyUI Workflows?

Wan 2.1 | Génération Vidéo Révolutionnaire

Wan 2.1 LoRA

Wan 2.1 Control LoRA | Profondeur et Tuile

Janus-Pro | Modèle T2I + I2T

Wan FusionX | T2V+I2V+VACE Complet

Cosmos-Predict2 | Text2Image & Video2World

IPAdapter Plus (V2) | Style et Composition

Hunyuan LoRA