logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Workflows>LongCat Avatar dans ComfyUI | Animation d'avatar cohérente en termes d'identité

LongCat Avatar dans ComfyUI | Animation d'avatar cohérente en termes d'identité

Workflow Name: RunComfy/LongCat-Avatar-in-ComfyUI
Workflow ID: 0000...1327
Utilisant le cadre WanVideo, ce workflow puissant transforme une image statique en avatars animés fluides et expressifs. Vous pouvez maintenir l'identité du personnage et l'intégrité du visage à chaque image. Il permet un prototypage d'animation rapide et stable avec un minimum de configuration. Idéal pour tester des styles d'avatar ou des idées de mouvement, ce système garde chaque animation cohérente et émotionnellement engageante. Parfait pour les créateurs explorant le mouvement des personnages sans formation intensive ni configuration complexe.

LongCat Avatar dans ComfyUI : d'une image unique à une vidéo d'avatar parlant

LongCat Avatar dans ComfyUI transforme une image de référence unique en une vidéo d'avatar audio-dirigée et stable en termes d'identité. Basé sur le wrapper WanVideo de kijai, il se concentre sur la cohérence faciale, la continuité du mouvement fluide et la synchronisation labiale naturelle sans aucun ajustement fin par personnage. Vous fournissez une image de personnage et une piste audio ; le workflow rend une performance temporellement cohérente, adaptée aux clips de tête parlante, aux performances de personnages stylisés, et aux tests rapides de mouvement d'avatar.

Les créateurs qui souhaitent une itération rapide trouveront LongCat Avatar dans ComfyUI pragmatique et fiable. Le workflow utilise le modèle de préservation d'identité de LongCat et un schéma de génération fenêtré pour étendre les séquences tout en gardant les expressions stables. Les sorties sont assemblées en vidéo avec l'audio source pour un examen ou une publication simplifiés.

Remarque : Sur les machines 2XL ou plus, veuillez régler le backend d'attention sur "sdpa" dans le nœud WanVideo Model Loader. Le backend segeattn par défaut peut causer des problèmes de compatibilité sur les GPU haut de gamme.

Modèles clés dans le workflow Comfyui LongCat Avatar dans ComfyUI

  • Modèle LongCat-Avatar pour WanVideo. Génération d'image à vidéo axée sur l'identité adaptée pour ComfyUI, offrant une forte préservation du personnage à travers les images. Voir les versions Comfy de WanVideo par kijai sur Hugging Face pour les points de contrôle et les notes. Hugging Face: Kijai/WanVideo_comfy
  • LongCat distill LoRA. Un LoRA distillé qui renforce la structure faciale et les caractéristiques d'identité lors de l'échantillonnage, améliorant la stabilité sous mouvement. Disponible avec les ressources WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
  • Wan 2.1 VAE. VAE vidéo utilisé pour encoder les images de référence en latents et décoder les échantillons générés en images. Hugging Face: Kijai/WanVideo_comfy
  • Encodeur de texte UM-T5. Utilisé par WanVideo pour interpréter les invites textuelles qui orientent la description de la scène et le style tout en conservant l'identité. Hugging Face: google/umt5-xxl
  • Représentations de la parole Wav2Vec 2.0. Fournit des caractéristiques de parole robustes qui pilotent le mouvement des lèvres et de la mâchoire via des embeddings MultiTalk. Document de fond : wav2vec 2.0. arXiv et une variante de modèle compatible : Hugging Face: TencentGameMate/chinese-wav2vec2-base
  • Séparateur vocal MelBandRoFormer. Séparation vocale-musicale optionnelle pour que le module de synchronisation labiale reçoive un signal vocal plus propre. Hugging Face: Kijai/MelBandRoFormer_comfy

Comment utiliser le workflow Comfyui LongCat Avatar dans ComfyUI

Le workflow comporte trois phases principales : modèles et paramètres, audio vers indices de mouvement, et image de référence vers vidéo avec extension fenêtrée. Il rend à un taux fixe conçu pour le mouvement guidé par l'audio, puis assemble les fenêtres en un clip sans couture.

  • Modèles
    • Le WanVideoModelLoader (#122) charge le point de contrôle LongCat-Avatar et le LoRA distill LongCat, tandis que WanVideoVAELoader (#129) fournit le VAE vidéo. Le WanVideoSchedulerv2 (#325) prépare le calendrier de l'échantillonneur utilisé pendant la diffusion. Ces composants définissent la fidélité, la rétention de l'identité, et l'apparence générale. Une fois définis, ils servent de colonne vertébrale pour toutes les étapes d'échantillonnage ultérieures.
  • Audio
    • Chargez une piste vocale avec LoadAudio (#125), coupez-la éventuellement avec TrimAudioDuration (#317), et séparez les voix avec MelBandRoFormerSampler (#302) pour réduire les saignements de fond. MultiTalkWav2VecEmbeds (#194) convertit la parole nettoyée en embeddings qui pilotent le mouvement de la bouche et les dynamiques subtiles de la tête. Le nombre d'images effectives est dérivé de la durée audio, donc un audio plus long conduit à des séquences plus longues. Le flux audio est ensuite multiplexé avec des images lors de l'étape de combinaison vidéo.
  • Image d'entrée
    • Ajoutez votre image de personnage avec LoadImage (#284). ImageResizeKJv2 (#281) la redimensionne pour le modèle, et WanVideoEncode (#312) la transforme en ref_latent qui ancre l'identité à travers toutes les images. Ce latent est la référence fixe que le pipeline LongCat Avatar dans ComfyUI réutilise tout en injectant un mouvement variant dans le temps à partir de l'audio et des invites.
  • Étendre la fenêtre 1
    • WanVideoLongCatAvatarExtendEmbeds (#345) fusionne le ref_latent avec les embeddings audio pour créer des embeddings d'image pour la première fenêtre. WanVideoSamplerv2 (#324) débruite ensuite les latents en un court clip. WanVideoDecode (#313) les transforme en images pour un aperçu et la première exportation vidéo avec VHS_VideoCombine (#320). La taille de la fenêtre et le chevauchement sont suivis en interne afin que la fenêtre suivante puisse s'aligner sans coutures visibles.
  • Étendre la fenêtre 2
    • Le deuxième groupe d'extension répète la même idée pour continuer la séquence. WanVideoLongCatAvatarExtendEmbeds (#346, #461) calcule les embeddings conditionnés sur les latents précédents, encadrés par le chevauchement actuel. WanVideoSamplerv2 (#327, #456) génère le prochain segment, qui est décodé et fusionné avec ImageBatchExtendWithOverlap (#341, #460) pour maintenir la continuité. Des étapes de fenêtre supplémentaires peuvent être répétées pour des résultats plus longs, et chaque étape peut être exportée avec VHS_VideoCombine (#386, #453).

Nœuds clés dans le workflow Comfyui LongCat Avatar dans ComfyUI

  • WanVideoModelLoader (#122)
    • Charge le point de contrôle LongCat-Avatar et attache le LoRA distill LongCat, définissant la fidélité de l'identité et le comportement du mouvement. Si vous exécutez des instances plus grandes, changez l'implémentation de l'attention pour un meilleur débit comme recommandé dans le wrapper WanVideo. Référentiel pour référence : github.com/kijai/ComfyUI-WanVideoWrapper.
  • MultiTalkWav2VecEmbeds (#194)
    • Produit des embeddings audio-dirigés à partir de la parole qui guident le mouvement des lèvres, de la mâchoire et de la tête subtile. Pour une articulation plus forte, augmentez l'influence de la parole et envisagez un passage supplémentaire pour une synchronisation plus étroite lorsque votre audio est très clair. Informations sur le modèle de fond : arXiv: wav2vec 2.0.
  • WanVideoLongCatAvatarExtendEmbeds (#346)
    • Au cœur de LongCat Avatar dans ComfyUI, ce nœud étend les embeddings d'image dans le temps tout en restant ancré au latent de référence. Ajustez la longueur et le chevauchement de la fenêtre pour équilibrer la fluidité, le temps d'exécution, et la stabilité sur des clips plus longs.
  • WanVideoSamplerv2 (#327)
    • Exécute le processus de diffusion en utilisant le modèle, le planificateur, les conseils textuels, et les embeddings d'image. Ajustez la force des conseils pour équilibrer l'adhérence à l'invite contre la variation ; de petits changements peuvent avoir des effets visibles sur la rigidité de l'identité et le mouvement.
  • VHS_VideoCombine (#320)
    • Mux les cadres rendus avec l'audio original en un mp4 pour un visionnage facile. Utilisez l'option de découpage intégrée lorsque vous souhaitez que les visuels se terminent exactement avec l'audio ou pour exporter uniquement la dernière fenêtre.

Extras optionnels

  • Assurez-vous que la durée audio couvre toutes les fenêtres d'extension prévues pour éviter de manquer de parole au milieu de la séquence.
  • Pour les clips longs, augmentez modérément la taille de la fenêtre et gardez un certain chevauchement pour que les transitions restent fluides ; trop peu de chevauchement peut introduire des sauts, trop peut ralentir le rendu.
  • Le pipeline fonctionne à un taux de trame fixe lié à la cadence guidée par la parole, ce qui maintient l'alignement de la synchronisation labiale pendant l'exportation.
  • Si vous utilisez un type de machine grande, réglez l'implémentation de l'attention dans le chargeur de modèle sur une option économe en mémoire pour une meilleure vitesse.
  • Ne mélangez pas de formats de modèle incompatibles ; gardez le modèle principal et les composants de parole dans les familles correspondantes fournies dans les versions WanVideo Comfy. Hubs de modèles utiles : Kijai/WanVideo_comfy et variantes GGUF comme city96/Wan2.1-I2V-14B-480P-gguf.

Remerciements

Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Kijai pour ComfyUI-WanVideoWrapper (workflow LongCatAvatar) et @Benji’s AI Playground, le créateur de la vidéo YouTube référencée, pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources

  • YouTube/Tutoriel vidéo
    • Docs / Notes de version : Vidéo YouTube de Benji’s AI Playground
  • Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
    • GitHub : kijai/ComfyUI-WanVideoWrapper
    • Docs / Notes de version : LongCatAvatar_testing_wip.json (branche longcat_avatar)

Remarque : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.1 | Génération Vidéo Révolutionnaire

Créez des vidéos incroyables à partir de texte ou d'images avec une IA révolutionnaire fonctionnant sur des CPU quotidiens.

Wan 2.1 LoRA

Améliorez la génération vidéo Wan 2.1 avec des modèles LoRA pour un style et une personnalisation améliorés.

Wan 2.1 Control LoRA | Profondeur et Tuile

Améliorez la génération vidéo Wan 2.1 avec des LoRAs légers de profondeur et de tuiles pour une structure et des détails améliorés.

Janus-Pro | Modèle T2I + I2T

Janus-Pro : Génération avancée de texte-à-image et d'image-à-texte.

Wan FusionX | T2V+I2V+VACE Complet

La solution de génération vidéo la plus puissante à ce jour ! Détails de qualité cinéma, votre studio de film personnel.

AnimateDiff + Planification par lots de prompts | Texte vers vidéo

La planification par lots de prompts avec AnimateDiff offre un contrôle précis sur la narration et les visuels dans la création d'animations.

Personnages Cohérents & Réalistes

Personnages Cohérents & Réalistes

Créez des personnages cohérents et réalistes avec un contrôle précis des traits du visage, des poses et des compositions.

LTX Vidéo | Image+Texte vers Vidéo

Génère des vidéos à partir de prompts image+texte.

Suivez-nous
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • Email
  • État du système
  • affilié
Ressources
  • ComfyUI en ligne gratuit
  • Guides ComfyUI
  • RunComfy API
  • Tutoriels ComfyUI
  • Nœuds ComfyUI
  • En savoir plus
Légal
  • Conditions d'utilisation
  • Politique de confidentialité
  • Politique relative aux cookies
RunComfy
Droits d'auteur 2025 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.