ComfyUI>Workflows>LongCat Video Avatar 1.5 ComfyUI | Générateur Synchronisé sur les Lèvres

LongCat Video Avatar 1.5 ComfyUI | Générateur Synchronisé sur les Lèvres

Workflow Name: RunComfy/LongCat-Video-Avatar-1.5
Workflow ID: 0000...1437
Ce flux de travail vous aide à transformer une image de personnage et un extrait audio en une vidéo d'avatar parlant parfaitement alignée. Il utilise LongCat-Avatar-15 avec des nœuds WanVideoWrapper pour une synchronisation labiale précise. Avec l'analyse audio Whisper et le décodage Wan 2.1 VAE, il génère des sorties MP4 verticales prêtes à être publiées. Vous pouvez facilement l'intégrer et l'exécuter dans votre pipeline créatif. Parfait pour les créateurs de contenu, les designers visuels et les développeurs ayant besoin d'un générateur de vidéos d'avatars fiable.

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

LongCat Video Avatar 1.5 Single Character ComfyUI | Audio2Video Sync
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Ce flux de travail transforme une image de référence unique et une piste vocale en un avatar parlant vertical synchronisé sur les lèvres. Construit autour de LongCat-Avatar-15 et des nœuds personnalisés WanVideoWrapper, il utilise Whisper pour extraire les signaux vocaux, Wan 2.1 VAE pour l'encodage/décodage latent, et un LongCat LoRA distillé pour préserver l'identité. Le résultat est une vidéo portrait MP4 qui maintient l'apparence du personnage et le mouvement de la bouche en synchronisation.

Conçu comme le chemin à personnage unique, le flux de travail LongCat Video Avatar 1.5 Single Character ComfyUI est idéal pour les créateurs qui souhaitent un modèle RunComfy prêt à l'emploi avec des entrées claires et un résultat reproductible. Vous fournissez une image de visage et un extrait audio, ajustez quelques invites de style, et rendez une vidéo d'avatar cohérente sans câblage supplémentaire.

Modèles clés dans le flux de travail Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

  • LongCat-Avatar-15 (distillé) et LongCat Avatar LoRA : poids de génération vidéo préservant l'identité adaptés pour ComfyUI. Fourni dans le pack communautaire afin que l'avatar conserve son apparence tout en parlant. Fichiers du modèle
  • Wan 2.1 VAE : autoencodeur variationnel orienté vidéo utilisé pour encoder le cadre de référence en latents et décoder les cadres finaux en images. Inclus dans le même pack communautaire. Fichiers du modèle
  • OpenAI Whisper large v3 : représentation vocale qui guide les formes de la bouche et le timing pour une synchronisation labiale précise. Carte du modèle
  • Google UMT5‑XXL encodeur de texte : convertit les invites positives/négatives en conditionnement pour les nuances de mouvement et de pose. Carte du modèle

Comment utiliser le flux de travail Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

Le graphique suit un chemin clair des entrées à la vidéo : charger les ressources, calculer les embeddings audio, préparer les guides textuels, encoder l'apparence, échantillonner les cadres, puis multiplexer l'audio et sauvegarder.

Image de référence#

Chargez un portrait unique de face dans LoadImage (#26). L'image est normalisée par ImageResizeKJv2 (#25) sur une toile verticale 9:16 pour que le personnage remplisse le cadre sans distorsion. Utilisez un visage propre, uniformément éclairé avec des occlusions minimales pour une meilleure rétention de l'identité. Si votre source est plus large que haute, centrez autour de la tête et des épaules.

Audio vocal#

Déposez un fichier audio dans LoadAudio (#5). Si nécessaire, coupez-le avec TrimAudioDuration (#29) pour que la longueur finale de la vidéo corresponde à votre cible. La petite utilité mathématique (Evaluate Floats (#39)) multiplie vos secondes choisies par les images par seconde pour définir automatiquement le nombre total d'images. Un moyen rapide de contrôler la durée est d'ajuster les secondes ou les FPS avant le rendu.

Embeddings vocaux (synchronisation labiale)#

LongCatAvatarWhisperEmbeds (#3) exécute Whisper pour produire des embeddings MultiTalk qui encodent les phonèmes, les pauses et l'emphase. Ces embeddings sont la colonne vertébrale temporelle pour les formes de la bouche et le mouvement subtil de la tête. Assurez-vous que le total des cadres et les FPS ici correspondent à vos paramètres d'exportation pour éviter les dérives. Activez éventuellement la normalisation de la sonie lorsque votre enregistrement varie de niveau.

Guide textuel#

LoadWanVideoT5TextEncoder (#16) et WanVideoTextEncode (#15) transforment vos invites positives et négatives en conditionnement. Utilisez l'invite positive pour décrire le comportement naturel souhaité (tours de tête calmes, hochements subtils) et gardez l'invite négative pour les artefacts à éviter (mouvement rigide, mains déformées). Le guide textuel influence le style de mouvement sans changer l'identité du personnage.

Encoder l'apparence#

WanVideoVAELoader (#19) et WanVideoEncode (#24) convertissent votre portrait en latents. WanVideoLongCatAvatarExtendEmbeds (#6) fusionne ensuite le latent de référence avec les embeddings audio pour que l'identité soit stable à travers les cadres tandis que la bouche suit le discours. Si l'audio est plus court que le clip, le nœud peut remplir ou boucler intelligemment pour que le timing reste fluide.

Charger le modèle d'avatar#

WanVideoLoraSelect (#27) attache le LongCat Avatar LoRA distillé au modèle de base LongCat‑Avatar‑15, le tout chargé par WanVideoModelLoader (#8). Ce jumelage préserve les traits du visage tout en permettant un mouvement expressif de la parole. Les aides de permutation de blocs internes maintiennent l'utilisation de la VRAM prévisible sur les GPU partagés ou modestes.

Échantillonner les cadres#

WanVideoSchedulerv2 (#52) choisit un calendrier de résolution ajusté pour LongCat distill, et WanVideoSamplerv2 (#51) génère la vidéo latente. Définissez une graine pour des résultats reproductibles et ajustez la force du guide si vous avez besoin de plus ou moins d'adhérence aux invites. L'échantillonneur prend en compte l'image, le texte et les embeddings d'images audio‑drivées ensemble pour que la bouche, la tête et l'identité soient cohérentes.

Décoder et sauvegarder en MP4#

WanVideoDecode (#20) transforme les latents finaux en images. VHS_VideoCombine (#14) fusionne les cadres et l'audio en un MP4 H.264 avec le taux de trame et le préfixe de nom de fichier spécifiés. La sortie est un clip d'avatar parlant vertical prêt à être partagé qui maintient la synchronisation labiale et le style intacts.

Nœuds clés dans le flux de travail Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

LongCatAvatarWhisperEmbeds (#3)#

Crée des embeddings audio MultiTalk à partir de Whisper qui pilotent la synchronisation labiale et la micro‑temporalité. Gardez fps et num_frames alignés avec votre exportation pour éviter la désynchronisation. Lorsque les enregistrements varient de niveau, activez la normalisation de la sonie. Ce nœud provient de l'intégration LongCat de WanVideoWrapper. Repo

WanVideoLongCatAvatarExtendEmbeds (#6)#

Fusionne le latent de référence et les embeddings audio en embeddings d'image conscients des cadres. Si votre discours est plus court que la longueur cible, choisissez comment remplir ou boucler pour que le mouvement reste naturel. Les paramètres de chevauchement et de cadre de référence aident à maintenir la stabilité de l'identité entre les tranches sur les clips plus longs. Repo

WanVideoModelLoader (#8)#

Charge la base LongCat‑Avatar‑15 avec le LongCat Avatar LoRA sélectionné pour la fidélité de l'identité. Utilisez-le avec la gestion VRAM incluse et les options de permutation de blocs lors de l'exécution sur du matériel contraint. Échangez contre une variante LongCat différente ou LoRA ici pour changer de style sans recâblage. Repo

WanVideoSamplerv2 (#51)#

Le générateur principal qui synthétise les cadres à partir du modèle, du planificateur, du texte et des embeddings d'image. Ajustez le guidage sans classificateur si vous avez besoin d'une adhérence plus serrée aux invites ou d'un mouvement plus lâche. Fixez la graine pour verrouiller la reproductibilité à travers plusieurs rendus. Repo

ImageResizeKJv2 (#25)#

Prépare une toile orientée portrait pour que l'avatar remplisse un cadre 9:16. Gardez des recadrages corrects autour du visage et des épaules pour un encodage d'identité fiable. Faire correspondre la divisibilité de l'encodeur/décodeur évite les artefacts sur les bords.

VHS_VideoCombine (#14)#

Multiplexe les cadres et l'audio en un seul MP4 avec votre taux de trame et préfixe de nom de fichier choisis. Activez la sauvegarde des métadonnées pour un suivi d'itération plus facile. Ce nœud fait partie de VideoHelperSuite. Repo

Extras facultatifs#

  • Utilisez une photo neutre, de face, avec des yeux et une bouche clairs ; évitez les fortes occlusions et les angles extrêmes.
  • Nettoyez l'audio (enlevez les longs silences, réduisez le bruit de fond) pour un mouvement de bouche plus stable.
  • Gardez les FPS cohérents entre l'étape d'embedding Whisper et l'exportation finale pour maintenir une synchronisation labiale serrée.
  • Pour une meilleure préservation de l'identité, restez avec le LongCat Avatar LoRA fourni ; changez de LoRAs uniquement lorsque vous envisagez un changement de style. Fichiers du modèle
  • Définissez une graine fixe lorsque vous avez besoin de rendus identiques ou de tester uniquement un changement d'invite unique.
  • Sur une VRAM inférieure, activez la permutation de blocs dans le chargeur de modèle pour échanger un peu de vitesse contre de la stabilité.

Remerciements#

Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement RunningHub pour la source du flux de travail, Meigen AI pour LongCat Video Avatar 1.5, et Kijai pour les fichiers de modèle LongCat-Video_comfy et le ComfyUI-WanVideoWrapper pour leurs contributions et leur maintenance. Pour des détails autoritatifs, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources#

Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et termes respectifs fournis par leurs auteurs et mainteneurs.

RunComfy
Droits d'auteur 2026 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.