LongCat Video Avatar 1.5 Single Character ComfyUI#
Ce flux de travail transforme une image de référence unique et une piste vocale en un avatar parlant vertical synchronisé sur les lèvres. Construit autour de LongCat-Avatar-15 et des nœuds personnalisés WanVideoWrapper, il utilise Whisper pour extraire les signaux vocaux, Wan 2.1 VAE pour l'encodage/décodage latent, et un LongCat LoRA distillé pour préserver l'identité. Le résultat est une vidéo portrait MP4 qui maintient l'apparence du personnage et le mouvement de la bouche en synchronisation.
Conçu comme le chemin à personnage unique, le flux de travail LongCat Video Avatar 1.5 Single Character ComfyUI est idéal pour les créateurs qui souhaitent un modèle RunComfy prêt à l'emploi avec des entrées claires et un résultat reproductible. Vous fournissez une image de visage et un extrait audio, ajustez quelques invites de style, et rendez une vidéo d'avatar cohérente sans câblage supplémentaire.
Modèles clés dans le flux de travail Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
- LongCat-Avatar-15 (distillé) et LongCat Avatar LoRA : poids de génération vidéo préservant l'identité adaptés pour ComfyUI. Fourni dans le pack communautaire afin que l'avatar conserve son apparence tout en parlant. Fichiers du modèle
- Wan 2.1 VAE : autoencodeur variationnel orienté vidéo utilisé pour encoder le cadre de référence en latents et décoder les cadres finaux en images. Inclus dans le même pack communautaire. Fichiers du modèle
- OpenAI Whisper large v3 : représentation vocale qui guide les formes de la bouche et le timing pour une synchronisation labiale précise. Carte du modèle
- Google UMT5‑XXL encodeur de texte : convertit les invites positives/négatives en conditionnement pour les nuances de mouvement et de pose. Carte du modèle
Comment utiliser le flux de travail Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
Le graphique suit un chemin clair des entrées à la vidéo : charger les ressources, calculer les embeddings audio, préparer les guides textuels, encoder l'apparence, échantillonner les cadres, puis multiplexer l'audio et sauvegarder.
Image de référence#
Chargez un portrait unique de face dans LoadImage (#26). L'image est normalisée par ImageResizeKJv2 (#25) sur une toile verticale 9:16 pour que le personnage remplisse le cadre sans distorsion. Utilisez un visage propre, uniformément éclairé avec des occlusions minimales pour une meilleure rétention de l'identité. Si votre source est plus large que haute, centrez autour de la tête et des épaules.
Audio vocal#
Déposez un fichier audio dans LoadAudio (#5). Si nécessaire, coupez-le avec TrimAudioDuration (#29) pour que la longueur finale de la vidéo corresponde à votre cible. La petite utilité mathématique (Evaluate Floats (#39)) multiplie vos secondes choisies par les images par seconde pour définir automatiquement le nombre total d'images. Un moyen rapide de contrôler la durée est d'ajuster les secondes ou les FPS avant le rendu.
Embeddings vocaux (synchronisation labiale)#
LongCatAvatarWhisperEmbeds (#3) exécute Whisper pour produire des embeddings MultiTalk qui encodent les phonèmes, les pauses et l'emphase. Ces embeddings sont la colonne vertébrale temporelle pour les formes de la bouche et le mouvement subtil de la tête. Assurez-vous que le total des cadres et les FPS ici correspondent à vos paramètres d'exportation pour éviter les dérives. Activez éventuellement la normalisation de la sonie lorsque votre enregistrement varie de niveau.
Guide textuel#
LoadWanVideoT5TextEncoder (#16) et WanVideoTextEncode (#15) transforment vos invites positives et négatives en conditionnement. Utilisez l'invite positive pour décrire le comportement naturel souhaité (tours de tête calmes, hochements subtils) et gardez l'invite négative pour les artefacts à éviter (mouvement rigide, mains déformées). Le guide textuel influence le style de mouvement sans changer l'identité du personnage.
Encoder l'apparence#
WanVideoVAELoader (#19) et WanVideoEncode (#24) convertissent votre portrait en latents. WanVideoLongCatAvatarExtendEmbeds (#6) fusionne ensuite le latent de référence avec les embeddings audio pour que l'identité soit stable à travers les cadres tandis que la bouche suit le discours. Si l'audio est plus court que le clip, le nœud peut remplir ou boucler intelligemment pour que le timing reste fluide.
Charger le modèle d'avatar#
WanVideoLoraSelect (#27) attache le LongCat Avatar LoRA distillé au modèle de base LongCat‑Avatar‑15, le tout chargé par WanVideoModelLoader (#8). Ce jumelage préserve les traits du visage tout en permettant un mouvement expressif de la parole. Les aides de permutation de blocs internes maintiennent l'utilisation de la VRAM prévisible sur les GPU partagés ou modestes.
Échantillonner les cadres#
WanVideoSchedulerv2 (#52) choisit un calendrier de résolution ajusté pour LongCat distill, et WanVideoSamplerv2 (#51) génère la vidéo latente. Définissez une graine pour des résultats reproductibles et ajustez la force du guide si vous avez besoin de plus ou moins d'adhérence aux invites. L'échantillonneur prend en compte l'image, le texte et les embeddings d'images audio‑drivées ensemble pour que la bouche, la tête et l'identité soient cohérentes.
Décoder et sauvegarder en MP4#
WanVideoDecode (#20) transforme les latents finaux en images. VHS_VideoCombine (#14) fusionne les cadres et l'audio en un MP4 H.264 avec le taux de trame et le préfixe de nom de fichier spécifiés. La sortie est un clip d'avatar parlant vertical prêt à être partagé qui maintient la synchronisation labiale et le style intacts.
Nœuds clés dans le flux de travail Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
LongCatAvatarWhisperEmbeds (#3)#
Crée des embeddings audio MultiTalk à partir de Whisper qui pilotent la synchronisation labiale et la micro‑temporalité. Gardez fps et num_frames alignés avec votre exportation pour éviter la désynchronisation. Lorsque les enregistrements varient de niveau, activez la normalisation de la sonie. Ce nœud provient de l'intégration LongCat de WanVideoWrapper. Repo
WanVideoLongCatAvatarExtendEmbeds (#6)#
Fusionne le latent de référence et les embeddings audio en embeddings d'image conscients des cadres. Si votre discours est plus court que la longueur cible, choisissez comment remplir ou boucler pour que le mouvement reste naturel. Les paramètres de chevauchement et de cadre de référence aident à maintenir la stabilité de l'identité entre les tranches sur les clips plus longs. Repo
WanVideoModelLoader (#8)#
Charge la base LongCat‑Avatar‑15 avec le LongCat Avatar LoRA sélectionné pour la fidélité de l'identité. Utilisez-le avec la gestion VRAM incluse et les options de permutation de blocs lors de l'exécution sur du matériel contraint. Échangez contre une variante LongCat différente ou LoRA ici pour changer de style sans recâblage. Repo
WanVideoSamplerv2 (#51)#
Le générateur principal qui synthétise les cadres à partir du modèle, du planificateur, du texte et des embeddings d'image. Ajustez le guidage sans classificateur si vous avez besoin d'une adhérence plus serrée aux invites ou d'un mouvement plus lâche. Fixez la graine pour verrouiller la reproductibilité à travers plusieurs rendus. Repo
ImageResizeKJv2 (#25)#
Prépare une toile orientée portrait pour que l'avatar remplisse un cadre 9:16. Gardez des recadrages corrects autour du visage et des épaules pour un encodage d'identité fiable. Faire correspondre la divisibilité de l'encodeur/décodeur évite les artefacts sur les bords.
VHS_VideoCombine (#14)#
Multiplexe les cadres et l'audio en un seul MP4 avec votre taux de trame et préfixe de nom de fichier choisis. Activez la sauvegarde des métadonnées pour un suivi d'itération plus facile. Ce nœud fait partie de VideoHelperSuite. Repo
Extras facultatifs#
- Utilisez une photo neutre, de face, avec des yeux et une bouche clairs ; évitez les fortes occlusions et les angles extrêmes.
- Nettoyez l'audio (enlevez les longs silences, réduisez le bruit de fond) pour un mouvement de bouche plus stable.
- Gardez les FPS cohérents entre l'étape d'embedding Whisper et l'exportation finale pour maintenir une synchronisation labiale serrée.
- Pour une meilleure préservation de l'identité, restez avec le LongCat Avatar LoRA fourni ; changez de LoRAs uniquement lorsque vous envisagez un changement de style. Fichiers du modèle
- Définissez une graine fixe lorsque vous avez besoin de rendus identiques ou de tester uniquement un changement d'invite unique.
- Sur une VRAM inférieure, activez la permutation de blocs dans le chargeur de modèle pour échanger un peu de vitesse contre de la stabilité.
Remerciements#
Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement RunningHub pour la source du flux de travail, Meigen AI pour LongCat Video Avatar 1.5, et Kijai pour les fichiers de modèle LongCat-Video_comfy et le ComfyUI-WanVideoWrapper pour leurs contributions et leur maintenance. Pour des détails autoritatifs, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources#
- Source du flux de travail RunningHub
- Docs / Notes de version : Source du flux de travail RunningHub
- Page de projet Meigen AI/LongCat Video Avatar 1.5
- Docs / Notes de version : Page de projet LongCat Video Avatar 1.5
- Fichiers de modèle Kijai/LongCat Video Comfy
- Hugging Face : Kijai/LongCat-Video_comfy
- Kijai/ComfyUI-WanVideoWrapper
- GitHub : kijai/ComfyUI-WanVideoWrapper
Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et termes respectifs fournis par leurs auteurs et mainteneurs.



