Ce flux de travail ComfyUI transforme une seule image de référence en une vidéo cohérente, guidée par le mouvement d'une source de pose distincte. Il est construit autour du paradigme image-à-vidéo de SteadyDancer, de sorte que le tout premier cadre conserve l'identité et l'apparence de votre image d'entrée tandis que le reste de la séquence suit le mouvement cible. Le graphique réconcilie pose et apparence à travers des intégrations spécifiques à SteadyDancer et un pipeline de pose, produisant un mouvement corporel fluide et réaliste avec une forte cohérence temporelle.
SteadyDancer est idéal pour l'animation humaine, la génération de danse et donner vie aux personnages ou portraits. Fournissez une image fixe plus un clip de mouvement, et le pipeline ComfyUI gère l'extraction de pose, l'intégration, l'échantillonnage et le décodage pour livrer une vidéo prête à être partagée.
Le flux de travail a deux entrées indépendantes qui se rencontrent à l'échantillonnage : une image de référence pour l'identité et une vidéo motrice pour le mouvement. Les modèles se chargent une fois au début, la pose est extraite du clip motrice, et les intégrations SteadyDancer mélangent pose et apparence avant la génération et le décodage.
Ce groupe charge les poids principaux utilisés tout au long du graphique. WanVideoModelLoader (#22) sélectionne le point de contrôle Wan 2.1 I2V SteadyDancer et gère les paramètres d'attention et de précision. WanVideoVAELoader (#38) fournit le VAE vidéo, et CLIPVisionLoader (#59) prépare la colonne vertébrale visuelle CLIP ViT‑H. Un nœud de sélection LoRA et des options BlockSwap sont présents pour les utilisateurs avancés qui souhaitent modifier le comportement de la mémoire ou attacher des poids supplémentaires.
Importez la source de mouvement en utilisant VHS_LoadVideo (#75). Le nœud lit les images et l'audio, vous permettant de définir un taux de cadre cible ou de limiter le nombre d'images. Le clip peut être n'importe quel mouvement humain tel qu'une danse ou un mouvement sportif. Le flux vidéo passe ensuite à l'échelle du rapport d'aspect et à l'extraction de pose.
Une constante simple contrôle combien d'images sont chargées à partir de la vidéo motrice. Cela limite à la fois l'extraction de pose et la longueur de la sortie générée SteadyDancer. Augmentez-la pour des séquences plus longues, ou réduisez-la pour itérer plus rapidement.
LayerUtility: ImageScaleByAspectRatio V2 (#146) met à l'échelle les images tout en préservant le rapport d'aspect afin qu'elles s'adaptent à l'allocation de mémoire et de stride du modèle. Définissez une limite longue-côté appropriée pour votre GPU et le niveau de détail souhaité. Les images mises à l'échelle sont utilisées par les nœuds de détection en aval et comme référence pour la taille de sortie.
La détection de personne et l'estimation de pose s'exécutent sur les images mises à l'échelle. PoseAndFaceDetection (#89) utilise YOLOv10 et ViTPose‑H pour trouver les personnes et les points clés de manière robuste. DrawViTPose (#88) rend une représentation de figure en bâtonnet propre du mouvement, et ImageResizeKJv2 (#77) redimensionne les images de pose résultantes pour correspondre à la toile de génération. WanVideoEncode (#72) convertit les images de pose en latents afin que SteadyDancer puisse moduler le mouvement sans lutter contre le signal d'apparence.
Chargez l'image d'identité que vous souhaitez que SteadyDancer anime. L'image doit montrer clairement le sujet que vous avez l'intention de déplacer. Utilisez une pose et un angle de caméra qui correspondent largement à la vidéo motrice pour le transfert le plus fidèle. Le cadre est transmis au groupe d'images de référence pour l'intégration.
L'image fixe est redimensionnée avec ImageResizeKJv2 (#68) et enregistrée comme cadre de départ via Set_IMAGE (#96). WanVideoClipVisionEncode (#65) extrait des intégrations CLIP ViT‑H qui préservent l'identité, les vêtements et la disposition générale. WanVideoImageToVideoEncode (#63) emballe la largeur, la hauteur et le nombre de cadres avec le cadre de départ pour préparer le conditionnement I2V de SteadyDancer.
C'est ici que l'apparence et le mouvement se rencontrent pour générer la vidéo. WanVideoAddSteadyDancerEmbeds (#71) reçoit le conditionnement d'image de WanVideoImageToVideoEncode et l'augmente avec des latents de pose plus une référence CLIP‑vision, permettant la réconciliation de conditions de SteadyDancer. Des fenêtres de contexte et des chevauchements sont définis dans WanVideoContextOptions (#87) pour la cohérence temporelle. Optionnellement, WanVideoTextEncodeCached (#92) ajoute des orientations de texte umT5 pour des ajustements de style. WanVideoSamplerSettings (#119) et WanVideoSamplerFromSettings (#129) exécutent les étapes de débruitage réelles sur le modèle Wan 2.1, après quoi WanVideoDecode (#28) convertit les latents en images RVB. Les vidéos finales sont enregistrées avec VHS_VideoCombine (#141, #83).
WanVideoAddSteadyDancerEmbeds (#71)Ce nœud est le cœur de SteadyDancer du graphique. Il fusionne le conditionnement d'image avec des latents de pose et des indices CLIP‑vision de sorte que le premier cadre verrouille l'identité tandis que le mouvement se déploie naturellement. Ajustez pose_strength_spatial pour contrôler à quel point les membres suivent le squelette détecté et pose_strength_temporal pour réguler la fluidité du mouvement dans le temps. Utilisez start_percent et end_percent pour limiter où le contrôle de pose s'applique dans la séquence pour des intros et outros plus naturels.
PoseAndFaceDetection (#89)Exécute la détection YOLOv10 et l'estimation des points clés ViTPose‑H sur la vidéo motrice. Si les poses manquent de petits membres ou de visages, augmentez la résolution d'entrée en amont ou choisissez des séquences avec moins d'occlusions et un éclairage plus propre. Lorsque plusieurs personnes sont présentes, gardez le sujet cible le plus grand dans le cadre pour que le détecteur et la tête de pose restent stables.
VHS_LoadVideo (#75)Contrôle quelle partie de la source de mouvement vous utilisez. Augmentez la limite de cadre pour des sorties plus longues ou réduisez-la pour prototyper rapidement. L'entrée force_rate aligne l'espacement des poses avec le taux de génération et peut aider à réduire le bégaiement lorsque le FPS du clip original est inhabituel.
LayerUtility: ImageScaleByAspectRatio V2 (#146)Garde les images dans une limite longue-côté choisie tout en maintenant le rapport d'aspect et en les regroupant à une taille divisible. Associez l'échelle ici à la toile de génération pour que SteadyDancer n'ait pas besoin de suréchantillonner ou de couper de manière aggressive. Si vous voyez des résultats flous ou des artefacts de bord, rapprochez le côté long de l'échelle d'entraînement native du modèle pour un décodage plus propre.
WanVideoSamplerSettings (#119)Définit le plan de débruitage pour le sampler Wan 2.1. Le scheduler et steps définissent la qualité générale par rapport à la vitesse, tandis que cfg équilibre l'adhésion à l'image plus l'invite contre la diversité. seed verrouille la reproductibilité, et denoise_strength peut être abaissé lorsque vous voulez vous rapprocher encore plus de l'apparence de l'image de référence.
WanVideoModelLoader (#22)Charge le point de contrôle Wan 2.1 I2V SteadyDancer et gère la précision, la mise en œuvre de l'attention et le placement de l'appareil. Laissez ces paramètres tels quels pour la stabilité. Les utilisateurs avancés peuvent attacher un I2V LoRA pour modifier le comportement du mouvement ou alléger le coût informatique lors des expérimentations.
WanVideoAddSteadyDancerEmbeds ou augmentez le FPS vidéo pour densifier les poses.Ce flux de travail SteadyDancer vous offre un chemin pratique, de bout en bout, d'une image fixe à une vidéo fidèle, guidée par la pose, avec l'identité préservée dès le tout premier cadre.
Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous reconnaissons avec gratitude MCG-NJU pour SteadyDancer pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux référentiels liés ci-dessous.
Note: L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.