SCAIL 2 Transfert d'Action de Référence Multi-rôles : transfert de mouvement préservant l'identité pour ComfyUI#
Ce flux de travail offre SCAIL 2 Transfert d'Action de Référence Multi-rôles : il prend une vidéo de conduite et transfère les actions à un ou plusieurs personnages de référence tout en préservant l'identité visuelle de chaque sujet. Il prend en charge le transfert de mouvement et le remplacement complet de personnages, gère les références d'identité multi-images, et produit des scènes cohérentes et multi-rôles adaptées à la narration, au dialogue et aux performances de groupe.
Construit autour de la génération vidéo Wan 2.1 avec les embeddings SCAIL_2, la guidance CLIP Vision, et les masques de rôle basés sur la segmentation, le pipeline se concentre sur l'identité cohérente, le mouvement naturel, et les interactions contrôlables sur l'ensemble d'un clip.
Modèles clés dans le flux de travail Comfyui SCAIL 2 Transfert d'Action de Référence Multi-rôles#
- Backbone vidéo Wan 2.1 via ComfyUI-WanVideoWrapper. Le générateur synthétise des images vidéo à partir des embeddings d'image SCAIL_2, du conditionnement visuel, et du texte d'invite tout en gérant de longs contextes et en utilisant la mémoire de manière efficace. GitHub
- Encodeur CLIP Vision. Fournit des embeddings visuels robustes à partir de l'image de référence principale ou du collage pour orienter l'identité et l'apparence lors de la génération. Voir le document CLIP pour des informations de fond sur l'apprentissage de la représentation image-texte. arXiv
- Encodeur de texte de la famille mT5. Encode les invites positives et négatives utilisées pour orienter le contenu vers les sujets et actions souhaités à travers les images. arXiv
- Segmentation de type Segment Anything pour le suivi d'objet vidéo. Le flux de travail utilise un checkpoint de la famille SAM pour détecter et suivre les sujets et produire des masques par rôle qui alimentent le transfert d'action multi-personnages. Fond sur la segmentation SAM : GitHub
- Adaptateurs LoRA. Des adaptateurs optionnels spécialisent le générateur pour la préservation de l'identité et la fidélité des actions sans réentraîner le modèle complet. Fond sur le réglage LoRA : arXiv
- Outils FeiHou Toolbox. Les utilitaires de collage et de masque facilitent les références d'identité multi-images et les masques colorés et conscients des rôles pour SCAIL 2. GitHub
- Utilitaires d'image KJNodes. Le redimensionnement de haute qualité aligne les entrées et les masques sur les dimensions vidéo pour un échantillonnage stable. GitHub
Comment utiliser le flux de travail Comfyui SCAIL 2 Transfert d'Action de Référence Multi-rôles#
Le flux de travail comporte quatre étapes principales : charger les ressources et le générateur, construire des références et des masques multi-rôles, compiler les embeddings SCAIL_2, puis échantillonner et exporter la vidéo finale. Les groupes s'exécutent de haut en bas, avec des aperçus utiles à chaque étape.
Zone de Chargement du Modèle#
Cette zone prépare le backbone Wan 2.1 et son VAE. Utilisez WanAnimatePlus ModelLoader (#37) pour choisir le modèle de base et la précision, et WanAnimatePlus VAELoader (#71) pour le VAE correspondant. Si vous prévoyez d'influencer davantage l'identité ou le mouvement, ajoutez des adaptateurs avec WanAnimatePlus LoraSelectMulti (#66), puis appliquez-les au modèle via WanAnimatePlus SetLoRAs (#69). Les WanVideoTorchCompileSettings optionnels (#72) peuvent réduire la latence en compilant des blocs d'attention.
Chargement d'Image Unique#
Fournissez une image d'identité principale avec LoadImage dans le groupe Chargement d'Image Unique. Cette image ancre l'apparence de votre sujet principal. Si vous préférez construire un collage de plusieurs identités ou rôles, basculez dans le groupe Quick Toggle pour acheminer à partir de l'entrée Collage au lieu de l'image unique.
Entrée Collage#
Utilisez AutoRefCollage (#370) pour assembler plusieurs images de référence en une seule mise en page, détectant automatiquement les personnes et plaçant les découpes dans une toile propre. Le collage agit comme un tableau d'identité multi-rôles : chaque sujet contribue à des indices d'apparence pour l'étape du Transfert d'Action de Référence Multi-rôles SCAIL 2. Un nœud d'aperçu montre le collage assemblé afin que vous puissiez vérifier le cadrage avant de continuer.
Référence Multi-Image#
Ici, vous pouvez également charger trois portraits ou plus avec LoadImage et les emballer en utilisant ImageBatchMulti (#331). ImageResizeKJv2 aligne leur taille pour correspondre à la résolution vidéo prévue. Ce chemin est utile lorsque vous souhaitez un contrôle plus strict sur les identités et angles qui informent le modèle d'apparence.
Chargement Vidéo#
VHS_LoadVideo (#297) importe la vidéo et l'audio de conduite. Vous pouvez forcer un taux de trame cible pour un mouvement plus fluide, limiter le nombre total de trames pour restreindre la durée, sauter un segment d'intro, ou échantillonner chaque Nème trame pour une itération plus rapide. Un sous-pipeline "Aperçu Vidéo de Référence" combine et lit les trames chargées afin que vous puissiez confirmer que le clip semble correct avant le suivi.
Zone de Masque#
Le flux de travail détecte et suit les sujets pour créer les masques conscients des rôles qui alimentent le Transfert d'Action de Référence Multi-rôles SCAIL 2. Trois nœuds SAM3_VideoTrack (#315, #316, #306) suivent les objets dans la vidéo de conduite, les images de référence, et les trames de préfixe optionnelles. SCAIL2ColoredMaskV2 (#354) fusionne ces pistes en trois sorties : un masque vidéo de pose, un masque d'image de référence coloré, et un masque de préfixe pour les démarrages à chaud. Les aperçus pour les masques à un seul rôle et multi-rôles vous aident à vérifier que chaque couleur correspond au bon personnage avant l'échantillonnage.
Transfert de Mouvement - Traitement des Embeddings#
WanAnimatePlus SCAIL_2 Embeds (#342) transforme vos entrées en embeddings d'image SCAIL_2 utilisés par le générateur. Il combine les caractéristiques VAE, les embeddings CLIP Vision, votre image de référence ou collage, le remplacement de fond (optionnel), les trames de pose suivies, et les masques colorés. Vous pouvez fonctionner en deux modes : transfert de mouvement (utiliser l'apparence de référence avec le mouvement de conduite) ou remplacement de personnage (remplacer la personne dans la vidéo d'entrée par votre référence). Des options existent également pour préserver le fond principal de référence et pour rogner ou carreler les trames de préfixe pour des exécutions longues ou à haute résolution.
Zone d'Échantillonnage#
WanVideoTextEncodeCached encode les invites, et WanVideoContextOptions (#290) contrôle les fenêtres temporelles à travers les trames. WanAnimatePlus SamplerSettings (#332) collecte le modèle, les embeddings d'image SCAIL_2, et les embeddings de texte ainsi que les hyperparamètres et le calendrier d'échantillonnage; WanAnimatePlus SamplerFromSettings (#311) effectue la génération. WanAnimatePlus Decode (#267) transforme les latents en trames; vous pouvez activer le carrelage VAE ici si vous rencontrez des limites de mémoire. La vidéo est finalisée via VHS_VideoCombine et exportée depuis la zone d'aperçu; un compagnon de combinaison peut exporter un clip uniquement de masque pour un débogage rapide.
Bascule Rapide et Dimensions Vidéo#
Le commutateur “true = Remplacement de Personnage | false = Transfert de Mouvement” (#341) change instantanément la façon dont les rôles sont gérés en aval. Les constantes de largeur et de hauteur alimentent tous les nœuds de redimensionnement et de masque pour garder les formes alignées. Un FastGroupsBypassSwitch (#351) vous permet de passer entre une image unique et une entrée de collage sans recâblage.
Nœuds clés dans le flux de travail Comfyui SCAIL 2 Transfert d'Action de Référence Multi-rôles#
SCAIL2ColoredMaskV2 (#354)#
Génère des masques conscients des rôles en fusionnant les pistes d'objet de la vidéo de conduite, des images de référence, et des trames de préfixe optionnelles. Utilisez object_indices pour choisir quels ID suivis deviennent des rôles et le prefix_mask_mode pour spécifier une mise en page à une seule image et multi-couleurs lorsque vous conduisez plusieurs personnages à la fois. Gardez replacement_mode cohérent avec le basculement global afin que les sémantiques de masque correspondent à l'étape d'embedding.
WanAnimatePlus SCAIL_2 Embeds (#342)#
Fusionne VAE, CLIP Vision, références multi-images, trames de pose, et masques en embeddings SCAIL_2 pour le générateur. Augmentez ref_strength lorsque l'identité dérive; augmentez pose_strength lorsque la fidélité de mouvement est faible. Pour les scènes qui devraient conserver un fond de référence, activez la préservation de fond; lorsque vous partez d'une seule trame de préfixe, activez l'encodage de préfixe à une seule trame.
SAM3_VideoTrack (#315, #316, #306)#
Détecte et suit les sujets à travers les trames pour alimenter le générateur de masques. Si vous sous-détectez des personnages, abaissez le detection_threshold ou autorisez plus de max_objects; si le suivi est bruyant, augmentez le detect_interval pour réduire le scintillement de redétection. Révisez toujours l'aperçu du masque coloré pour vous assurer que chaque rôle reste stable au fil du temps.
VHS_LoadVideo (#297)#
Contrôle le clip de conduite. force_rate fixe le FPS de travail, frame_load_cap limite la durée, skip_first_frames coupe les intros, et select_every_nth vous permet de sous-échantillonner les trames pour des tests plus rapides. Ces contrôles affectent directement les fenêtres de contexte et la mémoire, alors ajustez-les avant l'échantillonnage.
WanAnimatePlus SamplerSettings (#332)#
Contient les boutons de génération principaux. steps, scheduler, et cfg orientent le détail, la douceur, et l'adhésion aux invites; denoise_strength régit combien la guidance SCAIL_2 peut remodeler les trames. Utilisez l'entrée seed pour la reproductibilité lors du raffinement de scènes multi-personnages.
WanAnimatePlus BlockSwap (#67)#
Économiseur de mémoire optionnel qui échange des blocs de calcul pendant l'échantillonnage. Avec des budgets VRAM serrés ou des plages de trames longues, augmentez l'échange pour éviter les erreurs de mémoire insuffisante; sur des GPU à haute VRAM, réduisez ou désactivez-le pour la rapidité.
WanAnimatePlus Decode (#267)#
Décode les latents en trames RGB. Si votre résolution ou longueur de clip est élevée et que le décodage échoue par manque de mémoire, activez le décodage VAE en carrelage et définissez des tailles de carrelage et des décalages appropriés pour que les carreaux se chevauchent proprement.
Extras optionnels#
- Pour les clips multi-personnages, donnez à chaque rôle au moins un portrait propre, de face et gardez l'éclairage cohérent à travers le collage.
- Commencez par le mode transfert de mouvement pour valider les masques et la qualité du mouvement, puis passez au remplacement de personnage si vous devez remplacer complètement le performeur.
- Utilisez l'aperçu vidéo uniquement masque pour confirmer les attributions de rôle et la stabilité des couleurs avant un long rendu.
- Gardez toutes les entrées alignées à la même largeur et hauteur; utilisez les nœuds de redimensionnement fournis plutôt que des outils externes pour éviter les décalages subtils de forme.
- Si les résultats semblent trop stylisés ou hors identité, réduisez la force de l'invite et augmentez l'emphase de référence à l'étape d'embedding; ajustez le mix LoRA si vous avez activé des adaptateurs.
- Les longs clips bénéficient de fenêtres de contexte plus larges dans
WanVideoContextOptions; équilibrez cela avec la mémoire en activant le carrelage VAE et, si nécessaire, un échange de blocs modéré.
Ce flux de travail SCAIL 2 Transfert d'Action de Référence Multi-rôles est conçu pour rendre le transfert de mouvement multi-rôles répétable et prévisible : préparez des références claires, vérifiez les masques, puis échantillonnez avec des réglages stables pour un mouvement naturel et fidèle à l'identité à travers les personnages.
Remerciements#
Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement SCAIL 2 pour SCAIL 2 Transfert d'Action de Référence Multi-rôles Workflow Source pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources#
- SCAIL 2/SCAIL 2 Transfert d'Action de Référence Multi-rôles Workflow Source
- Docs / Notes de Version : SCAIL 2 Transfert d'Action de Référence Multi-rôles Workflow Source
Note : L'utilisation des modèles, ensembles de données, et code référencés est soumise aux licences et termes respectifs fournis par leurs auteurs et mainteneurs.

