Transfert de Mouvement SCAIL-2 dans ComfyUI | Image de Référence en Vidéo

Flux de travail ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example

SCAIL-2 Motion Transfer in ComfyUI | Reference Image to Video

Vous voulez exécuter ce workflow ?

Workflows entièrement opérationnels
Aucun nœud ou modèle manquant
Aucune configuration manuelle requise
Propose des visuels époustouflants

Exemples ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example

Transfert de mouvement de personnage SCAIL-2 : flux de travail d'image de référence en vidéo longue#

Ce pipeline ComfyUI transforme une seule image de référence en une longue performance de personnage fidèle à l'identité en empruntant le mouvement d'une vidéo de conduite. Basé sur le chemin SCAIL-2 Wan 2.1 14B avec conditionnement CLIP Vision, masquage de personne basé sur SAM, et accélération LightX2V, il est optimisé pour la stabilité sur de longues séquences et une inspection facile côte à côte. C'est un flux de travail pratique de transfert de mouvement de personnage SCAIL-2 d'image de référence en vidéo longue pour les créateurs qui ont besoin d'une identité, d'une garde-robe et d'un style constants sur des centaines d'images.

Utilisez-le pour générer des tests de mouvement de style catalogue, des démonstrations d'image de référence en vidéo, et des vidéos d'exemple de marché éditorial occidental. Le flux de travail prend en charge une orientation de relighting optionnelle afin que le sujet puisse être harmonisé à la scène de conduite tout en gardant les détails du visage et de la tenue alignés avec votre image de référence.

Modèles clés dans le flux de travail de transfert de mouvement de personnage SCAIL-2 d'image de référence en vidéo longue dans ComfyUI#

SCAIL-2 sur Wan 2.1 14B. Diffusion vidéo sensible à l'identité utilisée pour le transfert de mouvement. Le flux de travail charge les poids SCAIL-2 14B emballés pour ComfyUI et les associe à un Wan VAE pour la reconstruction. Voir la collection de modèles dans Comfy-Org/SCAIL-2 et l'aperçu de la méthode dans zai-org/SCAIL.
OpenCLIP ViT-H/14 pour CLIP Vision. Extrait des embeddings d'identité et d'apparence robustes de l'image de référence pour conditionner la génération, améliorant la fidélité du personnage à travers les images. Famille de modèles de référence : laion/CLIP-ViT-H-14-laion2B-s32B-b79K.
Famille Segment Anything (SAM). Fournit des masques de personne et des pistes par image qui localisent le sujet à la fois dans la vidéo de conduite et l'image de référence, permettant un conditionnement ciblé. Référence de projet : facebookresearch/segment-anything.
LightX2V LoRA et WanAnimate Relight LoRA. Adaptateurs optionnels que le flux de travail charge pour accélérer l'inférence d'image en image et offrir une orientation de relighting afin que le personnage transféré corresponde à l'éclairage du clip de conduite.

Comment utiliser le flux de travail de transfert de mouvement de personnage SCAIL-2 d'image de référence en vidéo longue dans ComfyUI#

À un niveau élevé, vous fournissez une image de référence et une vidéo de conduite. Le groupe de segmentation trouve et masque la personne dans les deux sources, CLIP Vision encode l'identité de référence, un Premier Passage génère un segment initial, et une boucle Multi-Pass applique cette logique de segmentation sur l'ensemble de la chronologie pour fournir une vidéo longue et cohérente. Les panneaux de prévisualisation côte à côte facilitent l'inspection de l'alignement de l'identité et de la pose.

Modèles#

Ce groupe initialise les modèles de base et les adaptateurs optionnels. Le UNet charge le point de contrôle SCAIL-2 Wan 2.1 14B, et le VAE gère le décodage latent pour les images vidéo. Le flux de travail charge également CLIP Vision pour les embeddings d'identité et deux adaptateurs LoRA : LightX2V pour la vitesse et WanAnimate Relight pour l'orientation de l'éclairage. Les invites de texte sont encodées par la pile de texte Wan pour influencer la scène et le ton, ce qui est pratique lors de la création d'un exemple de marché éditorial occidental.

Paramètres#

Utilisez le groupe Paramètres pour définir les contrôles à l'échelle du projet. La résolution est exposée afin que vous puissiez choisir une base rapide ou un réglage plus net qui convient à votre budget GPU. Le taux de trame régit comment la vidéo de conduite est échantillonnée et comment la sortie est encodée pour la lecture. La longueur du segment définit le nombre d'images que contient chaque morceau d'inférence, ce qui permet de garder la mémoire prévisible sur de longues chronologies. Un plafond final d'images est disponible pour limiter le traitement pendant le développement avant de lancer le clip complet.

Segmentation#

Le groupe de segmentation prépare des orientations claires et ciblées pour le transfert de mouvement. VHS_LoadVideo (#33) importe la vidéo de conduite, et les images sont redimensionnées à votre résolution choisie pour correspondre au chemin SCAIL-2. Deux traceurs, SAM3_VideoTrack (#85) pour la vidéo de pose et SAM3_VideoTrack (#91) pour la référence, exécutent la détection de personne guidée par un simple conditionnement de texte "personne" pour augmenter le rappel. SCAIL2ColoredMask (#104) fusionne les pistes en deux masques cohérents, un pour la vidéo de pose et un pour l'image de référence, que les nœuds de génération consomment pour concentrer les modifications sur le sujet.

Premier Passage#

Le Premier Passage amorce la séquence et établit le verrouillage de l'identité. CLIPVisionEncode (#76) extrait les embeddings de l'image de référence, puis WanSCAILToVideo (#114) combine ces embeddings avec la vidéo de pose et les deux masques pour produire une séquence latente pour le premier segment. Une pile d'échantillonnage simple SamplerCustom (#19) avec BasicScheduler (#18) rend cette latente en images, décodée par VAEDecode (#6). Ce passage expose également un décalage de trame que l'étape Multi-Pass utilise pour aligner les morceaux suivants.

Multi-Pass#

Le groupe Multi-Pass étend l'exécution à des vidéos longues sans perdre en cohérence. Une paire de boucles pour, easy forLoopStart (#233) et easy forLoopEnd (#234), itère sur l'ensemble de la chronologie en segments de taille fixe tout en transmettant les images décodées en tant que contexte temporel. WanSCAILToVideo (#115) consomme ce contexte via son entrée previous_frames, améliorant la continuité du visage, des cheveux et de la garde-robe à travers les limites des segments. La pile d'échantillonnage SamplerCustom (#63) est pilotée par votre échantillonneur choisi et le calendrier sigma afin que vous puissiez équilibrer vitesse et adhérence, et VAEDecode (#66) renvoie chaque morceau sous forme d'images. Le flux de travail assemble ensuite les plages ensemble et les prépare pour l'exportation.

Masque#

Le groupe Masque achemine les masques de personne calculés dans la Segmentation afin que les nœuds Premier Passage et Multi-Pass reçoivent les bonnes régions du sujet. Get_pose_video_mask (#122) et Get_reference_image_mask (#120) garantissent que le transfert de style et la préservation de l'identité sont appliqués précisément là où c'est nécessaire, réduisant la dérive de l'arrière-plan et protégeant les détails de la scène en dehors du sujet.

Activer le Remplacement de Personnage#

Ce groupe vous permet de passer du transfert d'identité qui respecte l'arrière-plan d'origine au remplacement complet de premier plan. easy imageRemBg (#204) supprime l'arrière-plan de l'image de référence, et ImpactConditionalBranch (#270) bascule si le premier plan nettoyé est utilisé en aval. Activez-le lorsque vous souhaitez un échange strict de personnage, ce qui est utile pour des tests de type catalogue ou un exemple de marché éditorial occidental où un sujet doit correspondre à un look standardisé.

Prévisualisation et exportation#

Le flux de travail offre une visualisation côte à côte et des rendus finaux. ImageConcatMulti (#153) compose un panneau rapide montrant les images de pose de conduite et l'image de référence pour des vérifications de bon sens. Un autre ImageConcatMulti (#72) peut afficher la sortie du modèle à côté des entrées pour une assurance qualité image par image. Les vidéos finales sont écrites par VHS_VideoCombine (#71) et VHS_VideoCombine (#236), qui peuvent inclure de l'audio de la source si désiré pour que les revues restent fidèles au timing.

Nœuds clés dans le flux de travail de transfert de mouvement de personnage SCAIL-2 d'image de référence en vidéo longue dans ComfyUI#

`WanSCAILToVideo` (#114)#

Génère le segment latent initial en fusionnant les images de pose, les masques de sujet, et les embeddings d'identité CLIP Vision de l'image de référence. Ajustez pose_strength pour arbitrer entre copier le mouvement exact et permettre une adaptation subtile du style. Utilisez length pour correspondre à votre taille de segment afin que l'échantillonneur traite un morceau prévisible à chaque passage. Si vous remplacez strictement la personne à l'écran, réglez replacement_mode pour privilégier l'identité par rapport au style d'arrière-plan. Prise en charge par SCAIL-2 sur Wan 2.1 14B tel qu'emballé dans Comfy-Org/SCAIL-2 avec le contexte de méthode de zai-org/SCAIL.

`WanSCAILToVideo` (#115)#

S'exécute pendant la boucle pour couvrir le reste de la chronologie avec une stabilité temporelle améliorée. Fournissez previous_frames du segment précédent pour aider le modèle à maintenir les détails des vêtements et l'identité faciale stable à travers les limites. video_frame_offset et previous_frame_count gardent les segments synchronisés avec le clip de conduite. Lorsque l'orientation de relighting est activée via le LoRA, poussez légèrement plus fort l'harmonisation du style dans ce passage pour harmoniser l'éclairage global.

`SAM3_VideoTrack` (#85, #91)#

Détecte et suit la personne à la fois dans la vidéo de pose et l'image de référence. Le conditionnement de texte "personne" améliore la robustesse lorsqu'il y a plusieurs objets présents. Si le traceur dérive, augmentez la confiance en la détection ou limitez max_objects afin que le même sujet soit sélectionné tout au long. Le concept de suivi suit la famille Segment Anything, voir facebookresearch/segment-anything pour le contexte.

`CLIPVisionEncode` (#76)#

Produit l'embedding d'identité de référence qui conditionne chaque image. Pour les références tête-et-épaules, gardez crop à un choix neutre afin que l'encodeur voie la silhouette et la tenue entières. Si le sujet est petit dans l'image, préparez une image de référence plus serrée au lieu de trop recadrer dans le nœud. Ce nœud repose sur les fonctionnalités de vision de style OpenCLIP ViT-H/14 comme dans laion/CLIP-ViT-H-14-laion2B-s32B-b79K.

`VHS_LoadVideo` (#33)#

Importe et rééchantillonne éventuellement la vidéo de conduite pour une synchronisation cohérente. Faites correspondre force_rate au rythme de sortie désiré, puis gardez-le fixe pendant le développement pour obtenir des résultats comparables à travers les itérations. Utilisez le plafond d'images optionnel pendant les tests pour accélérer les retours, puis levez-le pour les rendus finaux.

Extras optionnels#

Pour des itérations rapides, choisissez une résolution adaptée au portrait, puis montez d'un cran lors de l'approbation des finales. Le flux de travail est ajusté pour les paramètres typiques 9:16, avec une option supérieure disponible lorsque la mémoire GPU le permet.
Rédigez des invites qui décrivent la garde-robe, l'âge, et le cadre en langage clair pour s'aligner avec les normes d'exemple de marché éditorial occidental, par exemple "une personne d'âge moyen en pull bleu dans une cuisine lumineuse."
Si la tenue du sujet doit être exacte, abaissez les invites artistiques et augmentez la dépendance au masque afin que le système privilégie les vêtements et les couleurs par rapport à l'humeur de l'arrière-plan.
Utilisez le Remplacement de Personnage lorsque vous souhaitez un échange strict de la personne à l'écran. Laissez-le désactivé lorsque vous voulez que le modèle harmonise doucement le personnage avec la scène.
Évitez les occultations lourdes ou les coupes rapides dans la vidéo de conduite. Un mouvement de caméra modéré et un mouvement propre et face à la caméra produisent le transfert d'identité le plus stable.
Lors de l'ajout d'une orientation de relighting, commencez prudemment afin que les tons de peau et les matériaux restent naturels tout en correspondant à la direction de la lumière de la scène.

Remerciements#

Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement zai-org et teal024 pour SCAIL/SCAIL-2, Comfy-Org pour les fichiers de modèle SCAIL-2 et le point de contrôle Wan 2.1 14B FP8, et les équipes RunningHub et RunComfy pour les références de flux de travail et le flux de travail de sauvegarde cloud pour leurs contributions et leur maintenance. Pour des détails faisant autorité, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources#

RunningHub/Workflow Reference
- Docs / Release Notes: RunningHub workflow reference
zai-org/SCAIL-2 Project
- GitHub: zai-org/SCAIL
teal024/SCAIL Project Page
- Docs / Release Notes: SCAIL project page
zai-org/SCAIL-2
- Hugging Face: zai-org/SCAIL-2
Comfy-Org/SCAIL-2
- Hugging Face: Comfy-Org/SCAIL-2
Comfy-Org/SCAIL-2 Wan 2.1 14B FP8 checkpoint
- Hugging Face: wan2.1_14B_SCAIL_2_fp8_scaled.safetensors
RunComfy/Cloud Save Workflow
- Docs / Release Notes: RunComfy Cloud Save workflow

Note: L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

SteadyDancer | Générateur d'images réalistes vers vidéo

Transforme instantanément les portraits en vidéos de mouvements fluides et réalistes.

Wan 2.1 Fun | Contrôle du mouvement par trajectoire

Concevez des chemins de mouvement pour animer des photos fixes en vidéos.

Wan 2.1 Video Restyle | Transformation cohérente du style vidéo

Transformez le style de votre vidéo en appliquant la première image restylée à l'aide du flux de travail Wan 2.1 video restyle.

Wan 2.1 Control LoRA | Profondeur et Tuile

Améliorez la génération vidéo Wan 2.1 avec des LoRAs légers de profondeur et de tuiles pour une structure et des détails améliorés.

Wan 2.1 LoRA

Améliorez la génération vidéo Wan 2.1 avec des modèles LoRA pour un style et une personnalisation améliorés.

LTX 2.3 Modifier Tout | Éditeur Vidéo Intelligent

Modifiez des vidéos rapidement. Gardez le mouvement clair. Contrôle visuel total.

Workflow TripoSplat 3D Gaussian Splats | Image to 3D

Transformez une image en 3D Gaussian Splats avec TripoSplat.

IDM-VTON | Essayage Virtuel

Essayage virtuel créant des résultats réalistes en capturant les détails et le style des vêtements.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

Transfert de Mouvement SCAIL-2 | Créateur de Vidéo Longue