Workflow Stable Video Infinity 2.0 ComfyUI pour des images cohérentes et longues vers la vidéo sur Wan 2.2
Ce workflow transforme une seule image en une vidéo longue et axée sur l'histoire tout en préservant l'identité, le flux de mouvement et la cohérence des scènes. Il associe le modèle Wan 2.2 I2V A14B avec le Stable Video Infinity 2.0 LoRA pour étendre la continuité temporelle bien au-delà des limites des courts clips. Le pipeline est organisé en cinq passes qui transfèrent les latents de mouvement d'une section à l'autre, avec un chevauchement pour lisser les transitions et un rendu final qui assemble le tout.
Les créateurs ayant besoin d'animations étendues, de rythmes narratifs ou de vidéos IA cinématographiques trouveront que Stable Video Infinity maintient les personnages et le style stables à mesure que la scène évolue. Vous obtenez des vidéos de passe intermédiaire pour un examen rapide et un rendu maître final, tous produits directement à partir du graphique ComfyUI.
Modèles clés dans le workflow Stable Video Infinity ComfyUI
- Paire Wan 2.2 I2V A14B UNet (HighNoise et LowNoise), variantes quantifiées GGUF. Ceux-ci génèrent du mouvement à partir des latents d'image et sont alternés pour équilibrer l'exploration et le raffinement des détails. Source: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
- Stable Video Infinity 2.0 LoRA pour Wan 2.2 I2V A14B, fourni en variantes HIGH et LOW pour correspondre aux deux UNets. Il étend la cohérence temporelle pour les longues séquences. Source: Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0.
- Encodeur de texte Wan UMT5 XXL. Encode les invites par passe pour le conditionnement du générateur de vidéo. Source: Comfy-Org/Wan_2.1_ComfyUI_repackaged.
- Wan 2.1 VAE. Encode l'image de départ en espace latent et décode les images pour chaque passe. Source: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE.
- Ensemble optionnel Wan 2.2 LightX2V LoRA (HighNoise et LowNoise). Ces LoRAs auxiliaires complètent Stable Video Infinity pendant l'échantillonnage. Source: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras.
Comment utiliser le workflow Stable Video Infinity ComfyUI
Le workflow prend une image de référence unique, la prépare à la résolution choisie, puis exécute cinq passes séquentielles. Chaque passe utilise Stable Video Infinity pour générer un segment, mélange quelques images de chevauchement avec le segment précédent, et transmet son latent de mouvement à la passe suivante. Vous pouvez prévisualiser chaque passe en tant que MP4 et produire également un rendu final assemblé.
Groupe : Modèles
Ce groupe charge la paire Wan 2.2 I2V A14B UNet, le VAE Wan, et l'encodeur de texte UMT5 XXL. Il applique ensuite l'ensemble LightX2V LoRA et le Stable Video Infinity 2.0 LoRA aux branches HighNoise et LowNoise pour que toutes les passes partagent les mêmes capacités. Si vous ajustez la force du LoRA, gardez les branches HighNoise et LowNoise équilibrées pour éviter les dérives de style ou de comportement de mouvement.
Groupe : Prompts
Les prompts sont rédigés par passe pour créer des rythmes narratifs. Les prompts positifs résident dans les cinq nœuds CLIPTextEncode tels que CLIPTextEncode (#93, #152, #284, #297, #310). Les prompts négatifs sont pré-remplis avec des filtres de qualité courants et peuvent être modifiés dans CLIPTextEncode (#89, #157, #279, #293, #306). Gardez des descripteurs de sujet constants à travers les passes et variez uniquement les verbes d'action ou les indices de caméra pour maintenir l'identité tout en faisant évoluer la scène.
Image d'entrée et résolution
Chargez une image de référence unique avec LoadImage (#97), puis redimensionnez-la avec Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398)) pour correspondre à votre aspect cible. L'image est encodée en latents par VAEEncode (#135), qui établit également le latent d'ancrage utilisé pour maintenir l'identité stable tout au long de l'exécution. Si vous changez l'entrée ou le rapport d'aspect, réencodez avant d'exécuter les passes.
Passe 1 - Établir la scène
WanImageToVideoSVIPro (#134) utilise votre invite de première passe et le latent d'ancrage pour générer du mouvement. Deux échantillonneurs, KSamplerAdvanced (#277 pour HighNoise, #278 pour LowNoise), collaborent pour explorer le mouvement puis affiner les détails. Le résultat est décodé par VAEDecode (#87) et prévisualisé via VHS_VideoCombine (#126) en tant que MP4. Utilisez cette passe pour définir le sujet, l'éclairage et le style global que Stable Video Infinity portera.
Passe 2 - Continuer l'action
WanImageToVideoSVIPro (#160) reçoit prev_samples de la Passe 1 pour pouvoir prolonger le mouvement sans saut visuel. Le même schéma d'échantillonnage en deux étapes passe par KSamplerAdvanced (#276 HighNoise, #275 LowNoise), et les images sont décodées par VAEDecode (#162). ImageBatchExtendWithOverlap (#168) mélange un court chevauchement avec la fin de la Passe 1 pour cacher les coutures, et VHS_VideoCombine (#167) écrit l'aperçu du segment.
Passe 3 - Expansion de la séquence intermédiaire
WanImageToVideoSVIPro (#290) continue à partir des latents de la Passe 2 et suit le même raffinement de double échantillonneur avec KSamplerAdvanced (#291, #287). Après décodage dans VAEDecode (#282), ImageBatchExtendWithOverlap (#292) ajoute les nouvelles images à la chronologie. Mettez à jour l'invite pour faire évoluer l'action micro tout en gardant les termes de sujet identiques.
Passe 4 - Construire vers le rythme
WanImageToVideoSVIPro (#305) prend le relais de la Passe 3 et utilise à nouveau les échantillonneurs HighNoise puis LowNoise KSamplerAdvanced (#303, #300). VAEDecode (#295) et ImageBatchExtendWithOverlap (#304) produisent une séquence continue que vous pouvez prévisualiser via VHS_VideoCombine (#296). Utilisez cette passe pour ajouter un mouvement de caméra ou des actions secondaires, en gardant les descripteurs stables pour préserver l'identité.
Passe 5 - Résoudre et rendre
WanImageToVideoSVIPro (#318) termine l'histoire et transmet les images à KSamplerAdvanced (#316, #313) pour le raffinement. Après décodage avec VAEDecode (#308), les images sont ajoutées avec ImageBatchExtendWithOverlap (#317). VHS_VideoCombine (#319) produit le MP4 final assemblé ; ajustez son frame_rate et filename_prefix pour convenir à la livraison.
Nœuds clés dans le workflow Stable Video Infinity ComfyUI
WanImageToVideoSVIPro (#134)
Ce nœud convertit le latent d'ancrage et votre invite en latents de mouvement et peut accepter prev_samples pour continuer à partir d'une passe antérieure. Utilisez length pour définir combien d'images une passe génère et motion_latent_count pour contrôler combien d'énergie de mouvement nouvelle est introduite. Enchaîner les passes en alimentant prev_samples est ce qui permet à Stable Video Infinity de construire de longues séquences sans saut.
KSamplerAdvanced (#276)
Chaque passe associe un échantillonneur HighNoise avec un échantillonneur LowNoise pour d'abord explorer puis consolider les détails. Le workflow expose steps et un contrôle de séparation secondaire afin que vous puissiez décider comment le budget de la passe est réparti entre les deux. Gardez la séparation cohérente à travers les passes pour éviter le scintillement aux points de transition.
ImageBatchExtendWithOverlap (#168)
Cet utilitaire mélange un petit nombre d'images de fin de la passe précédente avec le début de la nouvelle. Ajustez overlap et gardez le mode sur un mélange doux pour cacher les coutures tout en préservant la direction du mouvement. C'est la clé pour faire en sorte que les segments de Stable Video Infinity ressemblent à une prise continue.
VHS_VideoCombine (#319)
Assemble les images décodées en MP4 pour les aperçus et le rendu final. Ajustez frame_rate, format, et crf pour votre cible de livraison et la taille du fichier. Utilisez des valeurs distinctes de filename_prefix pour garder les aperçus séparés de la sortie finale.
LoraLoaderModelOnly (#141, #142)
Applique les variantes de Stable Video Infinity 2.0 LoRA à la paire Wan 2.2 UNet. Le contrôle strength_model vous permet de peaufiner la façon dont le LoRA oriente le mouvement et la cohérence. Gardez les branches HIGH et LOW alignées pour que les deux échantillonneurs interprètent les invites de manière similaire.
Suppléments optionnels
- Gardez les descripteurs de sujet constants à travers les cinq prompts et variez uniquement les verbes ou les indices de caméra pour préserver l'identité.
- Si le mouvement semble trop timide, augmentez légèrement
motion_latent_countà la passe suivante plutôt que de réécrire les prompts de manière drastique. - Si le détail vacille entre les passes, réduisez la part HighNoise de
stepsou abaissez uniformément la force du LoRA sur les deux branches. - Utilisez un court chevauchement pour une action rapide et un chevauchement plus long pour des scènes lentes et subtiles pour équilibrer la dissimulation des coutures et le temps d'exécution.
- Pour une réduction rapide, rendez seulement les aperçus des Passes 1 et 3 pour valider l'identité et le mouvement avant de s'engager dans l'exécution complète.
Remerciements
Ce workflow met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Kijai pour Stable-Video-Infinity v2.0 (SVI 2.0) pour leurs contributions et leur maintenance. Pour des détails faisant autorité, veuillez vous référer à la documentation et aux référentiels originaux liés ci-dessous.
Ressources
- Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source
Remarque : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.


