Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) est un flux de travail ComfyUI prêt pour la production par Mickmumpitz pour transformer des séquences en direct en nouveaux environnements tout en conservant le mouvement de caméra original. Il échange les arrière-plans, préserve la perspective et l'échelle, et composite un acteur masqué dans des mondes entièrement régénérés pilotés par texte et images de référence.
Construit sur la pile Wan 2.1 VACE, ce flux de travail est idéal pour les cinéastes, les artistes VFX et les créateurs qui ont besoin de prévisualisations rapides ou de prises de vue soignées. Vous pouvez diriger la scène avec des invites, commencer à partir d'une image de référence facultative et choisir entre un pipeline FP8 à grande vitesse ou un pipeline GGUF à faible VRAM. Le résultat est une création de mondes sans couture qui vous permet réellement de Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) à partir de plans quotidiens.
Ce flux de travail suit une stratégie VACE en deux passes : d'abord, il encode le mouvement de la scène à partir d'images de contrôle pour verrouiller le mouvement de la caméra ; ensuite, il encode l'insertion de l'acteur et l'intègre dans l'environnement régénéré. Vous pouvez exécuter le chemin FP8 pour une vitesse maximale ou le chemin GGUF pour une faible VRAM. Les sections ci-dessous correspondent aux groupes sur le graphe afin que vous puissiez exploiter l'ensemble du pipeline Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) en toute confiance.
La zone d'entrée vous permet de choisir la résolution de travail et les contrôles de clip de base. Utilisez le commutateur de résolution pour choisir un préréglage (720p, 576p ou 480p), qui alimente Set_width
(#370) et Set_height
(#369) pour que chaque étape reste synchronisée. Vous pouvez limiter le nombre de trames pour garder les délais rapides et définir un petit saut si vous souhaitez décaler le point d'entrée. Pour la stabilité et la mémoire, gardez les séquences dans la plage recommandée ; les étiquettes du graphe indiquent que 81 trames est un plafond raisonnable pour la plupart des GPU. Ces choix s'appliquent globalement aux images de contrôle, aux encodages VACE et aux rendus finaux.
Note : La vidéo d'entrée peut également être générée via un autre flux de travail, MASK_AND_TRACK. Vous pouvez télécharger son fichier de flux de travail ici : workflow.json. Après téléchargement, faites glisser le fichier dans un nouvel onglet de flux de travail et exécutez-le pour obtenir la vidéo d'entrée.
Une plaque de fond et une image de référence facultative guident le style visuel. Chargez une image fixe de fond, puis le graphe la redimensionne pour correspondre à votre taille de travail. Si vous souhaitez une ancre de style au lieu d'une plaque de fond rigide, activez l'image de référence
via le sélecteur ; cette image guide la couleur, la composition et le ton sans dicter la géométrie. La route de référence est utile lorsque vous souhaitez que le modèle Génère des MONDES ENTIEREMENT AI (Vace Wan 2.1) qui évoquent un look spécifique, tandis que l'invite textuelle gère le reste. Désactivez-la lorsque vous préférez un contrôle uniquement par texte.
Utilisez cette section pour décider comment commence la génération. Avec un acteur prêt, Image Remove Background Rembg (mtb)
(#1433) extrait un masque propre et ImageCompositeMasked
(#1441) place l'acteur sur votre arrière-plan choisi pour former un cadre de départ. Le commutateur Start Frame
(ImpactSwitch
, #1760) propose trois modes : acteur composite plus arrière-plan, arrière-plan uniquement, ou aucun cadre de départ. Les cadres de départ aident à ancrer l'identité et la disposition ; l'arrière-plan uniquement permet au personnage d'"entrer" au fil du temps ; aucun cadre de départ demande au modèle d'établir à la fois le sujet et le monde à partir du texte et de la référence. Un bloc d'aperçu en direct montre à quoi ressemble ce départ avant de vous engager en aval.
Les images de contrôle verrouillent le mouvement de la caméra pour que la perspective et le parallaxe paraissent réels. Alimentez une vidéo de suivi de caméra dans le groupe ; le graphe peut dériver les couches OpenPose et Canny, puis les mélanger pour créer un signal de structure fort. Le commutateur Control Image Nodes
(ImpactSwitch
, #1032) vous permet de choisir Track uniquement, Track+Pose, Canny+Pose, ou une vidéo de contrôle préparée à l'extérieur. Passez en revue la pile avec la combinaison d'aperçu pour vous assurer que les silhouettes et les bords sont clairement lisibles. Pour les longues séquences, vous pouvez enregistrer et recharger plus tard cette vidéo de contrôle pour éviter de recalculer ; c'est particulièrement utile lorsque vous itérez sur les invites ou les masques tout en continuant à Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1).
Si vous avez déjà exporté une vidéo "images de contrôle", déposez-la ici pour contourner le prétraitement. Sélectionnez l'option correspondante dans le commutateur d'image de contrôle afin que le reste du pipeline utilise votre structure mise en cache. Cela maintient le suivi de la caméra cohérent à travers les exécutions et réduit considérablement le temps d'itération sur les longues prises.
La branche FP8 charge l'ensemble de la pile de modèles Wan 2.1. WanVideoModelLoader
(#4) amène la colonne vertébrale T2V 14B et le module VACE, plus une LoRA LightX optionnelle pour un échantillonnage rapide et cohérent. WanVideoVAELoader
(#26) fournit le VAE, et WanVideoBlockSwap
(#5) expose une stratégie d'économie de VRAM en échangeant des blocs dans la mémoire de l'appareil au besoin. Cette branche est le moyen le plus rapide de Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) lorsque vous avez la marge VRAM.
Les invites sont encodées par WanVideoTextEncodeSingle
pour le texte positif et négatif, puis affinées via WanVideoApplyNAG
pour maintenir une formulation cohérente. La première passe, WanVideo VACE Encode (CN‑CameraTrack)
(#948), lit les images de contrôle pour produire des embeddings adaptés au mouvement. La deuxième passe, WanVideo VACE Encode (InsertPerson)
(#1425), injecte l'acteur en utilisant un alpha propre et un masque que vous pouvez agrandir ou réduire légèrement pour éviter les halos. WanVideoSampler
(#2) rend ensuite la séquence, WanVideoDecode
(#1) transforme les latents en trames, et un simple commutateur choisit entre le taux de trame original ou un flux interpolé par FILM avant la combinaison vidéo finale.
La branche GGUF est conçue pour les flux de travail à faible VRAM. UnetLoaderGGUF
(#1677) charge un UNet VACE Wan 2.1 quantifié, CLIPLoader
(#1680) fournit l'encodeur de texte, et une LoRA peut être appliquée avec LoraLoader
(#2420). Un VAELoader
standard de ComfyUI (#1676) gère le décodage. Cette route échange la vitesse contre l'empreinte tout en préservant la même logique VACE en deux passes, vous permettant ainsi de Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) sur du matériel modeste.
Dans le chemin quantifié, WanVaceToVideo
(#1724) transforme les embeddings VACE, la conditionnement texte et votre référence en un latent guidé. WanVideoNAG
et WanVideoEnhanceAVideoKJ
aident à maintenir l'identité et les détails locaux, après quoi KSampler
(#1726) génère la séquence latente finale. VAEDecode
(#1742) produit des trames, une étape FILM optionnelle ajoute de la fluidité temporelle, et la combinaison vidéo écrit le résultat sur disque. Utilisez ce chemin lorsque la VRAM est serrée ou lorsque vous avez besoin de longues prises stables.
Il y a deux panneaux d'invites. Le côté FP8 utilise l'encodeur de texte Wan T5, tandis que le côté GGUF utilise un chemin de conditionnement CLIP ; les deux reçoivent des textes positifs et négatifs. Gardez les invites positives cinématographiques et spécifiques au monde que vous souhaitez, et réservez les invites négatives pour les artefacts de compression, la sursaturation et l'encombrement indésirable de l'avant-plan. Vous pouvez mélanger les invites avec une image de référence douce pour orienter la couleur et l'éclairage tout en permettant encore au modèle de Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) qui correspondent à votre intention.
WanVideo VACE Encode (CN-CameraTrack)
(#948)WanVideo VACE Encode (InsertPerson)
(#1425)DilateErodeMask
, #2391) pour resserrer légèrement le mat. Cette passe lie l'insertion au mouvement de la scène afin que l'échelle et le parallaxe restent naturels.WanVaceToVideo
(#1724 et #1729)WanVideoSampler
(#2)KSampler
(#1726)Enhance A Video
pour retrouver une micro-texture sans dérive de mouvement.FILM VFI
(#2019 et #1757)DilateErodeMask
dans le chemin d'insertion jusqu'à ce que les halos disparaissent.Avec ces étapes, vous pouvez exécuter le flux de travail de bout en bout avec confiance et Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) qui tiennent sous le mouvement réel de la caméra.
Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources de @mickmumpitz. Nous reconnaissons avec gratitude le Tutoriel de Flux de Travail de Mickmumpitz pour le flux de travail instructif, et le remercions pour ses contributions et son entretien. Pour des détails autoritatifs, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.
Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par Mickmumpitz.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.