ComfyUI>Workflows>Générer des MONDES ENTIEREMENT AI Constructeur de Scènes Vidéo

Générer des MONDES ENTIEREMENT AI Constructeur de Scènes Vidéo

Workflow Name: RunComfy/Generate-ENTIRE-AI-WORLDS-Vace-Wan-2-1

Workflow ID: 0000...1282

Ce flux de travail vous permet de transformer des séquences brutes en environnements cinématographiques avec un contrôle total sur le remplacement de l'arrière-plan. Il maintient le mouvement de la caméra d'origine tout en transformant les décors en scènes détaillées et immersives. Conçu pour les cinéastes et les artistes VFX, il offre une profondeur et une précision de perspective cohérentes. L'outil permet une création de mondes rapide et efficace directement à partir de la vidéo. Vous pouvez créer des paysages entiers sans perdre la fidélité du mouvement. Parfait pour quiconque a besoin de génération de scènes réalistes et créatives pour des projets narratifs.

Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) : Création de mondes cinématographiques de vidéo à vidéo avec suivi de caméra réel

Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) est un flux de travail ComfyUI prêt pour la production par Mickmumpitz pour transformer des séquences en direct en nouveaux environnements tout en conservant le mouvement de caméra original. Il échange les arrière-plans, préserve la perspective et l'échelle, et composite un acteur masqué dans des mondes entièrement régénérés pilotés par texte et images de référence.

Construit sur la pile Wan 2.1 VACE, ce flux de travail est idéal pour les cinéastes, les artistes VFX et les créateurs qui ont besoin de prévisualisations rapides ou de prises de vue soignées. Vous pouvez diriger la scène avec des invites, commencer à partir d'une image de référence facultative et choisir entre un pipeline FP8 à grande vitesse ou un pipeline GGUF à faible VRAM. Le résultat est une création de mondes sans couture qui vous permet réellement de Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) à partir de plans quotidiens.

Modèles clés dans le flux de travail Comfyui Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1)

Modèle de diffusion texte-à-vidéo Wan 2.1 14B. Générateur principal utilisé pour synthétiser le nouveau monde de manière temporellement cohérente. Les poids reconditionnés pour ComfyUI sont disponibles dans la version Comfy-Org sur Hugging Face.
Comfy‑Org/Wan_2.1_ComfyUI_repackaged
Module VACE Wan 2.1 14B. Fournit des embeddings VACE qui lient la génération à la structure de la scène, permettant un remplacement précis de l'arrière-plan et un suivi de la caméra.
Kijai/WanVideo_comfy
VAE Wan 2.1. Gère le codage/décodage latent pour les images vidéo.
Comfy‑Org/Wan_2.1_ComfyUI_repackaged (VAE split)
Encodeur de texte uMT5‑XXL. Encode les invites pour l'espace de conditionnement de Wan 2.1. Un encodeur empaqueté compatible avec ce flux de travail est fourni avec les divisions Wan 2.1.
Comfy‑Org/Wan_2.1_ComfyUI_repackaged (text_encoders)
Wan 2.1 14B VACE GGUF (UNet quantifié). Une alternative quantifiée pour les GPU à faible VRAM qui alimente le chemin GGUF sans le modèle FP8 complet.
QuantStack/Wan2.1_14B_VACE‑GGUF
FILM : Interpolation de trame pour les grands mouvements. Post-traitement optionnel pour améliorer la fluidité du mouvement en interpolant des trames supplémentaires.
google‑research/frame‑interpolation
Étape LightX facultative distillation de LoRA pour Wan 2.1. Une LoRA orientée vers la vitesse qui s'associe bien avec des comptes d'étapes courts tout en conservant la structure et l'identité.
Kijai/WanVideo_comfy (LoRA)

Comment utiliser le flux de travail Comfyui Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1)

Ce flux de travail suit une stratégie VACE en deux passes : d'abord, il encode le mouvement de la scène à partir d'images de contrôle pour verrouiller le mouvement de la caméra ; ensuite, il encode l'insertion de l'acteur et l'intègre dans l'environnement régénéré. Vous pouvez exécuter le chemin FP8 pour une vitesse maximale ou le chemin GGUF pour une faible VRAM. Les sections ci-dessous correspondent aux groupes sur le graphe afin que vous puissiez exploiter l'ensemble du pipeline Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) en toute confiance.

ENTRÉE VIDÉO & SÉLECTION DE TAILLE

La zone d'entrée vous permet de choisir la résolution de travail et les contrôles de clip de base. Utilisez le commutateur de résolution pour choisir un préréglage (720p, 576p ou 480p), qui alimente Set_width (#370) et Set_height (#369) pour que chaque étape reste synchronisée. Vous pouvez limiter le nombre de trames pour garder les délais rapides et définir un petit saut si vous souhaitez décaler le point d'entrée. Pour la stabilité et la mémoire, gardez les séquences dans la plage recommandée ; les étiquettes du graphe indiquent que 81 trames est un plafond raisonnable pour la plupart des GPU. Ces choix s'appliquent globalement aux images de contrôle, aux encodages VACE et aux rendus finaux.

Note : La vidéo d'entrée peut également être générée via un autre flux de travail, MASK_AND_TRACK. Vous pouvez télécharger son fichier de flux de travail ici : workflow.json. Après téléchargement, faites glisser le fichier dans un nouvel onglet de flux de travail et exécutez-le pour obtenir la vidéo d'entrée.

DÉFINIR L'IMAGE DE FOND / IMAGE DE RÉFÉRENCE

Une plaque de fond et une image de référence facultative guident le style visuel. Chargez une image fixe de fond, puis le graphe la redimensionne pour correspondre à votre taille de travail. Si vous souhaitez une ancre de style au lieu d'une plaque de fond rigide, activez l'image de référence via le sélecteur ; cette image guide la couleur, la composition et le ton sans dicter la géométrie. La route de référence est utile lorsque vous souhaitez que le modèle Génère des MONDES ENTIEREMENT AI (Vace Wan 2.1) qui évoquent un look spécifique, tandis que l'invite textuelle gère le reste. Désactivez-la lorsque vous préférez un contrôle uniquement par texte.

DÉMARRER LE CADRE + PERSONNE

Utilisez cette section pour décider comment commence la génération. Avec un acteur prêt, Image Remove Background Rembg (mtb) (#1433) extrait un masque propre et ImageCompositeMasked (#1441) place l'acteur sur votre arrière-plan choisi pour former un cadre de départ. Le commutateur Start Frame (ImpactSwitch, #1760) propose trois modes : acteur composite plus arrière-plan, arrière-plan uniquement, ou aucun cadre de départ. Les cadres de départ aident à ancrer l'identité et la disposition ; l'arrière-plan uniquement permet au personnage d'"entrer" au fil du temps ; aucun cadre de départ demande au modèle d'établir à la fois le sujet et le monde à partir du texte et de la référence. Un bloc d'aperçu en direct montre à quoi ressemble ce départ avant de vous engager en aval.

IMAGES DE CONTRÔLE

Les images de contrôle verrouillent le mouvement de la caméra pour que la perspective et le parallaxe paraissent réels. Alimentez une vidéo de suivi de caméra dans le groupe ; le graphe peut dériver les couches OpenPose et Canny, puis les mélanger pour créer un signal de structure fort. Le commutateur Control Image Nodes (ImpactSwitch, #1032) vous permet de choisir Track uniquement, Track+Pose, Canny+Pose, ou une vidéo de contrôle préparée à l'extérieur. Passez en revue la pile avec la combinaison d'aperçu pour vous assurer que les silhouettes et les bords sont clairement lisibles. Pour les longues séquences, vous pouvez enregistrer et recharger plus tard cette vidéo de contrôle pour éviter de recalculer ; c'est particulièrement utile lorsque vous itérez sur les invites ou les masques tout en continuant à Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1).

VIDÉO CN D'ENTRÉE

Si vous avez déjà exporté une vidéo "images de contrôle", déposez-la ici pour contourner le prétraitement. Sélectionnez l'option correspondante dans le commutateur d'image de contrôle afin que le reste du pipeline utilise votre structure mise en cache. Cela maintient le suivi de la caméra cohérent à travers les exécutions et réduit considérablement le temps d'itération sur les longues prises.

CHARGEURS DE MODÈLE FP8

La branche FP8 charge l'ensemble de la pile de modèles Wan 2.1. WanVideoModelLoader (#4) amène la colonne vertébrale T2V 14B et le module VACE, plus une LoRA LightX optionnelle pour un échantillonnage rapide et cohérent. WanVideoVAELoader (#26) fournit le VAE, et WanVideoBlockSwap (#5) expose une stratégie d'économie de VRAM en échangeant des blocs dans la mémoire de l'appareil au besoin. Cette branche est le moyen le plus rapide de Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) lorsque vous avez la marge VRAM.

ÉCHANTILLONNEUR DE MODÈLE FP8

Les invites sont encodées par WanVideoTextEncodeSingle pour le texte positif et négatif, puis affinées via WanVideoApplyNAG pour maintenir une formulation cohérente. La première passe, WanVideo VACE Encode (CN‑CameraTrack) (#948), lit les images de contrôle pour produire des embeddings adaptés au mouvement. La deuxième passe, WanVideo VACE Encode (InsertPerson) (#1425), injecte l'acteur en utilisant un alpha propre et un masque que vous pouvez agrandir ou réduire légèrement pour éviter les halos. WanVideoSampler (#2) rend ensuite la séquence, WanVideoDecode (#1) transforme les latents en trames, et un simple commutateur choisit entre le taux de trame original ou un flux interpolé par FILM avant la combinaison vidéo finale.

CHARGEURS DE MODÈLE GGUF

La branche GGUF est conçue pour les flux de travail à faible VRAM. UnetLoaderGGUF (#1677) charge un UNet VACE Wan 2.1 quantifié, CLIPLoader (#1680) fournit l'encodeur de texte, et une LoRA peut être appliquée avec LoraLoader (#2420). Un VAELoader standard de ComfyUI (#1676) gère le décodage. Cette route échange la vitesse contre l'empreinte tout en préservant la même logique VACE en deux passes, vous permettant ainsi de Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) sur du matériel modeste.

ÉCHANTILLONNEUR DE MODÈLE GGUF

Dans le chemin quantifié, WanVaceToVideo (#1724) transforme les embeddings VACE, la conditionnement texte et votre référence en un latent guidé. WanVideoNAG et WanVideoEnhanceAVideoKJ aident à maintenir l'identité et les détails locaux, après quoi KSampler (#1726) génère la séquence latente finale. VAEDecode (#1742) produit des trames, une étape FILM optionnelle ajoute de la fluidité temporelle, et la combinaison vidéo écrit le résultat sur disque. Utilisez ce chemin lorsque la VRAM est serrée ou lorsque vous avez besoin de longues prises stables.

INVITES

Il y a deux panneaux d'invites. Le côté FP8 utilise l'encodeur de texte Wan T5, tandis que le côté GGUF utilise un chemin de conditionnement CLIP ; les deux reçoivent des textes positifs et négatifs. Gardez les invites positives cinématographiques et spécifiques au monde que vous souhaitez, et réservez les invites négatives pour les artefacts de compression, la sursaturation et l'encombrement indésirable de l'avant-plan. Vous pouvez mélanger les invites avec une image de référence douce pour orienter la couleur et l'éclairage tout en permettant encore au modèle de Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) qui correspondent à votre intention.

Nœuds clés dans le flux de travail Comfyui Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1)

WanVideo VACE Encode (CN-CameraTrack) (#948)
Première passe VACE qui analyse vos images de contrôle pour verrouiller le mouvement de la caméra. Faites correspondre la largeur, la hauteur et la longueur avec votre taille de travail choisie et la durée du clip pour que les embeddings s'alignent avec l'échantillonnage en aval. Si vous vous appuyez sur une vidéo de contrôle externe, gardez le nombre de trames constant pour éviter les dérives de synchronisation. La mise en œuvre de référence et le comportement du nœud suivent l'enveloppe WanVideo.
Source : kijai/ComfyUI‑WanVideoWrapper
WanVideo VACE Encode (InsertPerson) (#1425)
Deuxième passe VACE qui injecte l'acteur en utilisant le mat alpha et un masque nettoyé. Si vous voyez des bords flous, ajustez la réduction/expansion du masque en amont (DilateErodeMask, #2391) pour resserrer légèrement le mat. Cette passe lie l'insertion au mouvement de la scène afin que l'échelle et le parallaxe restent naturels.
Source : kijai/ComfyUI‑WanVideoWrapper
WanVaceToVideo (#1724 et #1729)
Relie le conditionnement VACE à l'échantillonneur. Définissez les dimensions de sortie à la même taille de travail, et utilisez le nombre de trames du clip de contrôle pour que les découpes ne soient pas nécessaires plus tard. Associez-le à une seule image de référence lorsque vous souhaitez un look cohérent sur la prise sans trop contraindre la disposition.
Source : kijai/ComfyUI‑WanVideoWrapper
WanVideoSampler (#2)
Échantillonneur FP8 qui rend la séquence finale à partir de Wan 2.1 en utilisant vos embeddings de texte et d'image VACE. Il prend en charge l'échange de blocs pour économiser la VRAM et fonctionne bien avec la LoRA de distillation LightX pour des résultats rapides et sûrs pour l'identité à de faibles comptes d'étapes.
Sources : kijai/ComfyUI‑WanVideoWrapper, Kijai/WanVideo_comfy (LoRA)
KSampler (#1726)
Échantillonneur de branche GGUF. Commencez avec un petit nombre d'étapes pour préserver l'acteur et réduire le sur-affûtage ; la LoRA LightX est optimisée pour ce régime. Si le détail s'estompe, augmentez modestement les étapes ou appuyez sur le bloc Enhance A Video pour retrouver une micro-texture sans dérive de mouvement.
Source : ComfyUI core
FILM VFI (#2019 et #1757)
Interpolation de trame optionnelle contrôlée par le commutateur d'interpolation. Utilisez-le pour lisser les mouvements rapides ou prolonger la durée sans réenregistrement. Si vous remarquez des oscillations temporelles sur des structures fines, désactivez-le pour ces prises ou réduisez le facteur d'interpolation.
Source : google‑research/frame‑interpolation

Extras optionnels

Gardez les longueurs de clip gérables ; le guide du graphe d'environ 81 trames par exécution équilibre la stabilité et la mémoire sur les GPU courants.
Si vous itérez les invites,json enregistrez la vidéo "images de contrôle" une fois et passez au chemin Vidéo CN d'Entrée pour éviter de recalculer la structure.
Pour supprimer les bords flous autour du sujet, ajustez le masque de l'acteur avec DilateErodeMask dans le chemin d'insertion jusqu'à ce que les halos disparaissent.
Faible VRAM ou longues prises : choisissez la branche GGUF ; haute VRAM et itération rapide : choisissez la branche FP8.
Pour le cadrage de départ, utilisez "Arrière-plan uniquement" lorsque vous souhaitez que le sujet entre plus tard, ou "Pas de cadre de départ" lorsque vous souhaitez que le modèle établisse entièrement la scène à partir de texte et de référence.

Avec ces étapes, vous pouvez exécuter le flux de travail de bout en bout avec confiance et Générer des MONDES ENTIEREMENT AI (Vace Wan 2.1) qui tiennent sous le mouvement réel de la caméra.

Remerciements

Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources de @mickmumpitz. Nous reconnaissons avec gratitude le Tutoriel de Flux de Travail de Mickmumpitz pour le flux de travail instructif, et le remercions pour ses contributions et son entretien. Pour des détails autoritatifs, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources

YouTube/Tutoriel de Flux de Travail
- Docs / Notes de version de Mickmumpitz Youtube : Tutoriel de Flux de Travail

Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par Mickmumpitz.

Want More ComfyUI Workflows?

Wan 2.2 | Leader Open-Source en Génération Vidéo

Disponible maintenant ! Meilleure précision + mouvement plus fluide.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rapide

Configuration Dual Light LoRA, 4X plus rapide.

Wan 2.2 FLF2V | Génération de Vidéo Premier-Dernier Cadre

Générez des vidéos fluides à partir d'un cadre de début et de fin en utilisant Wan 2.2 FLF2V.

Wan 2.2 Lightning T2V I2V | 4 Étapes Ultra Rapide

Wan 2.2 maintenant 20x plus rapide ! T2V + I2V en 4 étapes.

Wan 2.1 | Génération Vidéo Révolutionnaire

Créez des vidéos incroyables à partir de texte ou d'images avec une IA révolutionnaire fonctionnant sur des CPU quotidiens.

Vid2Vid Partie 2 | SDXL Style Transfer

Améliorez la créativité Vid2Vid en vous concentrant sur la composition et le masquage de votre vidéo originale.

Flux Kontext Zoom Out ComfyUI Workflow | Outpainting transparent

Zoom Out LoRA agrandit les images de manière transparente avec une continuation naturelle.

Step1X-Edit | Outil d'Édition d'Images AI

Effectuez 11 opérations d'édition avec le langage naturel dans Step1X-Edit.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.