ComfyUI>Workflows>Créer des Scènes Cohérentes | Générateur d'Art Narratif Consistant

Créer des Scènes Cohérentes | Générateur d'Art Narratif Consistant

Workflow Name: RunComfy/Create-Coherent-Scenes

Workflow ID: 0000...1305

Ce flux de travail puissant vous aide à concevoir des scènes d'histoire visuellement unifiées en utilisant les capacités combinées de Qwen Image Edit et Wan 2.2. Il synchronise l'éclairage, les angles de caméra et la composition à travers plusieurs prises pour atteindre une cohérence naturelle. Parfait pour la narration, l'animation et la visualisation de concepts, il maintient les personnages et les environnements cohérents d'une image à l'autre. Vous pouvez facilement affiner les prises, préserver le ton artistique et générer des transitions fluides pour des séquences cinématographiques. Idéal pour les créateurs qui recherchent l'efficacité et le contrôle sur des récits multi-scènes.

Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2)

Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2) est un flux de travail ComfyUI prêt pour la production pour construire des vidéos multi-plans axées sur l'histoire où les personnages, l'éclairage et la composition restent cohérents d'une prise à l'autre. Il associe Qwen Image Edit pour des images fixes guidées par référence précises avec Wan 2.2 image-à-vidéo pour un mouvement cinématographique, puis vous permet d'assembler des scènes, de lisser le mouvement avec interpolation de trames et d'ajouter de l'audio foley généré pour terminer. Idéal pour l'art narratif, l'animation, le previz et les bandes-annonces conceptuelles, le flux de travail vous aide à passer d'un seul keyframe d'établissement à une séquence cohésive avec un minimum de retouches manuelles.

Le pipeline est organisé en trois parties : la Partie 1 crée et édite des keyframes cohérents, la Partie 2 anime chaque prise avec Wan 2.2 et les joint en une seule coupe, et la Partie 3 génère un audio foley conscient de la scène. Partout où vous voyez Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2) dans ce README, cela se réfère au processus complet de bout en bout.

Modèles clés dans le flux de travail Comfyui Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2)

Wan 2.2 Image-à-Vidéo 14B (variantes à haut bruit et bas bruit). Générateur vidéo principal utilisé pour animer vos images de scène tout en préservant la disposition spatiale et le style. Emballé pour ComfyUI avec un encodeur de texte et des actifs VAE. Référence : Comfy‑Org/Wan_2.2_ComfyUI_Repackaged.
Qwen‑Image‑Edit 2509 + Qwen 2.5 VL encodeur de texte + Qwen Image VAE. Édition d'image sémantique, consciente de la référence, utilisée pour créer des keyframes de scène suivante qui correspondent à votre narration tout en gardant la continuité du personnage et de la scène. Références : Comfy‑Org/Qwen‑Image‑Edit_ComfyUI et Comfy‑Org/Qwen‑Image_ComfyUI.
FLUX.1 dev (texte-à-image). Modèle de base optionnel pour le tout premier keyframe d'établissement avant l'édition. Référence : Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI.
RIFE Interpolation de Trames Vidéo. Utilisé pour augmenter le taux de trame et lisser le mouvement sur la coupe combinée. Référence : hzwer/Practical‑RIFE.
HunyuanVideo‑Foley. Un modèle audio génératif qui crée un foley synchronisé à partir d'images ou de vidéo plus une courte indication textuelle; utilisé pour ajouter du son diégétique par scène ou pour la coupe finale. Référence : phazei/HunyuanVideo‑Foley.
Aides optionnelles. MiniCPM‑V 4.5 peut rédiger automatiquement des incitations audio à partir de votre coupe pour accélérer l'idéation du foley : OpenBMB/MiniCPM‑V.

Comment utiliser le flux de travail Comfyui Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2)

Logique générale

La Partie 1 crée un keyframe d'établissement puis utilise Qwen Image Edit pour générer des images fixes "scène suivante" qui restent alignées stylistiquement.
La Partie 2 anime chaque image de scène en un court clip avec Wan 2.2, puis concatène tous les clips en une seule coupe et interpole éventuellement les trames pour un mouvement plus fluide.
La Partie 3 génère éventuellement de l'audio foley par scène ou pour la coupe combinée et le mélange dans la vidéo finale.

Chargeur de modèle

La zone de modèle charge les variantes à haut bruit et bas bruit de Wan 2.2 et leur VAE/CLIP une fois, avec une option pour accélérer via la compilation torch. Vous verrez également une route à faible VRAM utilisant des UNETs GGUF quantifiés et un échange de blocs afin que vous puissiez exécuter le même processus Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2) sur des GPU plus petits.
Les LoRAs pour Wan 2.2 et le Qwen Image Edit Lightning LoRA sont pré-câblés pour influencer le style de mouvement et la vitesse d'édition sans compliquer le graphe.
Si vous changez de modèles, gardez les familles d'encodeurs de texte/UNET/VAE cohérentes pour éviter les incompatibilités d'espace latent.

Paramètres

Les contrôles globaux définissent la largeur, la hauteur, la graine et la longueur de scène de travail afin que chaque scène hérite d'une géométrie de canevas et d'une cadence temporelle identiques. C'est une clé pour la cohérence de Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2).
Un incitatif négatif complet est fourni et routé globalement; vous pouvez le remplacer à tout moment pour s'adapter à votre direction artistique.

Partie 1 — Keyframe d'établissement texte-à-image

Commencez par décrire votre plan d'ouverture. L'incitatif alimente un échantillonneur de texte-à-image de base qui produit une image "Start_" pour le projet.
Cette image est mise en cache et devient la référence pour la scène suivante dans la piste Qwen. Le flux de travail met l'image à l'échelle à une résolution adaptée à l'édition et l'encode en latents.

Partie 1 — Keyframes de scène suivante Qwen Image Edit

Pour chaque prise suivante, écrivez une courte instruction "Scène Suivante". L'éditeur se conditionne sur l'image de scène précédente afin que l'identité du personnage, la garde-robe, l'éclairage et la palette restent alignés.
Le résultat édité est décodé, prévisualisé et enregistré en tant que "Scene_1_…", "Scene_2_…", etc. Ce sont vos images fixes cohérentes. Elles sont également stockées dans des emplacements d'image partagés afin que les incitatifs ultérieurs puissent s'y référer.

Entrées de scène (1–6)

Si vous avez déjà des images conceptuelles, déposez-les dans les six nœuds "LoadImage". Sinon, utilisez les images fixes générées par Qwen de la Partie 1 comme vos images de départ.
Pour chaque scène, ajoutez une courte incitation textuelle via le nœud d'incitation étiqueté. Considérez-les comme des notes de cinématographie qui guident le style de mouvement plutôt que de redécrire l'environnement entier.

Échantillonnage de scène (1–6)

Chaque scène exécute un passage image-à-vidéo Wan 2.2 pour transformer l'image de départ en un clip latent. Un chemin d'échantillonneur en trois étapes affine ensuite la séquence latente en utilisant un chemin à haut bruit, un chemin à bas bruit et un chemin sans LoRA arrangé pour la stabilité.
Les trames décodées alimentent un rédacteur vidéo par scène qui enregistre un MP4 pour un examen rapide. Les nœuds de purge de mémoire après chaque rendu libèrent la VRAM avant que la scène suivante ne commence.
Parce que toutes les scènes partagent la même graine, taille et longueur, la cadence de mouvement et la composition restent alignées, aidant Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2) à se sentir comme une pièce continue.

Combiner les scènes

Les six séquences d'images rendues sont concaténées dans l'ordre, produisant une coupe "Combinée". Vous pouvez réorganiser ou omettre des scènes en reconnectant le nœud de lot qui les collecte.

Interpolation de trames optionnelle

Un passage d'interpolation augmente le taux de trame apparent en utilisant RIFE. Cela crée une exportation "Interpolée" pour un mouvement de caméra et de sujet plus fluide tout en conservant le même aspect.

Partie 3 — Vidéo-à-Audio foley

Chargez la coupe combinée ou toute scène individuelle dans la section audio. Un assistant intégré vision-langage peut rédiger automatiquement une description textuelle de scène; éditez-la à votre goût pour refléter le rythme, l'humeur et les actions clés.
Le modèle foley synthétise l'audio synchronisé et un nœud de mélange le combine avec vos trames en un MP4 activé par l'audio. Pour de meilleurs résultats, générez de l'audio par scène puis assemblez.

Nœuds clés dans le flux de travail Comfyui Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2)

WanImageToVideo (#111) Convertit une seule trame de référence en une vidéo latente cohérente tout en respectant le texte positif et négatif. Utilisez-le pour définir la durée et la taille de canevas de chaque prise et pour fournir l'image de départ que vous souhaitez animer. Pris en charge par les modèles Wan 2.2 I2V 14B emballés ici : Comfy‑Org/Wan_2.2_ComfyUI_Repackaged.
TextEncodeQwenImageEditPlus (#360) Encode les instructions "Scène Suivante" avec une image de référence afin que les éditions suivent l'histoire tout en correspondant à l'identité et à l'éclairage. Gardez les noms et les balises stylistiques cohérents entre les scènes pour renforcer la continuité. Références de modèles : Comfy‑Org/Qwen‑Image‑Edit_ComfyUI et Comfy‑Org/Qwen‑Image_ComfyUI.
KSamplerAdvanced (#159) Le débruiteur principal pour chaque scène animée. Ce flux de travail enchaîne trois échantillonneurs qui ciblent différents régimes de bruit et mélanges LoRA pour améliorer la stabilité temporelle. Si vous changez d'étapes ou de graines, faites-le uniformément à travers les échantillonneurs enchaînés pour garder le comportement du mouvement prévisible.
ImageBatchMulti (#308) Rassemble les lots de trames de scène en une longue chronologie. Utilisez-le pour réorganiser, supprimer ou échanger des scènes avant l'exportation sans toucher aux chemins d'échantillonnage.
RIFE VFI (#94) Effectue une interpolation de trames pour augmenter le taux de trame perçu. Il est particulièrement efficace pour les mouvements de caméra lents et le mouvement fluide des sujets. Référence : hzwer/Practical‑RIFE.
HunyuanFoleySampler (#331) Génère un foley synchronisé à partir de trames plus une courte incitation textuelle, puis passe l'audio au mélangeur vidéo. Pour les détails et fichiers de modèle, voir phazei/HunyuanVideo‑Foley.

Extras optionnels

Pour une itération plus rapide, utilisez la route Wan 2.2 GGUF quantifiée avec échange de blocs lorsque la VRAM est serrée; revenez à la pleine précision pour les rendus finaux.
Gardez la largeur, la hauteur et la longueur de scène identiques sur tout le projet pour renforcer la continuité du rythme et du cadrage.
Dans les incitatifs Qwen, préservez les identifiants de base (noms, tenues, accessoires) et les termes d'éclairage; variez uniquement l'action et le langage de la caméra entre les scènes.
Utilisez la graine globale pour verrouiller le "ressenti" global du projet. Changez-la uniquement lorsque vous souhaitez un caractère de mouvement différent à travers toutes les scènes.
Interpolez uniquement après être satisfait du timing, puis rendez la version audio par scène et combinez; le foley par scène tend à sonner plus naturel.
FLUX.1 dev est une excellente base pour le tout premier keyframe; une fois établi, comptez sur les éditions Qwen pour progresser dans l'histoire tout en gardant l'aspect : Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI.

Remerciements

Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement les créateurs de Qwen Image Edit pour le modèle, les développeurs de Wan 2.2 pour le modèle, et l'auteur(@Benji’s AI Playground) du "Tutoriel Youtube Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2)" pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation originale et aux référentiels liés ci-dessous.

Ressources

YouTube/Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2)
- Docs / Notes de Version @Benji’s AI Playground: Tutoriel Youtube Créer des Scènes Cohérentes (Qwen Image Edit & Wan 2.2)

Note: L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.2 | Leader Open-Source en Génération Vidéo

Disponible maintenant ! Meilleure précision + mouvement plus fluide.

Wan 2.2 FLF2V | Génération de Vidéo Premier-Dernier Cadre

Générez des vidéos fluides à partir d'un cadre de début et de fin en utilisant Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rapide

Configuration Dual Light LoRA, 4X plus rapide.

Wan 2.2 VACE | Générateur de vidéo contrôlé par pose

Transformez des images fixes en mouvements époustouflants avec un contrôle basé sur la pose.

Wan 2.1 Ditto | Générateur de restylisation vidéo cinématographique

Transformez des vidéos en styles artistiques époustouflants avec un flux de mouvement parfait.

DynamiCrafter | Des images à la vidéo

Testé pour la génération de vidéos en boucle et l'interpolation d'images. Meilleur que la génération de vidéo en source fermée dans certains scénarios

Trellis | Image to 3D

Trellis est un modèle avancé d'Image à 3D pour la génération d'actifs 3D de haute qualité.

BRIA AI RMBG 1.4 vs Segment Anything | Suppression de l'arrière-plan

Supprime efficacement les arrière-plans en comparant RMBG 1.4 de BRIA AI avec Segment Anything.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.