Nunchaku Qwen Image est un workflow d'édition et de composition multi-image basé sur des instructions pour ComfyUI. Il accepte jusqu'à trois images de référence, vous permet de spécifier comment elles doivent être mélangées ou transformées, et produit un résultat cohérent guidé par le langage naturel. Les cas d'utilisation typiques incluent la fusion de sujets, le remplacement d'arrière-plans ou le transfert de styles et de détails d'une image à une autre.
Construit autour de la famille d'images Qwen, ce workflow donne aux artistes, designers et créateurs un contrôle précis tout en restant rapide et prévisible. Il inclut également une route d'édition d'image unique et une route de texte à image pure, pour que vous puissiez générer, affiner et composer au sein d'un seul pipeline Nunchaku Qwen Image.
Note : Veuillez sélectionner des types de machines dans la gamme de Medium à 2XLarge. L'utilisation de types de machines 2XLarge Plus ou 3XLarge n'est pas prise en charge et entraînera un échec d'exécution.
Nunchaku Qwen Image Edit 2509. Poids de diffusion/DiT optimisés pour l'édition d'images guidée par instructions et le transfert d'attributs. Fort pour les éditions localisées, les échanges d'objets et les changements d'arrière-plan. Model card
Nunchaku Qwen Image (base). Générateur de base utilisé par la branche de texte à image pour la synthèse créative sans photo source. Model card
Qwen2.5‑VL 7B encodeur de texte. Modèle de langage multimodal qui interprète les instructions et les aligne avec les caractéristiques visuelles pour l'édition et la génération. Model page
Qwen Image VAE. Autoencodeur variationnel utilisé pour encoder les images sources en latents et décoder les résultats finaux avec des couleurs et des détails fidèles. Assets
Ce graphe contient trois routes indépendantes qui partagent le même langage visuel et logique d'échantillonnage. Utilisez une branche à la fois selon que vous éditez plusieurs images, affinez une seule image, ou générez à partir de texte.
Cette branche charge le modèle d'édition avec NunchakuQwenImageDiTLoader
(#115), le dirige à travers ModelSamplingAuraFlow
(#66) et CFGNorm
(#75), puis synthétise avec KSampler
(#3). Téléchargez jusqu'à trois images en utilisant LoadImage
(#78, #106, #108). La référence principale est encodée par VAEEncode
(#88) pour définir la toile, et ImageScaleToTotalPixels
(#93) garde les entrées dans une plage de taille stable.
Écrivez votre instruction dans TextEncodeQwenImageEditPlus
(#111) et, si besoin, placez des suppressions ou des contraintes dans le TextEncodeQwenImageEditPlus
(#110) associé. Référez-vous explicitement aux sources, par exemple : "Le chien de l'image 1 porte le chapeau vert de l'image 2 et les lunettes de l'image 3." Pour une taille de sortie personnalisée, vous pouvez remplacer le latent encodé par EmptySD3LatentImage
(#112). Les résultats sont décodés par VAEDecode
(#8) et sauvegardés avec SaveImage
(#60).
Choisissez ceci lorsque vous souhaitez des nettoyages ciblés, des changements d'arrière-plan ou des ajustements de style sur une image. Le modèle est chargé par NunchakuQwenImageDiTLoader
(#120), adapté par ModelSamplingAuraFlow
(#125) et CFGNorm
(#123), et échantillonné par KSampler
(#127). Importez votre photo avec LoadImage
(#129); elle est normalisée par ImageScaleToTotalPixels
(#130) et encodée par VAEEncode
(#131).
Fournissez votre instruction dans TextEncodeQwenImageEdit
(#121) et un contre-guidage optionnel dans TextEncodeQwenImageEdit
(#122) pour garder ou supprimer des éléments. La branche décode avec VAEDecode
(#124) et écrit les fichiers via SaveImage
(#128).
Utilisez cette branche pour créer de nouvelles images à partir de zéro avec le modèle de base. NunchakuQwenImageDiTLoader
(#146) alimente ModelSamplingAuraFlow
(#138). Entrez vos instructions positives et négatives dans CLIPTextEncode
(#143) et CLIPTextEncode
(#137). Définissez votre toile avec EmptySD3LatentImage
(#136), puis générez avec KSampler
(#141), décodez en utilisant VAEDecode
(#142), et sauvegardez avec SaveImage
(#147).
NunchakuQwenImageDiTLoader
(#115)
Charge les poids d'image Qwen et la variante utilisée par la branche. Sélectionnez le modèle d'édition pour les éditions guidées par photo ou le modèle de base pour le texte à image. Lorsque la VRAM le permet, des variantes de plus haute précision ou de plus haute résolution peuvent offrir plus de détails; les variantes plus légères privilégient la vitesse.
TextEncodeQwenImageEditPlus
(#111)
Conduit les éditions multi-image en analysant votre instruction et en la liant à jusqu'à trois références. Gardez les directives explicites sur quelle image contribue à quel attribut. Utilisez des phrases concises et évitez les objectifs contradictoires pour garder les éditions concentrées.
TextEncodeQwenImageEditPlus
(#110)
Agit comme l'encodeur négatif ou de contrainte associé pour la branche multi-image. Utilisez-le pour exclure des objets, styles, ou artefacts que vous ne souhaitez pas voir apparaître. Cela aide souvent à préserver la composition tout en supprimant les superpositions d'interface utilisateur ou les accessoires indésirables.
TextEncodeQwenImageEdit
(#121)
Instruction positive pour la branche d'édition d'image unique. Décrivez le résultat souhaité, les qualités de surface, et la composition en termes clairs. Visez une à trois phrases qui spécifient la scène et les changements.
TextEncodeQwenImageEdit
(#122)
Invite négative ou de contrainte pour la branche d'édition d'image unique. Listez les éléments ou caractéristiques à éviter, ou décrivez les éléments à supprimer de l'image source. Ceci est utile pour nettoyer le texte errant, les logos, ou les éléments d'interface.
ImageScaleToTotalPixels
(#93)
Empêche les entrées surdimensionnées de déstabiliser les résultats en redimensionnant à un nombre total de pixels cible. Utilisez-le pour harmoniser les résolutions sources disparates avant de composer. Si vous remarquez une netteté incohérente entre les sources, rapprochez-les en taille effective ici.
ModelSamplingAuraFlow
(#66)
Applique un calendrier d'échantillonnage DiT/flow-matching ajusté pour les modèles d'image Qwen. Si les sorties semblent sombres, floues, ou manquent de structure, augmentez le décalage du calendrier pour stabiliser le ton global; si elles semblent plates, réduisez le décalage pour rechercher des détails supplémentaires.
KSampler
(#3)
Le principal échantillonneur où vous équilibrez la vitesse, la fidélité, et la variété stochastique. Ajustez les étapes et l'échelle de guidage pour la cohérence contre la créativité, choisissez une méthode d'échantillonnage, et verrouillez une graine lorsque vous souhaitez une reproductibilité exacte entre les exécutions.
CFGNorm
(#75)
Normalise le guidage sans classificateur pour réduire la sursaturation ou les explosions de contraste à des échelles de guidage plus élevées. Laissez-le sur le chemin tel que fourni; il aide à maintenir une couleur et une exposition stables pendant que vous itérez sur les instructions.
ModelSamplingAuraFlow
vers le haut; lorsque vous voulez une texture supplémentaire, essayez un décalage légèrement plus bas.EmptySD3LatentImage
dans la branche que vous utilisez.Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Nunchaku pour le workflow Qwen-Image (ComfyUI-nunchaku) pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et termes respectifs fournis par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.