Qwen Image Edit 2511 pour ComfyUI : édition d'image unique basée sur l'instruction et référence multi-image
Ce flux de travail apporte Qwen Image Edit 2511 à ComfyUI pour une édition précise basée sur l'instruction qui préserve la structure et l'identité de vos images sources. Il prend en charge à la fois l'édition d'image unique et les cas d'utilisation de référence multi-image, permettant le transfert de style, le remplacement de matériau ou d'objet, les changements d'attributs, et une amélioration visuelle propre avec des résultats naturels et cohérents.
Construit sur un encodeur vision-langage plus un transformateur de diffusion, le graphe convertit des instructions en anglais simple en édition d'image cohérente. Un Lightning LoRA optionnel rend les générations de Qwen Image Edit 2511 rapides sans sacrifier l'alignement, afin que les artistes et les équipes produit puissent itérer rapidement sur l'édition créative d'images, le restylage de personnages, et le raffinement de contenu professionnel.
Vous voulez une expérience plus simple, sans nœuds ? Essayez la version Playground pour explorer Qwen Image Edit 2511 Playground sans utiliser les nœuds ComfyUI—il suffit de télécharger une image et de l'éditer avec des instructions textuelles.
Modèles clés dans le flux de travail ComfyUI Qwen Image Edit 2511
- Qwen‑Image‑Edit‑2511. Le transformateur de diffusion central pour l'édition avec une cohérence améliorée par rapport à 2509, conçu pour suivre les instructions tout en maintenant l'identité et la géométrie stables. Hugging Face: Qwen/Qwen-Image-Edit-2511
- Qwen2.5‑VL‑7B‑Instruct. L'encodeur vision-langage utilisé comme base de compréhension texte/image; il aligne vos instructions avec le contexte visuel pour une édition basée sur l'instruction. Hugging Face: Qwen/Qwen2.5-VL-7B-Instruct
- Qwen Image VAE. L'autoencodeur variationnel correspondant qui cartographie l'espace des pixels et l'espace latent du modèle pour une reconstruction fidèle. (Fichiers fournis via le package Comfy‑Org.) Hugging Face: Comfy-Org/Qwen-Image_ComfyUI
- Qwen‑Image‑Edit‑2511‑Lightning (optionnel). Un LoRA d'accélération en 4 étapes qui accélère significativement l'échantillonneur tout en gardant les éditions sur le sujet; activez lorsque vous souhaitez des aperçus rapides ou une édition d'image unique en quasi-temps réel. Hugging Face: lightx2v/Qwen-Image-Edit-2511-Lightning
Comment utiliser le flux de travail ComfyUI Qwen Image Edit 2511
Ce graphe contient deux pistes parallèles : “Multiple Images” pour le transfert d'attribut/matériau entre images et “Single Image” pour l'édition directe basée sur l'instruction. Les deux pistes partagent les mêmes chargeurs de modèle et la logique de l'échantillonneur, et se terminent par des nœuds d'aperçu et de sauvegarde. Choisissez la piste qui correspond à votre tâche, écrivez une instruction claire, et mettez la course en file d'attente.
Multiple Images › Charger l'image
Utilisez ce groupe pour charger deux images de référence : la première est votre base à éditer et la seconde fournit l'apparence, le matériau ou les attributs à transférer. Les images sont redimensionnées automatiquement à des tailles de travail équilibrées pour préserver la mise en page et éviter les artefacts pendant la diffusion. Si possible, choisissez des références avec un cadrage ou un point de vue similaire pour améliorer l'alignement. Ce chemin prend en charge des tâches comme “remplacer le matériau de la chaise dans l'image de gauche par celui de l'image de droite” tout en conservant la forme et la structure.
Multiple Images › Invite
Composez une instruction courte et explicite qui décrit l'objectif de l'édition et comment la seconde image doit influencer la première. Par exemple : “Remplacer le matériau de la chaise de la Figure 1 par le cuir de la Figure 2, garder le cadre inchangé, correspondre à l'éclairage.” L'instruction est transmise à un encodeur Qwen2.5‑VL qui ancre le texte dans les visuels chargés pour une édition d'image fiable. Évitez les objectifs contradictoires; spécifiez ce qui doit rester inchangé pour des résultats sûrs pour l'identité.
Multiple Images › Charger les modèles
Ce groupe charge le modèle de diffusion Qwen Image Edit 2511, l'encodeur Qwen2.5‑VL, et le VAE Qwen Image. Vous pouvez activer en option le Lightning LoRA pour accélérer l'édition tout en gardant le suivi des instructions robuste. Laissez les choix de modèle tels que fournis par le modèle à moins que vous n'ayez une raison de changer de variantes.
Multiple Images › KSampler et sortie
L'échantillonneur réalise une diffusion contrôlée pour concrétiser l'édition demandée, en utilisant le conditionnement positif de l'instruction et un conditionnement négatif mis à zéro pour réduire les changements non désirés. Le résultat est décodé par le VAE et automatiquement concaténé avec les références pour un aperçu côte à côte, ce qui facilite la vérification que l'édition d'image unique a suivi votre instruction. Enregistrez le composite ou juste l'image éditée selon les besoins.
Single Image › Charger l'image
Déposez une image source à éditer. Une étape de mise à l'échelle la prépare à la taille de travail cible afin que la composition reste stable et que les petits détails restent nets. C'est le chemin le plus propre pour l'édition basée sur l'instruction lorsque vous n'avez pas besoin d'une image donneuse de style ou de matériau.
Single Image › Invite
Écrivez une instruction directe qui nomme le sujet et le changement exact. Les bons modèles incluent “garder X, changer Y,” “améliorer Z,” ou “restyler en [style] avec la même composition.” L'instruction est fusionnée avec le contexte visuel par l'encodeur afin que le modèle de diffusion puisse appliquer une édition d'image unique précise tout en préservant l'identité et la géométrie.
Single Image › Charger les modèles
Les chargeurs de modèle initialisent Qwen Image Edit 2511, Qwen2.5‑VL, et le VAE. Activez en option le Lightning LoRA pour des aperçus plus rapides et une itération rapide. Si vous désactivez le LoRA, le modèle de base donnera la priorité à la fidélité et à la cohérence maximales.
Single Image › KSampler et sortie
L'échantillonneur exécute votre édition avec un conditionnement dérivé de l'encodeur puis décode en une image. Utilisez l'aperçu pour évaluer si l'édition a satisfait l'instruction sans dériver de l'aspect original. Enregistrez l'image finale lorsque vous êtes satisfait.
Nœuds clés dans le flux de travail ComfyUI Qwen Image Edit 2511
TextEncodeQwenImageEditPlusAdvance_lrzjason (#13, #64)
- Rôle : Emballe votre instruction avec une ou plusieurs images de référence dans le conditionnement qui guide Qwen Image Edit 2511. Pour les tâches multi-image, référez-vous explicitement aux première et deuxième images dans l'instruction pour contrôler ce qui est transféré. Si vous voyez une sur-édition, rendez l'instruction plus contrainte (par exemple, “ne pas changer la pose ou l'éclairage”) et gardez la description ancrée aux objets réels dans l'image.
KSampler (#48, #72)
- Rôle : Conduit le processus de diffusion qui transforme le conditionnement en l'édition finale. Avec le Lightning LoRA activé, utilisez très peu d'étapes avec une faible guidance pour la vitesse; sans cela, augmentez les étapes pour une fidélité maximale. Si les résultats dérivent, réduisez la guidance; si le changement est trop subtil, ajoutez un peu plus de guidance ou d'étapes.
LoraLoaderModelOnly (#49, #68)
- Rôle : Injecte le Qwen‑Image‑Edit‑2511‑Lightning LoRA pour une accélération en 4 étapes. Gardez le poids autour de son défaut pour des résultats fidèles, et désactivez-le lorsque vous souhaitez comparer avec la qualité du modèle de base ou affiner une édition délicate.
FluxKontextImageScale (#5, #6, #62)
- Rôle : Redimensionne les entrées à des tailles de travail stables afin que l'encodeur et l'échantillonneur voient un contexte spatial cohérent. Laissez-le activé pour la plupart des cas; si vous devez préserver exactement la résolution originale, ajustez ici d'abord puis affinez avec l'échantillonneur.
Extras optionnels
- Écrivez des instructions qui nomment le sujet et la portée : “changer la couleur de la veste en bleu marine, garder la texture du tissu et l'éclairage” donne une édition d'image plus fiable que des invites de style vagues.
- Pour le transfert multi-image, choisissez des donneurs avec un point de vue et un éclairage similaires à l'image de base; cela améliore l'appariement du matériau et du style.
- Lors de l'activation de Lightning pour des aperçus rapides, confirmez le final avec une exécution standard si vous avez besoin de la fidélité la plus élevée possible.
- Si une édition touche trop de cadre, ajoutez des contraintes comme “garder l'arrière-plan inchangé” ou “préserver les traits du visage” pour resserrer le comportement de l'édition d'image unique.
Références
- Carte du modèle Qwen‑Image‑Edit‑2511: Hugging Face
- Qwen2.5‑VL‑7B‑Instruct: Hugging Face
- Qwen Image VAE et fichiers emballés pour ComfyUI: Hugging Face
- Qwen‑Image‑Edit‑2511‑Lightning LoRA: Hugging Face
- Rapport technique Qwen‑Image: arXiv
Remerciements
Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Qwen pour le modèle Qwen-Image-Edit-2511 pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources
- Qwen/Qwen-Image-Edit-2511
- GitHub: QwenLM/Qwen-Image
- Hugging Face: Qwen/Qwen-Image-Edit-2511
- arXiv: 2508.02324
Note: L'utilisation des modèles, des ensembles de données, et du code référencés est soumise aux licences et termes respectifs fournis par leurs auteurs et mainteneurs.


