ERNIE-Image ComfyUI : génération d'images à partir de texte avec rendu textuel net
Ce workflow ERNIE-Image ComfyUI transforme de courtes invites en images de haute qualité qui suivent les instructions et rendent le texte de manière fiable. Il combine le modèle de diffusion ERNIE-Image de Comfy-Org avec un encodeur de texte puissant, un amplificateur d'invite optionnel, et un VAE Flux2 moderne pour préserver le détail et la typographie.
Conçu pour une itération rapide, ERNIE-Image ComfyUI accepte votre invite, l'élargit éventuellement pour un guidage plus riche, l'encode, échantillonne avec ERNIE-Image, et décode vers une image finale. Le chemin d'amélioration de l'invite est inclus et activable, vous permettant de comparer les invites originales et améliorées sans changer le graphe.
Modèles clés dans le workflow Comfyui ERNIE-Image ComfyUI
- Modèle de diffusion ERNIE-Image. Le générateur principal qui débruite les latents en images, ajusté pour suivre les instructions et rendre le texte. Model card
- Encodeur de texte Ministral-3-3B. L'encodeur de texte principal qui convertit votre invite en conditionnement pour ERNIE-Image. File
- Amplificateur d'invite ERNIE-Image. Un encodeur auxiliaire utilisé par la branche d'amélioration pour transformer des invites concises en guidage descriptif. File
- Flux2 VAE. Le décodeur qui transforme les latents de l'échantillonneur en pixels tout en préservant le détail fin et le texte lisible. File
Comment utiliser le workflow Comfyui ERNIE-Image ComfyUI
À un niveau élevé, votre invite passe par une étape d'amélioration optionnelle, est encodée, puis échantillonnée par ERNIE-Image en latents qui sont finalement décodés par Flux2 VAE et sauvegardés. Les groupes ci-dessous se rapportent directement au graphe afin que vous sachiez toujours où ajuster les entrées.
Invite
Écrivez ce que vous voulez voir dans le champ prompt de niveau supérieur du sous-graphe ERNIE-Image ComfyUI. Un phrasé clair et directif fonctionne mieux pour suivre les instructions et rendre le texte. Vous pouvez inclure du texte entre guillemets que vous souhaitez dessiner dans l'image. Le conditionnement positif est construit à partir de cette invite ; le chemin négatif commence vide, donc les résultats ont tendance à être fidèles à moins que vous n'ajoutiez vos propres négatifs plus tard.
Amélioration de l'invite
Activez ou désactivez le chemin d'amélioration en utilisant Enable prompt enhancement? (#76). Lorsqu'il est activé, votre bref court est élargi par TextGenerate (#74) utilisant l'amplificateur d'invite ERNIE-Image chargé via Load CLIP (PE) (#91). L'amplificateur utilise une instruction structurée pour enrichir votre invite et passe également la largeur et la hauteur cibles pour encourager une composition cohérente. ComfySwitchNode (#75) dirige soit le texte original soit le texte amélioré en aval pour que vous puissiez tester facilement en A/B. Pour une compatibilité large, le basculement est désactivé par défaut ; activez-le une fois le modèle d'amplification présent.
Modèle
Le workflow charge trois actifs : UNETLoader (#66) sélectionne le modèle de diffusion ERNIE-Image, CLIPLoader (#62) apporte l'encodeur de texte Ministral-3-3B, et VAELoader (#63) fournit le Flux2 VAE. Cette combinaison donne à ERNIE-Image ComfyUI une forte adhérence aux instructions et une typographie propre. Si vous échangez un modèle, gardez le trio coordonné pour éviter les incompatibilités.
Taille de l'image
EmptyFlux2LatentImage (#71) définit la toile. Définissez la largeur et la hauteur pour le rapport d'aspect souhaité ; les paysages, les portraits et les graphiques carrés fonctionnent tous. Ces dimensions sont également injectées dans l'invite d'amélioration lorsque le basculement est activé, ce qui aide le modèle à planifier la mise en page et le placement du texte. Les tailles plus grandes coûtent plus de calcul ; pour des aperçus rapides, utilisez des dimensions plus petites, puis agrandissez plus tard si nécessaire.
Texte à image
CLIPTextEncode (#67) transforme votre invite acheminée en conditionnement positif, tandis que CLIPTextEncode (#72) fournit la branche négative (laissée vide par défaut). KSampler (#70) génère ensuite des latents en utilisant le modèle ERNIE-Image et votre conditionnement. Après l'échantillonnage, VAEDecode (#65) convertit les latents en pixels RGB. Tout est câblé pour une génération en un clic, donc une fois vos entrées définies, il suffit de mettre en file d'attente le travail et de regarder l'aperçu.
Sortie
L'image est sauvegardée par SaveImage (#73). Vous la verrez apparaître dans l'aperçu de l'interface utilisateur et dans votre répertoire de sortie. Utilisez des graines cohérentes lorsque vous comparez l'amélioration activée ou désactivée pour isoler l'effet de la branche textuelle.
Nœuds clés dans le workflow Comfyui ERNIE-Image ComfyUI
KSampler (#70) Le générateur principal qui contrôle la trajectoire de diffusion. Ajustez steps pour la qualité par rapport à la vitesse, utilisez cfg pour resserrer ou détendre l'adhérence à l'invite, et définissez une seed fixe pour la reproductibilité entre les variantes d'invite. Un guidage plus élevé peut affiner la conformité mais peut réduire la créativité ; équilibrez à votre goût. Consultez les références de l'échantillonneur ComfyUI pour le comportement général. ComfyUI
UNETLoader (#66) Charge le modèle de diffusion ERNIE-Image qui débruite réellement les latents en une image. Gardez cela réglé sur le point de contrôle ERNIE-Image pour bénéficier du suivi des instructions et du rendu textuel. Si vous changez de modèle, attendez-vous à des changements dans le style et la capacité typographique. ERNIE-Image
CLIPLoader (#62) Fournit l'encodeur de texte Ministral-3-3B utilisé pour le chemin de conditionnement principal. L'échange d'encodeurs change la façon dont le langage se traduit en visuels ; pour un suivi fidèle des instructions, gardez-le aligné avec la pile ERNIE-Image. Ce nœud affecte à la fois les encodeurs positifs et négatifs en aval. Ministral-3-3B file
VAELoader (#63) Fournit le Flux2 VAE utilisé lors du décodage. Un VAE apparié préserve la fidélité des couleurs et des contours et aide à garder le texte rendu net. Utilisez ceci lors de la génération avec ERNIE-Image pour de meilleurs résultats. Flux2 VAE file
EmptyFlux2LatentImage (#71) Initialise une toile latente vide à votre résolution choisie. Cela définit la taille finale de l'image et guide subtilement la mise en page. La modification des dimensions mettra également à jour l'instruction interne de l'amplificateur lorsque ce chemin est actif.
CLIPTextEncode (#67) Encode l'invite acheminée finale en conditionnement positif. Pour améliorer le rendu textuel, incluez les mots exacts que vous souhaitez voir apparaître entre guillemets et spécifiez la casse si elle est importante. Gardez les instructions concises et concrètes pour une meilleure conformité.
CLIPTextEncode (#72) Encode l'invite négative. Elle est vide par défaut pour garder les sorties proches de votre intention. Si vous remarquez des artefacts indésirables, ajoutez quelques termes négatifs concis ici.
TextGenerate (#74) Génère une description élargie en utilisant l'amplificateur d'invite ERNIE-Image chargé par Load CLIP (PE) (#91). Utile pour transformer de brefs résumés en directions visuelles riches qui améliorent la composition et le détail. Gardez le basculement d'amélioration désactivé pour un contrôle littéral, activé pour une variété descriptive. Prompt Enhancer file
ComfySwitchNode (#75) Dirige soit l'invite originale soit l'invite améliorée vers l'avant en fonction de Enable prompt enhancement? (#76). Cela rend le test A/B trivial sans changer les connexions. Utilisez une seed fixe lors de la comparaison pour isoler les différences uniquement dues à l'invite.
VAEDecode (#65) Décode le latent final en une image en utilisant Flux2 VAE. Cette étape influence fortement la couleur, la clarté et la lisibilité des petits textes. Gardez-le apparié avec le Flux2 VAE de la pile ERNIE-Image.
SaveImage (#73) Écrit l'image générée sur le disque et l'expose dans l'interface utilisateur. Utilisez des conventions de nommage cohérentes si vous prévoyez de comparer plusieurs exécutions ERNIE-Image ComfyUI.
Extras optionnels
- Pour un lettrage net, mettez les mots exacts entre guillemets et spécifiez des indices de style comme "étiquette en serif gras" ou "étiquette manuscrite" ; ERNIE-Image ComfyUI est optimisé pour le rendu textuel.
- Utilisez des directives claires telles que "photo de produit centrée", "fond blanc" ou "mise en page d'affiche 2:3" afin qu'ERNIE-Image ComfyUI puisse suivre les instructions avec précision.
- Lors de la comparaison du chemin d'amélioration, verrouillez la
seedet ne changez que le basculement d'amélioration pour voir les vraies différences A/B. - Choisissez un rapport d'aspect qui correspond à la scène ; ERNIE-Image ComfyUI respectera les indices de taille et planifiera la mise en page en conséquence.
Remerciements
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Comfy-Org pour ERNIE-Image (fichiers et actifs de modèle reconditionnés), Baidu pour le modèle original ERNIE-Image, et l'équipe ComfyUI pour l'exemple de workflow ERNIE-Image ComfyUI pour leurs contributions et leur maintenance. Pour des détails autoritatifs, veuillez vous référer à la documentation et aux dépôts d'origine liés ci-dessous.
Ressources
- ComfyUI/ERNIE-Image ComfyUI workflow source
- GitHub: comfy-org/docs
- Docs / Release Notes: ERNIE-Image ComfyUI workflow example
- Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
- Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
- Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
- Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
- Comfy-Org/flux2-vae.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: flux2-vae.safetensors
Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.



