ERNIE-Image ComfyUI: 遵循指令的文本到图像,具有清晰的文本渲染
此 ERNIE-Image ComfyUI 工作流将简短的提示转换为高质量的图像,遵循指令并可靠地渲染文本。它结合了 Comfy-Org 的 ERNIE-Image 扩散模型、强大的文本编码器、可选的提示增强器和现代的 Flux2 VAE,以保留细节和排版。
设计用于快速迭代,ERNIE-Image ComfyUI 接受您的提示,可选地扩展以提供更丰富的指导,编码它,使用 ERNIE-Image 采样,并解码为最终图像。提示增强路径是可切换的,因此您可以在不更改图形的情况下比较原始提示和增强提示。
Comfyui ERNIE-Image ComfyUI 工作流中的关键模型
- ERNIE-Image 扩散模型。核心生成器,将潜在变量去噪为图像,调优以遵循指令和文本渲染。模型卡
- Ministral-3-3B 文本编码器。将您的提示转换为 ERNIE-Image 条件的主要文本编码器。文件
- ERNIE-Image 提示增强器。增强分支使用的辅助编码器,将简洁的提示扩展为描述性指导。文件
- Flux2 VAE。将采样器的潜在变量转换为像素,同时保留细节和可读文本的解码器。文件
如何使用 Comfyui ERNIE-Image ComfyUI 工作流
在高层次上,您的提示通过可选的增强步骤进行流动,编码,然后由 ERNIE-Image 采样为潜在变量,最后由 Flux2 VAE 解码并保存。下面的组直接映射到图形,因此您始终知道在哪里调整输入。
提示
在 ERNIE-Image ComfyUI 子图的顶层 "prompt" 字段中写下您想看到的内容。清晰、指令性的措辞最适合指令遵循和文本渲染。您可以包括想要在图像中绘制的引用文本。正面条件是从这个提示构建的;负面路径从空开始,因此结果往往是忠实的,除非您后来添加自己的负面。
提示增强
使用 Enable prompt enhancement? (#76) 打开或关闭增强路径。开启时,您的简短简报将通过 TextGenerate (#74) 使用加载的 ERNIE-Image 提示增强器扩展为丰富的指导。增强器使用结构化指令丰富您的提示,并传递目标宽度和高度以鼓励连贯的构图。ComfySwitchNode (#75) 将原始或增强的文本路由到下游,以便您可以轻松进行 A/B 测试。为了广泛的兼容性,默认关闭切换;一旦增强器模型存在,启用它。
模型
工作流加载三个资产:UNETLoader (#66) 选择 ERNIE-Image 扩散模型,CLIPLoader (#62) 引入 Ministral-3-3B 文本编码器,VAELoader (#63) 提供 Flux2 VAE。这种组合赋予 ERNIE-Image ComfyUI 强大的指令遵循和干净的排版。如果您更换任何模型,请保持三者协调以避免不匹配。
图像尺寸
EmptyFlux2LatentImage (#71) 定义画布。设置您想要的宽度和高度的纵横比;风景、肖像和方形图形都可以。这些尺寸也会在切换开启时注入到增强提示中,这有助于模型规划布局和文本放置。较大的尺寸花费更多计算;对于快速预览,请使用较小的尺寸,然后根据需要进行放大。
文本到图像
CLIPTextEncode (#67) 将您的路由提示转换为正面条件,而 CLIPTextEncode (#72) 提供负面分支(默认留空)。KSampler (#70) 然后使用 ERNIE-Image 模型和您的条件生成潜在变量。采样后,VAEDecode (#65) 将潜在变量转换为 RGB 像素。一切都为一键生成做好了准备,因此一旦您的输入设置好,只需排队作业并观看预览。
输出
图像由 SaveImage (#73) 保存。您将在 UI 预览中和输出目录中看到它。使用一致的种子在比较增强开启与关闭时隔离文本分支的影响。
Comfyui ERNIE-Image ComfyUI 工作流中的关键节点
KSampler (#70) 控制扩散轨迹的主要生成器。调整 steps 以获得质量与速度之间的平衡,使用 cfg 来收紧或放松提示遵循,并设置固定的 seed 以在提示变体之间实现可重现性。更高的指导可以增强合规性,但可能会降低创造力;根据口味平衡。请参阅 ComfyUI 的采样器参考以了解一般行为。ComfyUI
UNETLoader (#66) 加载 ERNIE-Image 扩散模型,该模型实际将潜在变量去噪为图像。保持此设置为 ERNIE-Image 检查点以受益于指令遵循和文本渲染。如果您更换模型,预期风格和排版能力会有所变化。ERNIE-Image
CLIPLoader (#62) 提供用于主条件路径的 Ministral-3-3B 文本编码器。更换编码器会改变语言如何映射到视觉;为了忠实的指令遵循,请保持与 ERNIE-Image 堆栈对齐。此节点影响下游的正面和负面编码器。Ministral-3-3B 文件
VAELoader (#63) 在解码过程中提供使用的 Flux2 VAE。匹配的 VAE 保留颜色和边缘保真度,并有助于保持渲染文本的清晰。生成 ERNIE-Image 时使用此选项以获得最佳效果。Flux2 VAE 文件
EmptyFlux2LatentImage (#71) 在您选择的分辨率下初始化一个空的潜在画布。此设置最终图像尺寸,并微妙地指导布局。当该路径处于活动状态时,更改尺寸也会更新增强器的内部指令。
CLIPTextEncode (#67) 将最终路由的提示编码为正面条件。为了改善文本渲染,请包括您希望出现的确切文字并指定大小写(如果重要)。保持指令简洁具体以获得最佳合规性。
CLIPTextEncode (#72) 编码负面提示。默认情况下为空,以使输出接近您的意图。如果您注意到不需要的伪影,请在此添加一些简洁的负面术语。
TextGenerate (#74) 使用 Load CLIP (PE) (#91) 加载的 ERNIE-Image 提示增强器生成扩展描述。用于将简短的简报转化为丰富的视觉指导,以改善构图和细节。保持增强切换关闭以进行字面控制,开启以获得描述性多样性。提示增强器文件
ComfySwitchNode (#75) 根据 Enable prompt enhancement? (#76) 将原始或增强的提示向前路由。这使得 A/B 测试变得简单,而无需更改连接。比较时使用固定的 seed 以隔离仅提示的差异。
VAEDecode (#65) 使用 Flux2 VAE 将最终潜在变量解码为图像。此步骤强烈影响颜色、清晰度以及小文本的读取效果。保持它与 ERNIE-Image 堆栈中的 Flux2 VAE 配对。
SaveImage (#73) 将生成的图像写入磁盘并在 UI 中显示。计划对多个 ERNIE-Image ComfyUI 运行进行基准测试时,请使用一致的命名约定。
可选额外功能
- 为了获得清晰的字母,请将确切的单词放在引号中并指定样式提示,如“粗体衬线标签”或“手写标签”;ERNIE-Image ComfyUI 经过优化以进行文本渲染。
- 使用清晰的指令,如“居中产品照片”、“白色背景”或“2:3 海报布局”,以便 ERNIE-Image ComfyUI 可以精确遵循指令。
- 比较增强路径时,请锁定
seed并仅切换增强选项以查看真实的 A/B 差异。 - 选择与场景匹配的纵横比;ERNIE-Image ComfyUI 将尊重尺寸提示并相应地计划布局。
致谢
此工作流实现并建立在以下作品和资源之上。我们对 Comfy-Org 的 ERNIE-Image(重新打包的模型文件和资产)、百度的原始 ERNIE-Image 模型以及 ComfyUI 团队的 ERNIE-Image ComfyUI 工作流示例的贡献和维护表示感谢。有关权威详细信息,请参阅以下链接的原始文档和存储库。
资源
- ComfyUI/ERNIE-Image ComfyUI 工作流源
- GitHub: comfy-org/docs
- 文档 / 发布说明: ERNIE-Image ComfyUI 工作流示例
- Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
- Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
- Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
- Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
- Comfy-Org/flux2-vae.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: flux2-vae.safetensors
注意: 使用引用的模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。




