logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>工作流>Hunyuan Image 2.1 | 高分辨率AI图像生成器

Hunyuan Image 2.1 | 高分辨率AI图像生成器

Workflow Name: RunComfy/Hunyuan-Image-2-1
Workflow ID: 0000...1291
此工作流帮助您使用高级提示控制创建超高清2K视觉效果。专为文本到图像生成而构建,它在保持高效的同时增强了清晰度、细节和构图。您可以生成复杂的场景、角色和风格化创作,并具有丰富的准确性。多语言提示和优化阶段确保输出更为清晰。其设计使您能够在不需要大量计算成本的情况下产生精致、专业级的结果。非常适合寻求快速、精确和视觉上引人注目的创作者。

使用Hunyuan Image 2.1在ComfyUI中生成原生2K图像

此工作流使用Hunyuan Image 2.1将您的提示转化为清晰的原生2048×2048渲染。它将腾讯的扩散变换器与双文本编码器结合,以提升语义对齐和文本渲染质量,然后高效采样并通过匹配的高压缩VAE解码。如果您需要生产就绪的场景、角色和图像中的清晰文本,同时保持速度和控制,这个ComfyUI Hunyuan Image 2.1工作流就是为您而建。

创作者、艺术总监和技术艺术家可以插入多语言提示,微调几个旋钮,并始终获得清晰的结果。图形附带合理的负面提示、原生2K画布和FP8 UNet以控制VRAM,展示Hunyuan Image 2.1开箱即用的能力。

Comfyui Hunyuan Image 2.1工作流中的关键模型

  • HunyuanImage‑2.1 by Tencent。基础文本到图像模型,具有扩散变换器骨干、双文本编码器、32× VAE、RLHF后训练和高效采样的meanflow蒸馏。链接:Hugging Face · GitHub
  • Qwen2.5‑VL‑7B‑Instruct。多模态视觉语言编码器,用作语义文本编码器,以提高复杂场景和语言的提示理解。链接:Hugging Face
  • ByT5 Small。无标记字节级编码器,增强字符和字形处理,以便在图像中渲染文本。链接:Hugging Face · Paper

如何使用Comfyui Hunyuan Image 2.1工作流

图形从提示到像素遵循清晰的路径:使用两个编码器编码文本,准备原生2K潜在画布,使用Hunyuan Image 2.1采样,通过匹配的VAE解码并保存输出。

使用双编码器进行文本编码

  • DualCLIPLoader (#33) 加载配置为Hunyuan Image 2.1的Qwen2.5‑VL‑7B和ByT5 Small。这种双重设置使模型可以解析场景语义,同时对字形和多语言文本保持强大。
  • 在CLIPTextEncode (#6)中输入您的主要描述。您可以用英语或中文书写,混合相机提示和照明,并包含图像中的文本指示。
  • 在CLIPTextEncode (#7)中使用现成的负面提示抑制常见的伪影。您可以根据自己的风格调整它,或者保持原样以获得平衡的结果。

原生2K的潜在画布

  • EmptyHunyuanImageLatent (#29) 使用单批次在2048×2048初始化画布。Hunyuan Image 2.1专为2K生成而设计,因此建议使用原生2K尺寸以获得最佳质量。
  • 如有需要,调整宽度和高度,保持Hunyuan支持的长宽比。对于替代长宽比,请坚持使用对模型友好的尺寸以避免伪影。

使用Hunyuan Image 2.1进行高效采样

  • UNETLoader (#37) 加载FP8检查点以减少VRAM,同时保持保真度,然后将其馈送给KSampler (#3)进行去噪。
  • 使用编码器的正面和负面条件来引导构图和清晰度。调整种子以获得多样性,步骤以平衡质量与速度,指导以确保提示的遵循。
  • 工作流专注于基础模型路径。Hunyuan Image 2.1还支持精炼阶段;如果您想要额外的润色,可以稍后添加一个。

解码和保存

  • VAELoader (#34) 引入Hunyuan Image 2.1 VAE,VAEDecode (#8) 使用模型的32×压缩方案从采样的潜在中重建最终图像。
  • SaveImage (#9) 将输出写入您选择的目录。如果您计划跨种子或提示进行迭代,请设置清晰的文件名前缀。

Comfyui Hunyuan Image 2.1工作流中的关键节点

DualCLIPLoader (#33)

此节点加载Hunyuan Image 2.1预期的文本编码器对。保持模型类型设置为Hunyuan,并选择Qwen2.5‑VL‑7B和ByT5 Small,以结合强大的场景理解和字形感知的文本处理。如果您在风格上进行迭代,请调整正面提示与指导同步,而不是更换编码器。

CLIPTextEncode (#6和#7)

这些节点将您的正面和负面提示转化为条件。保持正面提示简洁在上方,然后添加镜头、照明和风格提示。使用负面提示抑制诸如多余肢体或噪声文本等伪影;如果您认为它对您的概念过于限制,请修剪它。

EmptyHunyuanImageLatent (#29)

定义工作分辨率和批次。默认的2048×2048与Hunyuan Image 2.1的原生2K能力对齐。对于其他长宽比,请选择对模型友好的宽度和高度对,并考虑在您远离方形时稍微增加步骤。

KSampler (#3)

驱动Hunyuan Image 2.1的去噪过程。当您需要更精细的微观细节时增加步骤,快速草稿时减少。提高指导以更强的提示遵循,但注意过饱和或刚性;降低以获得更自然的变化。切换种子以探索构图,而无需更改您的提示。

UNETLoader (#37)

加载Hunyuan Image 2.1 UNet。包含的FP8检查点保持2K输出的内存使用适中。如果您有充足的VRAM并希望最大限度地提供激进设置的空间,请考虑从官方发布中选择同一模型的更高精度变体。

VAELoader (#34) 和 VAEDecode (#8)

这些节点必须与Hunyuan Image 2.1版本匹配才能正确解码。模型的高压缩VAE是快速2K生成的关键;配对正确的VAE可以避免颜色偏移和块状纹理。如果您更改基础模型,请务必相应更新VAE。

可选扩展

  • 提示
    • Hunyuan Image 2.1对结构化提示反应良好:主题、动作、环境、相机、照明、风格。对于图像中的文本,引用您想要的确切单词并保持简短。
  • 速度和内存
    • FP8 UNet已经很高效。如果您需要进一步压缩,禁用大批次并偏爱较少的步骤。图中存在可选的GGUF加载器节点,但默认情况下已禁用;高级用户可以在实验量化检查点时将其交换。
  • 长宽比
    • 坚持使用原生2K友好的尺寸以获得最佳效果。如果您尝试宽幅或高幅格式,请验证干净的渲染并考虑小幅增加步骤。
  • 精炼
    • Hunyuan Image 2.1支持精炼阶段。要尝试,请在基础通道之后添加一个精炼检查点和轻微去噪的第二个采样器,以在提升微观细节的同时保持结构。
  • 参考
    • Hunyuan Image 2.1模型详细信息和下载:Hugging Face · GitHub
    • Qwen2.5‑VL‑7B‑Instruct: Hugging Face
    • ByT5 Small和论文: Hugging Face · Paper

鸣谢

此工作流实现并建立在以下作品和资源之上。我们感谢@Ai Verse和Hunyuan为Hunyuan Image 2.1 Demo的贡献和维护。有关权威详情,请参阅下面链接的原始文档和存储库。

资源

  • Hunyuan/Hunyuan Image 2.1 Demo
    • 文档/发布说明: Hunyuan Image 2.1 Demo tutorial from @Ai Verse

注意:使用所引用的模型、数据集和代码需遵守其作者和维护者提供的各自许可和条款。

Want More ComfyUI Workflows?

Flux Consistent Characters | Input Image

Flux Consistent Characters | Input Image

使用您的图像创建一致的角色,并确保它们看起来统一。

Consistent Character Creator

从多个角度创建一致的高分辨率角色设计,完全控制情感、照明和环境。

Flux Depth 和 Canny

官方 Flux 工具 - Flux Depth 和 Canny 控制网络模型

Flux UltraRealistic LoRA V2

Flux UltraRealistic LoRA V2

使用Flux UltraRealistic LoRA V2创建令人惊叹的逼真图像

Z-Depth Maps | Houdini 式动画

仅使用 2D 图像,通过 Z-Depth Maps 创建令人惊叹的 Houdini 式动画。

Mesh Graphormer ControlNet | 修复手部

Mesh Graphormer ControlNet | 修复手部

Mesh Graphormer ControlNet可以修正图像中畸形的手,同时保留其余部分。

BAGEL AI | T2I + I2T + I2I

使用开源 AI 的多模态理解与生成。

ComfyUI + TouchDesigner | 音频反应视觉效果

在 ComfyUI 中渲染视觉效果,并在 TouchDesigner 中同步音频,以实现动态的音频反应视频。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2025 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。