BAGEL AI | T2I + I2T + I2I
BAGEL AI 是一个开源多模态基础模型,具有 7B 活跃参数(总计 14B)和 Mixture-of-Transformer-Experts (MoT) 设计。BAGEL AI 专为多模态任务(如文本到图像生成、图像编辑和视觉问答)而构建,在基准测试中,其表现优于顶级开放 VLMs,如 Qwen2.5-VL 和 InternVL-2.5。它还提供与专业模型如 SD3 相媲美的高质量生成能力。 支持自然语言提示、复杂推理,以及对模型决策过程的可选透明度,BAGEL AI 为 ComfyUI 中的高级多模态工作流程提供了一体化解决方案。ComfyUI BAGEL AI 工作流程
ComfyUI BAGEL AI 示例







ComfyUI BAGEL AI 描述
BAGEL AI:用于 ComfyUI 的多模态基础模型
BAGEL (BAndwidth-efficient Generalist Expert Learner) AI 是一个强大的多模态基础模型,专为 图像生成 和 视觉-语言理解 设计。基于 14B 参数的 Transformer 专家混合体 (MoT) 架构—推理时 7B 活跃—BAGEL AI 在文本到图像生成、图像编辑和图像理解任务中提供了最先进的性能。
直接集成到 ComfyUI 中,BAGEL AI 允许创作者通过自然语言提示生成详细图像,使用文本指令编辑视觉内容,并执行多模态任务,如视觉问答、字幕生成和逐步推理。BAGEL AI 将扩散模型(如 Stable Diffusion 3)的质量与领先 VLMs 的分析能力相结合,优于如 Qwen2.5-VL 和 InternVL-2.5 的模型。
为什么使用 BAGEL AI?
BAGEL AI 工作流提供:
- 文本到图像生成:使用 BAGEL AI 从自然语言提示创建高质量图像
- 通过文本进行图像编辑:使用描述性指令修改现有图像,使用 BAGEL AI
- 图像理解:在 BAGEL AI 中执行图像字幕生成、问答和视觉分析任务
- 多模态推理:通过 BAGEL AI 启用视觉输入的逐步解释或分析
- 一体化基础模型:在 BAGEL AI 中使用单一的 14B MoT 架构进行多样化的多模态任务
借助 BAGEL AI,艺术家、研究人员和开发人员可以通过统一且可扩展的 ComfyUI 接口探索多模态 AI 的生成和分析能力,BAGEL AI 技术提供支持。
1 - 使用 BAGEL AI 进行文本到图像生成
使用自然语言提示生成图像
BAGEL AI 允许您直接从文本输入创建高质量图像。要开始使用 BAGEL AI:
- 在 BAGEL AI 中的
Prompt
输入节点中输入详细的 文本提示。 - 可选地在 BAGEL AI 中配置参数,如种子、长宽比或解码步骤。
- 运行 BAGEL AI 工作流以从 BAGEL 模型生成新图像。
此 BAGEL AI 功能非常适合于概念艺术、视觉创意、故事讲述或使用纯自然语言描述进行快速原型设计。
2 - 使用 BAGEL AI 进行图像理解和视觉问答
使用语言分析和理解图像
BAGEL AI 包含先进的多模态推理和理解功能,使 BAGEL AI 成为图像字幕生成、分析和问答的理想选择:
- 在 BAGEL AI 中上传要分析的 图像。
- 在 BAGEL AI 中键入有关图像的 问题或提示(例如,“这个人拿着什么?”,“描述这个场景。”)。
- BAGEL AI 系统根据图像内容返回视觉答案或推理轨迹。
此 BAGEL AI 功能特别适用于教育、内容标记、可访问性工作流或需要视觉基础的 AI 代理,利用 BAGEL AI 功能。
3 - 在 BAGEL AI 中使用文本指令编辑图像
通过基于提示的编辑修改现有图像
BAGEL AI 还支持通过其高级 BAGEL AI 接口进行基于提示的图像编辑。以下是使用 BAGEL AI 的方法:
- 在 BAGEL AI 输入节点中上传您的 原始图像。
- 在 BAGEL AI 中提供描述您想要的修改的 文本指令(例如,“添加日落背景”,“让它下雪”等)。
- 运行节点组以使用 BAGEL AI 处理应用您想要的编辑。
这允许艺术家和设计师通过简单的文本非破坏性地转换图像,而无需手动照片编辑,所有这些都由 BAGEL AI 技术提供支持。
致谢
用于 ComfyUI 的 BAGEL AI 工作流基于 ByteDance Seed 的开源 BAGEL-7B-MoT 模型。
ComfyUI 集成和 BAGEL AI 工作流设置由 neverbiasu 开发,提供无缝访问图像生成、编辑和理解功能,所有这些都在单一统一的 BAGEL AI 接口中实现。
GitHub 仓库:
BAGEL AI 模型信息
- 模型名称:ComfyUI BAGEL-7B-MoT
- 架构:为 BAGEL AI 优化的 Transformer 专家混合体 (MoT)
- 总参数:BAGEL AI 中的 14B(7B 活跃)
- ComfyUI 路径:
models/bagel/ComfyUI-BAGEL-7B-MoT/
- 自动下载:为 BAGEL AI 启用
- 手动下载: