Gemma 4 文本生成 ComfyUI 工作流:具有图像、视频和音频上下文的多模态文本#
这个 Gemma 4 文本生成 ComfyUI 工作流是一个紧凑的、适合 RunComfy 的模板,能够在理解图像和音频的同时生成高质量文本,并包括一个视频示例。它旨在快速迭代多模态提示、产品评论总结、内容分析和轻量级助手原型,在 ComfyUI 内部使用。
该图使用 ComfyUI 的本地 TextGenerate 和 CLIPLoader 运行 Gemma 4 E4B,并可选择性地输入图像、音频和视频。您可以保持简单的纯文本生成或附加媒体以指导模型的推理并产生更丰富的输出。
Comfyui Gemma 4 文本生成 ComfyUI 工作流中的关键模型#
- Gemma 4 E4B 指导多模态模型。提供具有视觉和音频理解的文本生成,用于简洁的答案、总结和分析。ComfyUI 的模型资产在社区包 Comfy-Org/gemma-4 下组织。
- Gemma 4 E4B 文本编码器 (FP8 scaled)。工作流加载打包的编码器权重
gemma4_e4b_it_fp8_scaled.safetensors,支持TextGenerate节点的语言和多模态输入。为本地用户提供的直接文件链接:`text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`。
如何使用 Comfyui Gemma 4 文本生成 ComfyUI 工作流#
总体逻辑:工作流加载 Gemma 4 编码器,接受可选的媒体,然后使用 TextGenerate 生成一个在预览中呈现的响应。您可以将其作为仅文本运行,插入图像和音频,或通过连接示例组扩展到视频。
CLIPLoader(#3) 加载生成器所需的 Gemma 4 E4B 文本编码器。在本地运行时,选择gemma4_e4b_it_fp8_scaled.safetensors,以便语言模型拥有正确的分词器和多模态编码器。在托管环境中,通常会预先选择正确的文件。一旦所选权重可见,您无需在此进行任何调整。- 使用
LoadImage的图像输入 (#2) 提供一个模型可以描述、OCR 或分析作为提示的一部分的单个参考图像。用您自己的截图、图表、文档或产品照片替换示例文件。图像直接传递给TextGenerate,其响应基于视觉内容进行调整。如果您希望仅文本行为,请将此节点断开连接。 - 使用
LoadAudio的音频输入 (#5) 添加音频剪辑以进行转录或音频感知推理。用语音记录、会议摘录或评论录音替换示例文件。音频流被馈送到TextGenerate,因此您可以请求模型转录或总结它与图像一起。对于仅文本任务,请保持此输入为空。 - 视频输入示例组 “视频输入示例”组展示了如何使用
LoadVideo(#6) 和GetVideoComponents(#7) 将视频引入同一流程。GetVideoComponents公开代表帧和音轨,以便您可以分析场景、幻灯片或屏幕上的文本。要启用视频理解,请将images输出连接到TextGenerate的image输入,将audio输出连接到其audio输入。这使得 Gemma 4 文本生成 ComfyUI 工作流能够对剪辑中的帧和语音进行推理。 - 使用
TextGenerate的文本生成 (#1) 这是接受您的指令以及任何附加媒体并返回生成文本的核心节点。提供一个清晰的提示,例如“描述图像并转录音频,然后写一个两句话的总结。” 节点会自动融合视觉和音频上下文,因此您可以根据用例撰写自然的指令,而无需占位符。 - 使用
PreviewAny的结果查看 (#4) 显示生成的文本,以便您可以将其复制到笔记或下游工具中。在编辑提示或更换媒体后重新运行,以快速比较输出。使用此预览验证每种模态对答案的影响程度。
Comfyui Gemma 4 文本生成 ComfyUI 工作流中的关键节点#
TextGenerate(#1) 驱动最终输出,是大多数调整所在的地方。通过更改最大标记数和采样温度调整响应的长度和探索性。如果您希望在回答前进行更多的逐步思考,可以启用可选的推理模式。有关实施细节,请参阅 ComfyUI 文本生成节点源代码 here。CLIPLoader(#3) 选择并加载所需的 Gemma 4 E4B 编码器包,用于文本和多模态理解。如果您在本地维护模型,请将文件放在: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors 选择后,除非您更换模型变体,否则很少需要重新访问此节点。GetVideoComponents(#7) 当您希望模型考虑视频时很有用。它公开帧和音频,以便您可以在两者上调节TextGenerate。如果您的剪辑很长,请选择较小的帧集以加快周转时间;如果您需要更精细的细节,可以增加帧采样,但速度会有所减慢。
可选附加功能#
- 从明确的指令开始,例如“考虑附加的图像和音频”,以使多模态基础显而易见。
- 对于产品评论,要求优缺点和一句话的判决,以保持输出结构化。
- 如果您的任务纯粹是文本,请断开图像和音频以加快运行速度。
- 要批量实验,请使用不同的提示复制
TextGenerate节点,并并排比较预览。 - Gemma 4 的模型文件和变体在社区包中组织;在此处探索可用资产:Comfy-Org/gemma-4。
致谢#
此工作流实施并基于以下作品和资源。我们感谢 Comfy-Org 提供的 Gemma 4 ComfyUI 模型包和 E4B 文本编码器,Comfy-Org (ComfyUI 维护者) 提供的内置 TextGenerate 节点,以及 Comfy.org 提供的官方 Gemma 4 教程和发布博客的贡献和维护。有关权威细节,请参阅以下链接的原始文档和存储库。
资源#
- ComfyUI 文档/Gemma 4 ComfyUI 工作流示例
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- 文档/发布说明: Gemma 4 ComfyUI 工作流示例
- ComfyUI 博客/新开源模型现已在 ComfyUI 中:VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- 文档/发布说明: 新开源模型现已在 ComfyUI 中:VOID, BiRefNet & Gemma 4
- Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
- Comfy-Org/gemma-4 E4B 文本编码器
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
- Comfy-Org/ComfyUI TextGenerate 节点
注意:使用引用的模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。




