Gemma 4 文本生成 ComfyUI 工作流 | 图像-文本-音频分析工具

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 文本生成 ComfyUI 工作流：具有图像、视频和音频上下文的多模态文本#

这个 Gemma 4 文本生成 ComfyUI 工作流是一个紧凑的、适合 RunComfy 的模板，能够在理解图像和音频的同时生成高质量文本，并包括一个视频示例。它旨在快速迭代多模态提示、产品评论总结、内容分析和轻量级助手原型，在 ComfyUI 内部使用。

该图使用 ComfyUI 的本地 TextGenerate 和 CLIPLoader 运行 Gemma 4 E4B，并可选择性地输入图像、音频和视频。您可以保持简单的纯文本生成或附加媒体以指导模型的推理并产生更丰富的输出。

Comfyui Gemma 4 文本生成 ComfyUI 工作流中的关键模型#

Gemma 4 E4B 指导多模态模型。提供具有视觉和音频理解的文本生成，用于简洁的答案、总结和分析。ComfyUI 的模型资产在社区包 Comfy-Org/gemma-4 下组织。
Gemma 4 E4B 文本编码器 (FP8 scaled)。工作流加载打包的编码器权重 gemma4_e4b_it_fp8_scaled.safetensors，支持 TextGenerate 节点的语言和多模态输入。为本地用户提供的直接文件链接：`text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`。

如何使用 Comfyui Gemma 4 文本生成 ComfyUI 工作流#

总体逻辑：工作流加载 Gemma 4 编码器，接受可选的媒体，然后使用 TextGenerate 生成一个在预览中呈现的响应。您可以将其作为仅文本运行，插入图像和音频，或通过连接示例组扩展到视频。

CLIPLoader (#3) 加载生成器所需的 Gemma 4 E4B 文本编码器。在本地运行时，选择 gemma4_e4b_it_fp8_scaled.safetensors，以便语言模型拥有正确的分词器和多模态编码器。在托管环境中，通常会预先选择正确的文件。一旦所选权重可见，您无需在此进行任何调整。
使用 LoadImage 的图像输入 (#2) 提供一个模型可以描述、OCR 或分析作为提示的一部分的单个参考图像。用您自己的截图、图表、文档或产品照片替换示例文件。图像直接传递给 TextGenerate，其响应基于视觉内容进行调整。如果您希望仅文本行为，请将此节点断开连接。
使用 LoadAudio 的音频输入 (#5) 添加音频剪辑以进行转录或音频感知推理。用语音记录、会议摘录或评论录音替换示例文件。音频流被馈送到 TextGenerate，因此您可以请求模型转录或总结它与图像一起。对于仅文本任务，请保持此输入为空。
视频输入示例组 “视频输入示例”组展示了如何使用 LoadVideo (#6) 和 GetVideoComponents (#7) 将视频引入同一流程。GetVideoComponents 公开代表帧和音轨，以便您可以分析场景、幻灯片或屏幕上的文本。要启用视频理解，请将 images 输出连接到 TextGenerate 的 image 输入，将 audio 输出连接到其 audio 输入。这使得 Gemma 4 文本生成 ComfyUI 工作流能够对剪辑中的帧和语音进行推理。
使用 TextGenerate 的文本生成 (#1) 这是接受您的指令以及任何附加媒体并返回生成文本的核心节点。提供一个清晰的提示，例如“描述图像并转录音频，然后写一个两句话的总结。” 节点会自动融合视觉和音频上下文，因此您可以根据用例撰写自然的指令，而无需占位符。
使用 PreviewAny 的结果查看 (#4) 显示生成的文本，以便您可以将其复制到笔记或下游工具中。在编辑提示或更换媒体后重新运行，以快速比较输出。使用此预览验证每种模态对答案的影响程度。

Comfyui Gemma 4 文本生成 ComfyUI 工作流中的关键节点#

TextGenerate (#1) 驱动最终输出，是大多数调整所在的地方。通过更改最大标记数和采样温度调整响应的长度和探索性。如果您希望在回答前进行更多的逐步思考，可以启用可选的推理模式。有关实施细节，请参阅 ComfyUI 文本生成节点源代码 here。
CLIPLoader (#3) 选择并加载所需的 Gemma 4 E4B 编码器包，用于文本和多模态理解。如果您在本地维护模型，请将文件放在： ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors 选择后，除非您更换模型变体，否则很少需要重新访问此节点。
GetVideoComponents (#7) 当您希望模型考虑视频时很有用。它公开帧和音频，以便您可以在两者上调节 TextGenerate。如果您的剪辑很长，请选择较小的帧集以加快周转时间；如果您需要更精细的细节，可以增加帧采样，但速度会有所减慢。

可选附加功能#

从明确的指令开始，例如“考虑附加的图像和音频”，以使多模态基础显而易见。
对于产品评论，要求优缺点和一句话的判决，以保持输出结构化。
如果您的任务纯粹是文本，请断开图像和音频以加快运行速度。
要批量实验，请使用不同的提示复制 TextGenerate 节点，并并排比较预览。
Gemma 4 的模型文件和变体在社区包中组织；在此处探索可用资产：Comfy-Org/gemma-4。

致谢#

此工作流实施并基于以下作品和资源。我们感谢 Comfy-Org 提供的 Gemma 4 ComfyUI 模型包和 E4B 文本编码器，Comfy-Org (ComfyUI 维护者) 提供的内置 TextGenerate 节点，以及 Comfy.org 提供的官方 Gemma 4 教程和发布博客的贡献和维护。有关权威细节，请参阅以下链接的原始文档和存储库。

资源#

ComfyUI 文档/Gemma 4 ComfyUI 工作流示例
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- 文档/发布说明: Gemma 4 ComfyUI 工作流示例
ComfyUI 博客/新开源模型现已在 ComfyUI 中：VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- 文档/发布说明: 新开源模型现已在 ComfyUI 中：VOID, BiRefNet & Gemma 4
Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
Comfy-Org/gemma-4 E4B 文本编码器
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
Comfy-Org/ComfyUI TextGenerate 节点
- GitHub: Comfy-Org/ComfyUI: comfy_extras/nodes_textgen.py

注意：使用引用的模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。

Want More ComfyUI Workflows?

Wan 2.1 | 革命性的视频生成

利用突破性的 AI 在普通 CPU 上从文本或图像创建令人难以置信的视频。

Janus-Pro | T2I + I2T 模型

Janus-Pro：高级文本到图像和图像到文本生成。

Reallusion AI 渲染 | 3D 到 ComfyUI 工作流程集合

ComfyUI + Reallusion = 快速、易用且方便的 3D 视觉效果

MMAudio | 视频到音频

MMAudio：用于高质量音频生成的先进视频到音频模型。

OmniGen | 图像到图像

OmniGen：根据参考图像和提示修改图像

创建连贯场景 | 一致的故事艺术生成器

构建具有丰富视觉一致性的无缝叙事场景。

Krea 2 参考编辑 | 智能图像工作流程

快速清晰地将参考照片转换为一致、可编辑的视觉效果。

Capybara ComfyUI 工作流 | 统一的图像-视频创作者

创建、编辑和动画 —— 所有功能集成在一个智能生成管道中。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

Gemma 4 文本生成 ComfyUI 工作流 | 多模态写作工具