ComfyUI>工作流>Gemma 4 文本生成 ComfyUI 工作流 | 多模态写作工具

Gemma 4 文本生成 ComfyUI 工作流 | 多模态写作工具

Workflow Name: RunComfy/Gemma-4-TextGen-Workflow
Workflow ID: 0000...1440
此工作流使您能够创建由视觉、音频和视频线索指导的连贯文本输出。您可以分析媒体、总结评论或原型轻量级聊天机器人,并确保上下文的准确性。它无缝集成了用于文本、CLIP 和转录任务的 ComfyUI 节点。该设置提高了 LLM 测试和多模态研究的效率。适合设计师和开发人员寻求快速、上下文感知的 AI 文本生成。

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 文本生成 ComfyUI 工作流:具有图像、视频和音频上下文的多模态文本#

这个 Gemma 4 文本生成 ComfyUI 工作流是一个紧凑的、适合 RunComfy 的模板,能够在理解图像和音频的同时生成高质量文本,并包括一个视频示例。它旨在快速迭代多模态提示、产品评论总结、内容分析和轻量级助手原型,在 ComfyUI 内部使用。

该图使用 ComfyUI 的本地 TextGenerateCLIPLoader 运行 Gemma 4 E4B,并可选择性地输入图像、音频和视频。您可以保持简单的纯文本生成或附加媒体以指导模型的推理并产生更丰富的输出。

Comfyui Gemma 4 文本生成 ComfyUI 工作流中的关键模型#

  • Gemma 4 E4B 指导多模态模型。提供具有视觉和音频理解的文本生成,用于简洁的答案、总结和分析。ComfyUI 的模型资产在社区包 Comfy-Org/gemma-4 下组织。
  • Gemma 4 E4B 文本编码器 (FP8 scaled)。工作流加载打包的编码器权重 gemma4_e4b_it_fp8_scaled.safetensors,支持 TextGenerate 节点的语言和多模态输入。为本地用户提供的直接文件链接:`text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`

如何使用 Comfyui Gemma 4 文本生成 ComfyUI 工作流#

总体逻辑:工作流加载 Gemma 4 编码器,接受可选的媒体,然后使用 TextGenerate 生成一个在预览中呈现的响应。您可以将其作为仅文本运行,插入图像和音频,或通过连接示例组扩展到视频。

  • CLIPLoader (#3) 加载生成器所需的 Gemma 4 E4B 文本编码器。在本地运行时,选择 gemma4_e4b_it_fp8_scaled.safetensors,以便语言模型拥有正确的分词器和多模态编码器。在托管环境中,通常会预先选择正确的文件。一旦所选权重可见,您无需在此进行任何调整。
  • 使用 LoadImage 的图像输入 (#2) 提供一个模型可以描述、OCR 或分析作为提示的一部分的单个参考图像。用您自己的截图、图表、文档或产品照片替换示例文件。图像直接传递给 TextGenerate,其响应基于视觉内容进行调整。如果您希望仅文本行为,请将此节点断开连接。
  • 使用 LoadAudio 的音频输入 (#5) 添加音频剪辑以进行转录或音频感知推理。用语音记录、会议摘录或评论录音替换示例文件。音频流被馈送到 TextGenerate,因此您可以请求模型转录或总结它与图像一起。对于仅文本任务,请保持此输入为空。
  • 视频输入示例组 “视频输入示例”组展示了如何使用 LoadVideo (#6) 和 GetVideoComponents (#7) 将视频引入同一流程。GetVideoComponents 公开代表帧和音轨,以便您可以分析场景、幻灯片或屏幕上的文本。要启用视频理解,请将 images 输出连接到 TextGenerateimage 输入,将 audio 输出连接到其 audio 输入。这使得 Gemma 4 文本生成 ComfyUI 工作流能够对剪辑中的帧和语音进行推理。
  • 使用 TextGenerate 的文本生成 (#1) 这是接受您的指令以及任何附加媒体并返回生成文本的核心节点。提供一个清晰的提示,例如“描述图像并转录音频,然后写一个两句话的总结。” 节点会自动融合视觉和音频上下文,因此您可以根据用例撰写自然的指令,而无需占位符。
  • 使用 PreviewAny 的结果查看 (#4) 显示生成的文本,以便您可以将其复制到笔记或下游工具中。在编辑提示或更换媒体后重新运行,以快速比较输出。使用此预览验证每种模态对答案的影响程度。

Comfyui Gemma 4 文本生成 ComfyUI 工作流中的关键节点#

  • TextGenerate (#1) 驱动最终输出,是大多数调整所在的地方。通过更改最大标记数和采样温度调整响应的长度和探索性。如果您希望在回答前进行更多的逐步思考,可以启用可选的推理模式。有关实施细节,请参阅 ComfyUI 文本生成节点源代码 here
  • CLIPLoader (#3) 选择并加载所需的 Gemma 4 E4B 编码器包,用于文本和多模态理解。如果您在本地维护模型,请将文件放在: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors 选择后,除非您更换模型变体,否则很少需要重新访问此节点。
  • GetVideoComponents (#7) 当您希望模型考虑视频时很有用。它公开帧和音频,以便您可以在两者上调节 TextGenerate。如果您的剪辑很长,请选择较小的帧集以加快周转时间;如果您需要更精细的细节,可以增加帧采样,但速度会有所减慢。

可选附加功能#

  • 从明确的指令开始,例如“考虑附加的图像和音频”,以使多模态基础显而易见。
  • 对于产品评论,要求优缺点和一句话的判决,以保持输出结构化。
  • 如果您的任务纯粹是文本,请断开图像和音频以加快运行速度。
  • 要批量实验,请使用不同的提示复制 TextGenerate 节点,并并排比较预览。
  • Gemma 4 的模型文件和变体在社区包中组织;在此处探索可用资产:Comfy-Org/gemma-4

致谢#

此工作流实施并基于以下作品和资源。我们感谢 Comfy-Org 提供的 Gemma 4 ComfyUI 模型包和 E4B 文本编码器,Comfy-Org (ComfyUI 维护者) 提供的内置 TextGenerate 节点,以及 Comfy.org 提供的官方 Gemma 4 教程和发布博客的贡献和维护。有关权威细节,请参阅以下链接的原始文档和存储库。

资源#

注意:使用引用的模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。

RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。