ComfyUI>工作流程>Gemma 4 文本生成 ComfyUI 工作流程 | 多模態作家

Gemma 4 文本生成 ComfyUI 工作流程 | 多模態作家

Workflow Name: RunComfy/Gemma-4-TextGen-Workflow
Workflow ID: 0000...1440
此工作流程使您能夠通過視覺、音頻和視頻提示創建連貫的文本輸出。您可以分析媒體、總結評論或創建具有準確上下文基礎的輕量化聊天機器人。它無縫整合了 ComfyUI 節點,用於文本、CLIP 和轉錄任務。此設置提高了 LLM 測試和多模態研究的效率。非常適合尋求快速、上下文感知 AI 文本生成的設計師和開發人員。

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 文本生成 ComfyUI 工作流程:帶有圖像、視頻和音頻上下文的多模態文本#

這個 Gemma 4 文本生成 ComfyUI 工作流程是一個緊湊的、RunComfy-ready 模板,能夠生成高質量的文本,同時理解圖像和音頻,並包含視頻示例。它專為快速迭代多模態提示、產品評論總結、內容分析和輕量級助手原型設計於 ComfyUI 中。

該圖使用 ComfyUI 的原生 TextGenerateCLIPLoader 來運行 Gemma 4 E4B,支持可選的圖像、音頻和視頻輸入。您可以保持簡單以純文本生成或附加媒體來指導模型的推理並產生更豐富的輸出。

Comfyui Gemma 4 文本生成 ComfyUI 工作流程中的關鍵模型#

  • Gemma 4 E4B 指導多模態模型。提供具有視覺和音頻理解的文本生成,適用於簡潔的回答、摘要和分析。ComfyUI 的模型資產在社區包 Comfy-Org/gemma-4 下組織。
  • Gemma 4 E4B 文本編碼器 (FP8 scaled)。工作流程加載打包的編碼器權重 gemma4_e4b_it_fp8_scaled.safetensors 以支持 TextGenerate 節點的語言和多模態輸入。適用於本地用戶的直接文件鏈接:text_encoders/gemma4_e4b_it_fp8_scaled.safetensors

如何使用 Comfyui Gemma 4 文本生成 ComfyUI 工作流程#

整體邏輯:工作流程加載 Gemma 4 編碼器,接受可選的媒體,然後使用 TextGenerate 生成在預覽中渲染的響應。您可以僅運行文本,插入圖像和音頻,或通過連接示例組擴展到視頻。

  • CLIPLoader (#3) 加載生成器所需的 Gemma 4 E4B 文本編碼器。在本地運行時,選擇 gemma4_e4b_it_fp8_scaled.safetensors,以便語言模型擁有正確的分詞器和多模態編碼器。在託管環境中,通常會預選擇正確的文件。選擇權重可見後,這裡不需要進一步調整。
  • 使用 LoadImage (#2) 的圖像輸入 提供模型可以描述、OCR 或作為提示的一部分分析的單個參考圖像。將示例文件替換為您自己的截圖、圖表、文檔或產品照片。圖像直接傳遞給 TextGenerate,其響應基於視覺內容。如果您想要僅文本行為,請將此節點斷開連接。
  • 使用 LoadAudio (#5) 的音頻輸入 添加音頻片段以進行轉錄或音頻感知推理。用語音備忘錄、會議摘錄或評論錄音替換範例文件。音頻流被傳遞給 TextGenerate,因此您可以要求模型轉錄或總結它和圖像一起。對於僅文本任務,請保持此輸入為空。
  • 視頻輸入示例組 “視頻輸入示例”組顯示如何使用 LoadVideo (#6) 和 GetVideoComponents (#7) 將視頻引入相同的流程。GetVideoComponents 暴露代表性框架和聲音軌道,以便您可以分析場景、幻燈片或屏幕文本。要啟用視頻理解,請將 images 輸出連接到 TextGenerateimage 輸入,將 audio 輸出連接到其 audio 輸入。這使得 Gemma 4 文本生成 ComfyUI 工作流程能夠推理剪輯中的框架和語音。
  • 使用 TextGenerate (#1) 的文本生成 這是核心節點,接受您的指令和任何附加媒體並返回生成的文本。提供明確的提示,如“描述圖像並轉錄音頻,然後寫一個兩句話的摘要”。節點自動融合視覺和音頻上下文,因此您可以編寫自然的指令而不需要佔位符。根據您的使用情況,您可以保持提示對話或以任務為導向。
  • 使用 PreviewAny (#4) 的結果查看 顯示生成的文本,以便您可以將其複製到您的筆記或下游工具中。編輯提示或更換媒體後重新運行以快速比較輸出。使用此預覽驗證每種模式對答案的影響程度。

Comfyui Gemma 4 文本生成 ComfyUI 工作流程中的關鍵節點#

  • TextGenerate (#1) 驅動最終輸出並是大多數調整所在。通過改變最大代幣數和採樣溫度來調整響應的長度和探索性。如果您想在回答前進行更多步驟的推理,請啟用可選的推理模式。實施細節,請參閱 ComfyUI 文本生成節點源代碼 此處
  • CLIPLoader (#3) 選擇並加載 Gemma 4 E4B 編碼器包,用於文本和多模態理解。如果您在本地維護模型,請將文件放置在: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors 選擇後,除非您切換模型變體,否則通常不需要重新訪問此節點。
  • GetVideoComponents (#7) 當您希望模型考慮視頻時非常有用。它暴露框架和音頻,以便您可以根據兩者條件 TextGenerate。如果您的剪輯較長,請選擇更少的框架以加快周轉;如果您需要更詳細的細節,請增加框架採樣以速度為代價。

可選附加功能#

  • 以明確的指令開始,如“考慮附加的圖像和音頻”以使多模態基礎明顯。
  • 對於產品評論,請要求優點、缺點和一句話的判決以保持輸出結構化。
  • 如果您的任務純粹是文本,請斷開圖像和音頻以加快運行速度。
  • 要批量實驗,請複製 TextGenerate 節點並使用不同的提示比較預覽。
  • Gemma 4 的模型文件和變體在社區包中組織;在這裡探索可用資產:Comfy-Org/gemma-4

致謝#

此工作流程實現並建立在以下作品和資源之上。我們感謝 Comfy-Org 提供的 Gemma 4 ComfyUI 模型包和 E4B 文本編碼器,Comfy-Org (ComfyUI 維護者) 提供的內置 TextGenerate 節點,以及 Comfy.org 提供的官方 Gemma 4 教程和發布博客,感謝他們的貢獻和維護。欲了解權威的詳細信息,請參閱下方鏈接的原始文檔和資料庫。

資源#

注意:使用引用的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。

RunComfy
版權 2026 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。