Gemma 4 文本生成 ComfyUI 工作流程:帶有圖像、視頻和音頻上下文的多模態文本#
這個 Gemma 4 文本生成 ComfyUI 工作流程是一個緊湊的、RunComfy-ready 模板,能夠生成高質量的文本,同時理解圖像和音頻,並包含視頻示例。它專為快速迭代多模態提示、產品評論總結、內容分析和輕量級助手原型設計於 ComfyUI 中。
該圖使用 ComfyUI 的原生 TextGenerate 和 CLIPLoader 來運行 Gemma 4 E4B,支持可選的圖像、音頻和視頻輸入。您可以保持簡單以純文本生成或附加媒體來指導模型的推理並產生更豐富的輸出。
Comfyui Gemma 4 文本生成 ComfyUI 工作流程中的關鍵模型#
- Gemma 4 E4B 指導多模態模型。提供具有視覺和音頻理解的文本生成,適用於簡潔的回答、摘要和分析。ComfyUI 的模型資產在社區包 Comfy-Org/gemma-4 下組織。
- Gemma 4 E4B 文本編碼器 (FP8 scaled)。工作流程加載打包的編碼器權重
gemma4_e4b_it_fp8_scaled.safetensors以支持TextGenerate節點的語言和多模態輸入。適用於本地用戶的直接文件鏈接:text_encoders/gemma4_e4b_it_fp8_scaled.safetensors。
如何使用 Comfyui Gemma 4 文本生成 ComfyUI 工作流程#
整體邏輯:工作流程加載 Gemma 4 編碼器,接受可選的媒體,然後使用 TextGenerate 生成在預覽中渲染的響應。您可以僅運行文本,插入圖像和音頻,或通過連接示例組擴展到視頻。
CLIPLoader(#3) 加載生成器所需的 Gemma 4 E4B 文本編碼器。在本地運行時,選擇gemma4_e4b_it_fp8_scaled.safetensors,以便語言模型擁有正確的分詞器和多模態編碼器。在託管環境中,通常會預選擇正確的文件。選擇權重可見後,這裡不需要進一步調整。- 使用
LoadImage(#2) 的圖像輸入 提供模型可以描述、OCR 或作為提示的一部分分析的單個參考圖像。將示例文件替換為您自己的截圖、圖表、文檔或產品照片。圖像直接傳遞給TextGenerate,其響應基於視覺內容。如果您想要僅文本行為,請將此節點斷開連接。 - 使用
LoadAudio(#5) 的音頻輸入 添加音頻片段以進行轉錄或音頻感知推理。用語音備忘錄、會議摘錄或評論錄音替換範例文件。音頻流被傳遞給TextGenerate,因此您可以要求模型轉錄或總結它和圖像一起。對於僅文本任務,請保持此輸入為空。 - 視頻輸入示例組 “視頻輸入示例”組顯示如何使用
LoadVideo(#6) 和GetVideoComponents(#7) 將視頻引入相同的流程。GetVideoComponents暴露代表性框架和聲音軌道,以便您可以分析場景、幻燈片或屏幕文本。要啟用視頻理解,請將images輸出連接到TextGenerate的image輸入,將audio輸出連接到其audio輸入。這使得 Gemma 4 文本生成 ComfyUI 工作流程能夠推理剪輯中的框架和語音。 - 使用
TextGenerate(#1) 的文本生成 這是核心節點,接受您的指令和任何附加媒體並返回生成的文本。提供明確的提示,如“描述圖像並轉錄音頻,然後寫一個兩句話的摘要”。節點自動融合視覺和音頻上下文,因此您可以編寫自然的指令而不需要佔位符。根據您的使用情況,您可以保持提示對話或以任務為導向。 - 使用
PreviewAny(#4) 的結果查看 顯示生成的文本,以便您可以將其複製到您的筆記或下游工具中。編輯提示或更換媒體後重新運行以快速比較輸出。使用此預覽驗證每種模式對答案的影響程度。
Comfyui Gemma 4 文本生成 ComfyUI 工作流程中的關鍵節點#
TextGenerate(#1) 驅動最終輸出並是大多數調整所在。通過改變最大代幣數和採樣溫度來調整響應的長度和探索性。如果您想在回答前進行更多步驟的推理,請啟用可選的推理模式。實施細節,請參閱 ComfyUI 文本生成節點源代碼 此處。CLIPLoader(#3) 選擇並加載 Gemma 4 E4B 編碼器包,用於文本和多模態理解。如果您在本地維護模型,請將文件放置在: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors 選擇後,除非您切換模型變體,否則通常不需要重新訪問此節點。GetVideoComponents(#7) 當您希望模型考慮視頻時非常有用。它暴露框架和音頻,以便您可以根據兩者條件TextGenerate。如果您的剪輯較長,請選擇更少的框架以加快周轉;如果您需要更詳細的細節,請增加框架採樣以速度為代價。
可選附加功能#
- 以明確的指令開始,如“考慮附加的圖像和音頻”以使多模態基礎明顯。
- 對於產品評論,請要求優點、缺點和一句話的判決以保持輸出結構化。
- 如果您的任務純粹是文本,請斷開圖像和音頻以加快運行速度。
- 要批量實驗,請複製
TextGenerate節點並使用不同的提示比較預覽。 - Gemma 4 的模型文件和變體在社區包中組織;在這裡探索可用資產:Comfy-Org/gemma-4。
致謝#
此工作流程實現並建立在以下作品和資源之上。我們感謝 Comfy-Org 提供的 Gemma 4 ComfyUI 模型包和 E4B 文本編碼器,Comfy-Org (ComfyUI 維護者) 提供的內置 TextGenerate 節點,以及 Comfy.org 提供的官方 Gemma 4 教程和發布博客,感謝他們的貢獻和維護。欲了解權威的詳細信息,請參閱下方鏈接的原始文檔和資料庫。
資源#
- ComfyUI Docs/Gemma 4 ComfyUI 工作流程示例
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: Gemma 4 ComfyUI 工作流程示例
- ComfyUI Blog/新開源模型現已在 ComfyUI 中:VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: 新開源模型現已在 ComfyUI 中:VOID, BiRefNet & Gemma 4
- Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
- Comfy-Org/gemma-4 E4B 文本編碼器
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
- Comfy-Org/ComfyUI TextGenerate 節點
注意:使用引用的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。





