ComfyUI>ワークフロー>Gemma 4 テキスト生成 ComfyUI ワークフロー | マルチモーダルライター

Gemma 4 テキスト生成 ComfyUI ワークフロー | マルチモーダルライター

Workflow Name: RunComfy/Gemma-4-TextGen-Workflow
Workflow ID: 0000...1440
このワークフローは、視覚、音声、ビデオのキューに導かれて一貫したテキスト出力を作成する力を提供します。メディアを分析したり、レビューを要約したり、軽量なチャットボットをプロトタイプ化したりすることができます。テキスト、CLIP、転写タスク用のComfyUIノードをシームレスに統合します。このセットアップは、LLMテストとマルチモーダル研究の効率を向上させます。迅速でコンテキストに基づいたAIテキスト生成を求めるデザイナーや開発者に最適です。

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 テキスト生成 ComfyUI ワークフロー: イメージ、ビデオ、音声コンテキストを用いたマルチモーダルテキスト#

このGemma 4 テキスト生成 ComfyUIワークフローは、イメージと音声を理解しながら高品質のテキストを生成するコンパクトなRunComfy準備済みテンプレートであり、ビデオ例も含まれています。マルチモーダルプロンプト、製品レビューの要約、コンテンツ分析、ComfyUI内の軽量アシスタントプロトタイプの迅速な反復を目指しています。

このグラフは、ComfyUIのネイティブTextGenerateCLIPLoaderを使用してGemma 4 E4Bを実行し、オプションのイメージ、音声、ビデオ入力を受け入れます。純粋なテキスト生成のためにシンプルに保つことも、メディアを接続してモデルの推論を導き、豊かな出力を生成することもできます。

Comfyui Gemma 4 テキスト生成 ComfyUIワークフローの主要モデル#

  • Gemma 4 E4B 指示マルチモーダルモデル。視覚と音声の理解を伴うテキスト生成を提供し、簡潔な回答、要約、分析を行います。ComfyUI用のモデル資産は、コミュニティパックComfy-Org/gemma-4に整理されています。
  • Gemma 4 E4B テキストエンコーダー (FP8 スケール)。ワークフローは、TextGenerateノードの言語およびマルチモーダル入力をバックするパッケージ化されたエンコーダーの重みgemma4_e4b_it_fp8_scaled.safetensorsをロードします。ローカルユーザー向けの直接ファイルリンク: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Comfyui Gemma 4 テキスト生成 ComfyUIワークフローの使用方法#

全体のロジック: ワークフローはGemma 4エンコーダーをロードし、オプションのメディアを受け入れ、TextGenerateを使用してプレビューにレンダリングされる応答を生成します。テキストのみで実行するか、イメージと音声をプラグインして、例のグループを接続してビデオを拡張することもできます。

  • CLIPLoader (#3) ジェネレーターに必要なGemma 4 E4Bテキストエンコーダーをロードします。ローカルで実行する場合は、正しいトークナイザーとマルチモーダルエンコーダーを持つように、gemma4_e4b_it_fp8_scaled.safetensorsを選択します。管理環境では、通常正しいファイルが事前に選択されています。選択された重みが表示されたら、ここで何も調整する必要はありません。
  • LoadImage (#2)を使用したイメージ入力 プロンプトの一部としてモデルが説明、OCR、または分析できる単一の参照イメージを提供します。例のファイルを自分のスクリーンショット、チャート、ドキュメント、または製品写真に置き換えます。イメージはTextGenerateに直接渡され、視覚コンテンツに基づいて応答が条件付けられます。テキストのみの動作を望む場合は、このノードを切断したままにしてください。
  • LoadAudio (#5)を使用した音声入力 転写または音声に基づいた推論のために音声クリップを追加します。サンプルファイルをボイスノート、会議の抜粋、またはレビュー録音に置き換えます。音声ストリームはTextGenerateに供給され、イメージと一緒にそれを転写または要約するようモデルに依頼できます。テキストのみのタスクのためには、この入力を空にしておきます。
  • ビデオ入力例グループ “ビデオ入力例”グループは、LoadVideo (#6)とGetVideoComponents (#7)を使用してビデオを同じフローに取り込む方法を示します。GetVideoComponentsは代表的なフレームとサウンドトラックを公開し、シーン、スライド、または画面上のテキストを分析できます。ビデオの理解を有効にするには、TextGenerateimage入力にimages出力を接続し、audio入力にaudio出力を接続します。これにより、Gemma 4 テキスト生成 ComfyUI ワークフローはクリップからのフレームと音声を考慮することができます。
  • TextGenerate (#1)を用いたテキスト生成 これは、指示と任意の添付メディアを受け入れ、生成されたテキストを返すコアノードです。「イメージを説明し、音声を転写してから、2文の要約を書いてください」などの明確なプロンプトを提供します。このノードは視覚と音声のコンテキストを自動的に融合するため、プレースホルダーなしで自然な指示を書くことができます。使用ケースに応じてプロンプトを会話的またはタスク指向に保つことができます。
  • PreviewAny (#4)を使用した結果の表示 生成されたテキストを表示し、メモや下流ツールにコピーすることができます。プロンプトを編集したりメディアを交換した後に再実行して、出力を迅速に比較します。このプレビューを使用して、各モダリティが回答にどれだけ影響を与えるかを検証します。

Comfyui Gemma 4 テキスト生成 ComfyUI ワークフローの主要ノード#

  • TextGenerate (#1) 最終出力を駆動し、ほとんどのチューニングが存在する場所です。応答がどれくらい長くなるか、どれくらい探求的に感じるかを、最大トークンとサンプリング温度を変更して調整します。回答の前により段階的な思考を望む場合は、オプションの推論モードを有効にします。実装の詳細については、ComfyUIテキスト生成ノードのソースコードをこちらでご覧ください。
  • CLIPLoader (#3) テキストとマルチモーダル理解に必要なGemma 4 E4Bエンコーダーパッケージを選択してロードします。ローカルでモデルを維持する場合は、ファイルを以下に配置します: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors 選択後、モデルのバリアントを切り替えない限り、このノードを再訪する必要はほとんどありません。
  • GetVideoComponents (#7) モデルにビデオを考慮させたい場合に便利です。フレームと音声を公開して、TextGenerateを両方に条件付けることができます。クリップが長い場合、迅速なターンアラウンドのためにフレームのセットを小さく選択します。より詳細が必要な場合は、スピードのコストでフレームサンプリングを増やします。

オプションの追加機能#

  • 「添付されたイメージと音声を考慮してください」といった明確な指示で始めて、マルチモーダルグラウンディングを明確にします。
  • 製品レビューの場合、利点、欠点、1文の評決を求めて出力を構造化します。
  • タスクが純粋にテキストである場合、イメージと音声を切断して迅速に実行します。
  • 実験をバッチ処理するには、異なるプロンプトでTextGenerateノードを複製して、プレビューを並べて比較します。
  • Gemma 4のモデルファイルとバリアントはコミュニティパックに整理されています。利用可能な資産をこちらで探索してください。

謝辞#

このワークフローは、以下の作品とリソースを実装し、基にしています。Gemma 4 ComfyUIモデルパッケージとE4BテキストエンコーダーのためのComfy-Org、組み込みのTextGenerateノードのためのComfy-Org (ComfyUIメンテナ)、公式Gemma 4チュートリアルとリリースブログのためのComfy.orgに心から感謝いたします。権威ある詳細については、以下にリンクされているオリジナルのドキュメントとリポジトリを参照してください。

リソース#

注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナが提供するライセンスおよび条件に従います。

RunComfy
著作権 2026 RunComfy. All Rights Reserved.

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。