ComfyUIにおけるStable Audio 3.0 Medium Baseワークフロー長文テキストからのオーディオ生成#
このStable Audio 3.0 Medium Baseワークフローは、短いテキストアイデアをより長く、より音楽的なステレオオーディオに変換します。T5-GemmaおよびQwen3.5テキストエンコーダーを中心に構築されており、ComfyUIで再現可能な設定でプロンプト駆動の音楽スケッチ、環境音、SFX、およびワンショットを提供します。
グラフには、オプションのカテゴリ対応リプロンプトシステムが含まれており、簡潔なアイデアを密度の高いプロダクション準備されたプロンプトに拡張してから合成します。カテゴリ、期間、シードを選択し、Stable Audio 3が条件付けを行い、MP3として保存されるオーディオをレンダリングします。ワークフローはStable Audio 3.0 Medium BaseのためにComfy-Orgが提供する公式テンプレートとアセットに従います。参照テンプレートとモデルはComfy-Org/workflow_templatesおよびComfy-Org/stable-audio-3を参照してください。
Comfyui Stable Audio 3.0 Medium Baseワークフローの主要モデル#
- Stable Audio 3 Medium Baseチェックポイント。テキスト条件付けと潜在からステレオオーディオを合成するコア生成モデル。出典: Comfy-Org/stable-audio-3。
- T5-Gemma Base UL2テキストエンコーダー。Stable Audio 3を肯定的および否定的プロンプトの条件付けに使用されるテキスト埋め込みを生成します。パッケージ化されたテキストエンコーダーファイルは、Stable Audio 3リポジトリのtext_encodersフォルダーに含まれています。: Comfy-Org/stable-audio-3。
- Qwen3.5 2Bテキストモデル。短いアイデアを詳細な音楽、楽器、SFX、またはワンショットの説明に拡張するオプションのカテゴリ対応リプロンプトを駆動します。出典: Comfy-Org/Qwen3.5。
Comfyui Stable Audio 3.0 Medium Baseワークフローの使用方法#
高レベルでは、短いアイデアと目標時間を提供します。グラフは、Qwen3.5を使用してカテゴリテンプレートを通じてそれらを再作成するか、元のままにしておくことができます。結果は条件付けにエンコードされ、Stable Audio 3でサンプリングされ、オーディオとしてデコードされ、保存されます。
ユーザー入力: プロンプトと期間#
サブグラフAudio Generation (Stable Audio 3 Medium Base) (#52)は、user_input、duration、seed、use_reprompt、およびcategoryを公開します。スタイル、楽器リスト、ムード、オプションのBPMなど、平易な言葉で簡潔なアイデアを書いてください。秒単位でクリップの長さを選択し、再現性やバリエーションのためにseedを設定します。テンプレート駆動のリライトを望む場合、use_repromptをオンにし、categoryとしてMusic、Instrument、SFX、またはOne-shotを選択します。
ローダー: チェックポイントとテキストエンコーダー#
CheckpointLoaderSimple (#25)は、stable_audio_3_medium_base.safetensorsをロードし、後でサンプリングとデコードに使用されるMODELおよびVAEを提供します。CLIPLoader (#26)は、条件付けに使用されるT5-Gemmaエンコーダーをロードします。2番目のCLIPLoader (#29)は、リプロンプトステージを駆動するQwen3.5モデルをロードします。
リプロンプト: JSONテンプレートとカテゴリ#
カテゴリセレクターCustomCombo (#43)は、システムプロンプトの大きなJSONをJsonExtractString (#49)に送り込みます。選択されたテンプレートは、Text Replace (PROMPT TEMPLATE) (#38)によってメタプロンプトに挿入されます。user_inputはText Replace (USER INPUT) (#39)によって注入され、目標長さはText Replace (AUDIO LENGTH) (#40)を使用して挿入され、リライトを選択した期間と一致させます。
リプロンプト: Qwen TextGenerate#
TextGenerate (#28)は、Qwen3.5を使用して組み立てられたテンプレートとあなたのアイデアを、カテゴリ固有のルールに従った簡潔で詳細なプロンプトに変換します。このステージは、特に長い音楽構造や具体的な技術用語が重要なSFXに役立ちます。プロンプトのリライトはプレビュー可能であり、カテゴリの選択と表現を迅速に繰り返すことができます。
元のテキストとリライトされたテキストの切り替え#
ComfySwitchNode (#34)は、use_repromptに基づいて、元のテキストまたはQwen生成のリライトを選択します。構造化された長さを意識したプロンプトを得るためにオンにしておくか、言葉のコントロールを直接行いたい場合はオフにします。この単純なスイッチはA/Bテストを簡単にします。
CLIPエンコード: 条件付け#
CLIPTextEncode (#6)は、選択されたプロンプトをモデルを駆動する肯定的な条件付けに変換します。2番目のCLIPTextEncode (#7)は、デフォルトで中立的な否定の条件付けを提供します。このペアリングは、Stable Audio 3に明確な指針を提供し、意図しないアーティファクトを避けます。
オーディオ生成: Stable Audio#
EmptyLatentAudio (#11)は、durationと一致する長さのオーディオ潜在を作成します。KSampler (#3)は、チェックポイントからのStable Audio 3 Medium BaseMODELを使用してノイズ除去プロセスを実行します。VAEDecodeAudio (#12)は、最終的な潜在を聞こえるステレオ波形に変換します。同じdurationがリプロンプトにも情報を提供するため、レンダリングされたクリップの長さとリライトされたテキストは同期します。
保存とエクスポート#
サブグラフの外側で、SaveAudioMP3 (#19)は、組織に役立つプレフィックスを付けて結果をMP3ファイルに書き込みます。異なるseed値やカテゴリでバッチ生成を行い、お気に入りを選んで保存する際に使用します。
Comfyui Stable Audio 3.0 Medium Baseワークフローの主要ノード#
ComfySwitchNode(#34)。元のuser_inputとQwen生成のテキストを切り替えます。構造化され、長さに一致したリライトを得るためにオンにするか、言葉のコントロールを直接行いたい場合はオフにします。TextGenerate(#28)。カテゴリ固有のシステムプロンプトでQwen3.5を実行してアイデアを拡張します。リライトスタイルをカスタマイズするには、JsonExtractString(#49)のカテゴリテンプレートと隣接するText Replaceノードのグループロンプトを編集します。EmptyLatentAudio(#11)。クリップの長さを設定します。挿入されたAUDIO_LENGTHトークンと一致させて、合成時間がテキストの意図に一致するようにします。KSampler(#3)。Stable Audio 3のノイズ除去軌跡を管理します。seedを調整してバリエーションを得る一方で、他の設定を安定させてテイクを公平に比較します。SaveAudioMP3(#19)。出力ファイル名のプレフィックスとフォーマットを管理し、複数の実行からのライブラリ構築を迅速に行います。
オプションのエクストラ#
- ジャンルやソース、主要な楽器やテクスチャ、ムードを名指しする1~2文のアイデアから始めます。リプロンプトはBPMやアレンジメントなどの詳細を補完できます。
- 目標に一致するカテゴリを選択します: フルトラック用のMusic、ループやステム用のInstrument、環境やアクション用のSFX、孤立したヒット用のOne-shot。
- 目標コンテンツに対して現実的な期間を維持します。非常に長いクリップは計算が重く、反復中に安定した
seedが役立つかもしれません。 - 結果が混雑していると感じたら、リプロンプトを無効にしてシンプルなフレーズを試し、方向が気に入ったら再度有効にします。
- クイックな代替テイクのために、すべてを一定に保ち、
seedだけを変更します。
謝辞#
このワークフローは、以下の作品やリソースを実装し、構築しています。Comfy-OrgのComfyUI Stable Audio 3 Day-0 Support記事、Comfy-Orgの公式Stable Audio 3.0 Medium Baseワークフローテンプレート、Comfy-OrgのStable Audio 3モデルファイル、Comfy-OrgのQwen3.5エンコーダーモデルファイルの貢献と保守に感謝します。詳細は、以下のリンクされた元のドキュメントとリポジトリを参照してください。
リソース#
- Comfy-Org/ComfyUI Stable Audio 3 Day-0 Support Article
- ドキュメント / リリースノート: Stable Audio 3 Day-0 Support
- Comfy-Org/Official Stable Audio 3.0 Medium Base Workflow Template
- GitHub: Comfy-Org/workflow_templates
- Comfy-Org/Stable Audio 3 Model Files
- Hugging Face: Comfy-Org/stable-audio-3
- Comfy-Org/Qwen3.5 Encoder Model Files
- Hugging Face: Comfy-Org/Qwen3.5
注意: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者および保守者によって提供されたライセンスおよび条件に従います。


