Stable Audio Open 1.0 in ComfyUI | テキストから音楽へのワークフロー

ComfyUI Stable Audio Workflow

Stable Audio Open 1.0 in ComfyUI | Text-to-Music Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Stable Audio Examples

Stable Audio Open 1.0 テキストから音楽へのワークフロー#

このワークフローは、Stable Audio Open 1.0を使用してプレーンテキストを独自の音楽やサウンドスケープに変換します。作曲家やサウンドデザイナー、クリエイターがComfyUIを離れることなく、迅速で制御可能なオーディオ生成を望む場合に設計されています。プロンプトを書き、目標の持続時間を設定し、グラフがスタイル、ムード、テンポ、楽器編成を反映したMP3をレンダリングします。

内部では、ワークフローがT5ベースのテキストエンコーダーでテキストをエンコードし、Stable Audioの拡散プロセスを潜在オーディオ空間で実行し、波形にデコードして結果を保存します。明確なプロンプトガイダンスとシンプルな長さ制御により、Stable Audio生成はシネマティック、アンビエント、または実験的なトラックに対して予測可能で反復可能になります。

Comfyui Stable Audioワークフローの主要なモデル#

Stable Audio Open 1.0。Stability AIによるテキストから音楽およびサウンドデザイン用のオープンウェイト潜在拡散モデル。テキストの意図をオーディオラテントにマッピングし、多様な音楽スタイルと構造をサポートします。Repository • Weights
T5-Base Text Encoder。ここで使用される一般用途のテキストモデルで、Stable Audio生成のコンディショニングのためにプロンプトを埋め込みます。明確で記述的な入力はより一貫した音楽を導きます。Model card

Comfyui Stable Audioワークフローの使用方法#

グラフはモデルのロードからプロンプトのコンディショニング、サンプリング、デコード、保存へと流れます。グループはモデルを一度設定し、長さを調整し、プロンプトを書いてレンダリングできるように整理されています。

モデルをロード#

このグループはコア資産を初期化します。CheckpointLoaderSimple (#4)はStable Audio Open 1.0チェックポイントをロードし、拡散モデルとそのオーディオVAEを含みます。CLIPLoader (#10)はコンディショニングに使用されるT5ベースのテキストエンコーダーをロードします。ロードされると、これらのモデルはStable Audio生成のバックボーンを提供し、後続の実行に常駐します。

長さ#

このグループはオーディオの長さを定義します。EmptyLatentAudio (#11)は選択した持続時間で空の潜在トラックを作成し、サンプラーが生成するフレーム数を知ることができます。長いクリップはより多くの時間とメモリを消費するため、控えめに開始してからスケールアップします。アイデアを探索する際にバッチ次元を増やすことで複数のバリエーションを生成することもできます。

プロンプト#

このグループはテキストを拡散プロセスのガイダンスシグナルに変換します。CLIPTextEncode (#6)を使用して、楽器、ジャンル、ムード、テンポ、プロダクションのヒントを含むポジティブプロンプトを書きます。例えば：「豪華なシネマティックオーケストラ、広がるストリングスとブラス、深いパーカッション、アンビエントパッド、90 BPM、心を揺さぶる」。CLIPTextEncode (#7)を使用して「厳しいノイズ、クリッピング、歪み」などのアーティファクトを抑制するネガティブプロンプトを書きます。これらを組み合わせて、希望するテクスチャや構造にStable Audioを導きます。

生成とエクスポート#

KSampler (#3)は、テキストエンコーディングによって導かれた音楽ラテントへの変換を行う拡散ステップを実行します。VAEDecodeAudio (#12)はラテントオーディオを波形に変換します。最後にSaveAudioMP3 (#19)がMP3ファイルを書き出し、レビューまたはタイムラインに直接ドロップできます。反復作業のために、ファイル名のプレフィックスを調整してテイクを整理します。

Comfyui Stable Audioワークフローの主要ノード#

CLIPTextEncode (#6) このノードは、Stable Audioが従うコンディショニングにポジティブプロンプトをエンコードします。明確な楽器リスト、ジャンル、ムード、テンポまたはBPM、プロダクション用語「暖かい」、「ローファイ」、「シネマティック」、「アンビエント」などを優先してください。微妙な表現の違いが作曲を大きく変えることがあります。一般的な動作はComfyUIのコアノードを参照してください。ComfyUI
CLIPTextEncode (#7) ネガティブプロンプトは不要な音色やミックスの問題を回避するのに役立ちます。例えば「キーキー音、金属的な鳴り、グリッチポップ、ラジオのヒス音」を取り除くための用語を追加します。これを簡潔に保つことで、よりクリーンなStable Audioのレンダリングを得ることができます。ComfyUI
EmptyLatentAudio (#11) 秒単位でクリップの持続時間、オプションでバッチ数を制御します。秒数を増やして長い作品を作成し、長さに応じて計算が拡張されることに注意してください。バッチ生成を使用して単一のプロンプトから複数のStable Audioテイクを試聴します。ComfyUI
KSampler (#3) オーディオラテントの拡散プロセスを駆動します。最も影響力のあるコントロールはsteps、sampler、cfg、seedです。stepsを増やして詳細を洗練し、cfgを調整してプロンプトへの適合性と創造性をバランスさせ、固定seedを設定してテイクを再現するか、新しいアイデアのために変化させます。一般的なガイダンスはComfyUIのサンプラーノートを参照してください。ComfyUI
SaveAudioMP3 (#19) 最終波形をMP3にエクスポートします。filename_prefixを使用してバージョンをラベル付けし、反復を整理します。プロンプトやシードを比較する際、複数のテイクを並べて保存することでStable Audioの選択が速くなります。ComfyUI

オプションの追加#

セッションブリーフのようにプロンプトを書く：楽器、ジャンル、ムード、テンポまたはBPM、ミックスの形容詞。
短く、焦点を絞ったネガティブプロンプトを使用して、ヒス音、厳しさ、不要な楽器を減らします。
テキストを繰り返しながらseedをロックし、その後seedを変更して新しいStable Audioのバリエーションを探索します。
スタイルを調整するために短い持続時間で始め、サウンドが適切になったら長くします。
コンセプトごとに一貫したファイル名プレフィックスを保持し、後でStable AudioテイクをA/B比較できるようにします。

より深い読み物のためのリソース：Stable Audioモデルの詳細と例こちら、ComfyUIのコアとノードの動作こちら、およびT5-Baseモデルカードこちら。

謝辞#

このワークフローは、以下の作品とリソースを実装および構築しています。Stable Audio OpenのためのStability AI、ComfyUIノードとワークフローレファレンスのためのcomfyanonymous (ComfyUI)、およびStable Audio Open 1.0チェックポイントとT5-BaseテキストエンコーダーのためのComfy-OrgとComfyUI-Wikiの貢献と維持に感謝します。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。

リソース#

Comfy-Org/Stable Audio Open 1.0 ワークフロー
- GitHub: Stability-AI/stable-audio-open

注：参照されたモデル、データセット、およびコードの使用は、それぞれの著者および管理者によって提供されるライセンスおよび条件に従います。

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio: 高品質な音声生成のための高度なビデオから音声へのモデル。

ACE-Step 音楽生成 | AI オーディオ作成

画期的な拡散技術でスタジオ品質の音楽を15倍速く生成します。

EchoMimic | オーディオ駆動のポートレートアニメーション

提供されたオーディオと同期したリアルなトーキングヘッドとボディジェスチャーを生成します。

ACE++ キャラクターの一貫性

単一の写真からポーズ、角度、スタイルにわたって一貫性のあるキャラクター画像を生成します。

Wan2.2 Animate Action Transfer V7 | AI Motion Video Maker

キャラクターを実際の人々のように動かすことができ、速くかつコントロールされた動作を実現します。

LTX 2.3 デュアルキャラクターリップシンク LoRA | トーキングシーンビルダー

同期されたスピーチと表情でリアルなデュアルキャラクターの会話を構築します。

Z-Image LoRA 推論 | AI Toolkit ComfyUI

AI Toolkit でトレーニングされた Z-Image LoRA を ComfyUI で適用し、トレーニングに一致する出力を得るために単一の RCZimage パイプラインノードを使用します。

Wan2.2 Fun Camera | 画像からのシネマティックモーション

静止画を滑らかなカメラ動作で生き生きとしたシネマティックショットに変えます。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

Stable Audio Open 1.0 | テキストから音楽へのツール