logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>ワークフロー>Stable Audio Open 1.0 | テキストから音楽へのツール

Stable Audio Open 1.0 | テキストから音楽へのツール

Workflow Name: RunComfy/Stable-Audio
Workflow ID: 0000...1308
このテキストから音楽へのワークフローを使用して、書かれたプロンプトから表現力豊かなサウンドスケープや音楽を生成します。高度なオーディオ拡散モデルに基づいて構築されており、持続時間、トーン、感情を完全に制御できます。シネマティックまたはアンビエントなサウンド出力を求めるデザイナーやクリエイターに最適です。テキストを精密にエンコードし、現実的で聴きやすいオーディオに処理します。どんなクリエイティブなテーマやムードにも一貫した品質と柔軟性を提供します。

Stable Audio Open 1.0 テキストから音楽へのワークフロー

このワークフローは、Stable Audio Open 1.0を使用してプレーンテキストを独自の音楽やサウンドスケープに変換します。作曲家やサウンドデザイナー、クリエイターがComfyUIを離れることなく、迅速で制御可能なオーディオ生成を望む場合に設計されています。プロンプトを書き、目標の持続時間を設定し、グラフがスタイル、ムード、テンポ、楽器編成を反映したMP3をレンダリングします。

内部では、ワークフローがT5ベースのテキストエンコーダーでテキストをエンコードし、Stable Audioの拡散プロセスを潜在オーディオ空間で実行し、波形にデコードして結果を保存します。明確なプロンプトガイダンスとシンプルな長さ制御により、Stable Audio生成はシネマティック、アンビエント、または実験的なトラックに対して予測可能で反復可能になります。

Comfyui Stable Audioワークフローの主要なモデル

  • Stable Audio Open 1.0。Stability AIによるテキストから音楽およびサウンドデザイン用のオープンウェイト潜在拡散モデル。テキストの意図をオーディオラテントにマッピングし、多様な音楽スタイルと構造をサポートします。Repository • Weights
  • T5-Base Text Encoder。ここで使用される一般用途のテキストモデルで、Stable Audio生成のコンディショニングのためにプロンプトを埋め込みます。明確で記述的な入力はより一貫した音楽を導きます。Model card

Comfyui Stable Audioワークフローの使用方法

グラフはモデルのロードからプロンプトのコンディショニング、サンプリング、デコード、保存へと流れます。グループはモデルを一度設定し、長さを調整し、プロンプトを書いてレンダリングできるように整理されています。

モデルをロード

このグループはコア資産を初期化します。CheckpointLoaderSimple (#4)はStable Audio Open 1.0チェックポイントをロードし、拡散モデルとそのオーディオVAEを含みます。CLIPLoader (#10)はコンディショニングに使用されるT5ベースのテキストエンコーダーをロードします。ロードされると、これらのモデルはStable Audio生成のバックボーンを提供し、後続の実行に常駐します。

長さ

このグループはオーディオの長さを定義します。EmptyLatentAudio (#11)は選択した持続時間で空の潜在トラックを作成し、サンプラーが生成するフレーム数を知ることができます。長いクリップはより多くの時間とメモリを消費するため、控えめに開始してからスケールアップします。アイデアを探索する際にバッチ次元を増やすことで複数のバリエーションを生成することもできます。

プロンプト

このグループはテキストを拡散プロセスのガイダンスシグナルに変換します。CLIPTextEncode (#6)を使用して、楽器、ジャンル、ムード、テンポ、プロダクションのヒントを含むポジティブプロンプトを書きます。例えば:「豪華なシネマティックオーケストラ、広がるストリングスとブラス、深いパーカッション、アンビエントパッド、90 BPM、心を揺さぶる」。CLIPTextEncode (#7)を使用して「厳しいノイズ、クリッピング、歪み」などのアーティファクトを抑制するネガティブプロンプトを書きます。これらを組み合わせて、希望するテクスチャや構造にStable Audioを導きます。

生成とエクスポート

KSampler (#3)は、テキストエンコーディングによって導かれた音楽ラテントへの変換を行う拡散ステップを実行します。VAEDecodeAudio (#12)はラテントオーディオを波形に変換します。最後にSaveAudioMP3 (#19)がMP3ファイルを書き出し、レビューまたはタイムラインに直接ドロップできます。反復作業のために、ファイル名のプレフィックスを調整してテイクを整理します。

Comfyui Stable Audioワークフローの主要ノード

  • CLIPTextEncode (#6) このノードは、Stable Audioが従うコンディショニングにポジティブプロンプトをエンコードします。明確な楽器リスト、ジャンル、ムード、テンポまたはBPM、プロダクション用語「暖かい」、「ローファイ」、「シネマティック」、「アンビエント」などを優先してください。微妙な表現の違いが作曲を大きく変えることがあります。一般的な動作はComfyUIのコアノードを参照してください。ComfyUI

  • CLIPTextEncode (#7) ネガティブプロンプトは不要な音色やミックスの問題を回避するのに役立ちます。例えば「キーキー音、金属的な鳴り、グリッチポップ、ラジオのヒス音」を取り除くための用語を追加します。これを簡潔に保つことで、よりクリーンなStable Audioのレンダリングを得ることができます。ComfyUI

  • EmptyLatentAudio (#11) 秒単位でクリップの持続時間、オプションでバッチ数を制御します。秒数を増やして長い作品を作成し、長さに応じて計算が拡張されることに注意してください。バッチ生成を使用して単一のプロンプトから複数のStable Audioテイクを試聴します。ComfyUI

  • KSampler (#3) オーディオラテントの拡散プロセスを駆動します。最も影響力のあるコントロールはsteps、sampler、cfg、seedです。stepsを増やして詳細を洗練し、cfgを調整してプロンプトへの適合性と創造性をバランスさせ、固定seedを設定してテイクを再現するか、新しいアイデアのために変化させます。一般的なガイダンスはComfyUIのサンプラーノートを参照してください。ComfyUI

  • SaveAudioMP3 (#19) 最終波形をMP3にエクスポートします。filename_prefixを使用してバージョンをラベル付けし、反復を整理します。プロンプトやシードを比較する際、複数のテイクを並べて保存することでStable Audioの選択が速くなります。ComfyUI

オプションの追加

  • セッションブリーフのようにプロンプトを書く:楽器、ジャンル、ムード、テンポまたはBPM、ミックスの形容詞。
  • 短く、焦点を絞ったネガティブプロンプトを使用して、ヒス音、厳しさ、不要な楽器を減らします。
  • テキストを繰り返しながらseedをロックし、その後seedを変更して新しいStable Audioのバリエーションを探索します。
  • スタイルを調整するために短い持続時間で始め、サウンドが適切になったら長くします。
  • コンセプトごとに一貫したファイル名プレフィックスを保持し、後でStable AudioテイクをA/B比較できるようにします。

より深い読み物のためのリソース:Stable Audioモデルの詳細と例こちら、ComfyUIのコアとノードの動作こちら、およびT5-Baseモデルカードこちら。

謝辞

このワークフローは、以下の作品とリソースを実装および構築しています。Stable Audio OpenのためのStability AI、ComfyUIノードとワークフローレファレンスのためのcomfyanonymous (ComfyUI)、およびStable Audio Open 1.0チェックポイントとT5-BaseテキストエンコーダーのためのComfy-OrgとComfyUI-Wikiの貢献と維持に感謝します。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。

リソース

  • Comfy-Org/Stable Audio Open 1.0 ワークフロー
    • GitHub: Stability-AI/stable-audio-open

注:参照されたモデル、データセット、およびコードの使用は、それぞれの著者および管理者によって提供されるライセンスおよび条件に従います。

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio: 高品質な音声生成のための高度なビデオから音声へのモデル。

ACE-Step 音楽生成 | AI オーディオ作成

画期的な拡散技術でスタジオ品質の音楽を15倍速く生成します。

EchoMimic | オーディオ駆動のポートレートアニメーション

提供されたオーディオと同期したリアルなトーキングヘッドとボディジェスチャーを生成します。

ACE++ キャラクターの一貫性

単一の写真からポーズ、角度、スタイルにわたって一貫性のあるキャラクター画像を生成します。

FramePackラッパー | 効率的な長時間ビデオ生成

クラウドリソースを最小限に抑え、安定した60秒以上の長さのビデオを作成します。

IPAdapter Plus(V2)| 服を変更

IPAdapter Plus(V2)| 服を変更

ファッションモデルの作成にはIPAdapter Plusを使用し、アウトフィットとスタイルを簡単に変更できます

ByteDance USO | 統合スタイル&サブジェクトジェネレーター

ByteDance USOは、サブジェクトとスタイルの融合を簡単かつ強力にします。

AnimateDiff + ControlNet + IPAdapter V1 | アドベンチャーゲームスタイル

標準のビデオをアドベンチャーゲームスタイルに革新し、ゲームのスリルを生き生きと表現しましょう!

フォローする
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
サポート
  • Discord
  • メール
  • システムステータス
  • アフィリエイト
リソース
  • 無料のComfyUIオンライン
  • ComfyUIガイド
  • RunComfy API
  • ComfyUIチュートリアル
  • ComfyUIノード
  • 詳細を見る
法的情報
  • 利用規約
  • プライバシーポリシー
  • Cookieポリシー
RunComfy
著作権 2025 RunComfy. All Rights Reserved.

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。