ACE-Step 1.5XL Turbo Text-to-Music ComfyUI ワークフロー
このcomfyuiワークフローを使用して、コンパクトなプロンプトを洗練されたMP3音楽に変換します。スピードと再現性に焦点を当てています。ACE-Step 1.5XL Turboジェネレーターを公式VAEとデュアルQwenテキストエンコーダーとペアリングし、MP3に直接エクスポートして簡単にプレビューおよび再利用できます。プロデューサー、サウンドデザイナー、プロンプトアーティストは、結果を一貫して保ちながら迅速に反復できます。
このcomfyuiワークフローの主要モデル
- ACE-Step 1.5XL Turbo (bf16). テキスト条件付けから音楽を合成するコア拡散モデルで、迅速なノイズ除去と高品質なオーディオレイテントに最適化されています。 Model file
- ACE-Step 1.5 VAE. オーディオレイテントを最終波形に変換し、ACE-Stepファミリーが期待する音色とダイナミクスを保持します。 Model file
- Qwen 0.6B ACE 1.5 テキストエンコーダー. あなたの説明的プロンプトをジェネレーターが使用する条件付けベクトルに変換する軽量エンコーダー。 Model file
- Qwen 4B ACE 1.5 テキストエンコーダー. より忠実なレンダリングのために、セマンティクス、スタイルキュー、楽器、ボーカルヒントを豊かにする大きなコンパニオンエンコーダー。 Model file
このcomfyuiワークフローの使用方法
グラフは2つのメイングループとグローバルコントロールに編成されています。ACE-Stepモデルスタックをロードし、欲しい音楽を説明し、曲の長さとシードを設定し、サンプリング、デコード、MP3にエクスポートします。
モデルグループ
このセクションはジェネレーターが期待するモデルスタックを初期化します。UNETLoader (#104) はACE-Step 1.5XL Turboをロードし、VAELoader (#106) は一致するACE-Step 1.5 VAEを持ち込み、デコードが忠実に保たれるようにします。DualCLIPLoader (#105) はQwen 0.6Bと4Bテキストエンコーダーをペアリングし、プロンプトエンベディングを準備します。UNetはModelSamplingAuraFlow (#78) を通じてルーティングされ、ノイズ除去が始まる前にモデルが必要とするサンプラー設定を適用します。
プロンプトグループ
ジャンル、ムード、楽器、ボーカル、テンポ、プロダクションスタイルをTextEncodeAceStepAudio1.5 (#94) で簡潔に記述します。歌詞や構造ノートを使用する場合は、セカンダリーテキストボックスに提供し、エンコーダーがフレージングとダイナミクスを条件付けできるようにします。否定的な条件付けは、初期の反復を単純化し、出力を集中させるためにConditioningZeroOut (#47) を介して意図的に無効にされています。このノードはグローバルなdurationとseedも受け入れ、条件付けがトラックの長さと再現性設定と一致するようにします。
長さとシード
Float (Duration) (#99) を使って秒単位でトラックの長さを設定します。Int (Seed) (#109) でエンコーダーとサンプラーの間で実行を再現可能にするためのシードを選びます。プロンプトのみを変更してシードを保持することは、クリエイティブな方向性をA/Bテストする信頼できる方法です。広範な探索のためには、プロンプトに満足した後にシードを変更します。
隠れオーディオセットアップ
EmptyAceStep1.5LatentAudio (#98) は、選択した長さに一致する空のオーディオレイテントを構築します。これはサンプラーがノイズ除去中に埋めるキャンバスとして機能します。長い長さはより多くの計算を必要とするので、プロンプトを検証するために短い長さから始め、スケールアップすることを検討してください。ワークフローは長さをグローバルに配線するため、レイテントと条件付けは常に同期します。
ノイズ除去とサンプリング
KSampler (#3) は、ACE-Step 1.5XL Turboモデルとあなたのプロンプト条件付けを使用して拡散プロセスを実行します。サンプラーパスはModelSamplingAuraFlow (#78) を通じてモデルが期待するスケジューラー設定に一致させるため、安定して迅速な収束を実現します。同じシードを使用して語彙やスタイルの変更を比較し、プロンプトが調整されたらサンプラー設定を調整します。サンプラーが終了すると、デコードの準備ができたオーディオレイテントが得られます。
デコードとエクスポート
VAEDecodeAudio (#18) は、意図した音色を保持するためにACE-Step 1.5 VAEを使用してレイテントを波形に変換します。SaveAudioMP3 (#107) はベースファイル名とオプションのバージョンタグを使用してMP3を書き出し、テイクを整理できます。MP3は迅速なレビューと共有に理想的で、後で別の形式で再レンダリングまたは再エクスポートすることができます。結果は標準のComfyUI出力場所に表示されます。
このcomfyuiワークフローの主要ノード
TextEncodeAceStepAudio1.5 (#94)
このノードは、ペアリングされたQwenエンコーダーを使用して、あなたの音楽の説明とオプションの歌詞をジェネレーターの条件付けに翻訳します。ジャンル、楽器、ボーカルの存在、テンポ、ムード、ミックスキャラクターについて具体的にプロンプトを保持します。ノードのdurationがグローバルな曲の長さと一致するようにし、構造とフレージングが整列するようにします。用語がアレンジメントと音色にどのように影響するかを理解するために、語彙を繰り返しながら固定されたseedを使用します。
EmptyAceStep1.5LatentAudio (#98)
モデルが埋める時間キャンバスを制御します。持続時間を増やすとメモリとレンダリング時間が増加するため、短いドラフトで反復し、長い作品に取り組む前に確認します。持続時間の変更は、プロンプトとシードが同じでも、知覚されるテンポとセクションペースを変える可能性があるため、意図的に行ってください。
KSampler (#3)
レイテントからノイズを除去する方法を制御することで、品質、速度、全体のテクスチャを駆動します。提供されたスケジューラーパスから始め、プロンプトが適切に感じられた後にサンプラー設定を調整します。迅速なドラフトにはサンプリング労力を減らし、高い忠実度のためには徐々に増やし、シードを一定に保つことで違いを簡単に聞き取れるようにします。一般的な指導については、ComfyUIリポジトリのコアサンプラーの動作を参照してください。 ComfyUI on GitHub
SaveAudioMP3 (#107)
エクスポートとファイル命名を処理し、テイクをカタログ化することができます。反復を追跡するために明確なベース名とバージョンタグを設定します。マスタリングまたはさらなる編集を計画する場合は、プロジェクトシードとプロンプトをメモに保持し、必要に応じて別のエクスポート設定で再レンダリングできます。
オプションの追加機能
- プロンプトを短く順序付けられたフレーズとして書く: ジャンル、ムード、キー感、テンポ、楽器、ボーカルタイプ、プロダクションスタイル。
- 歌詞を選択した持続時間に合わせて簡潔にし、終わり近くでの急いだフレージングを避けます。
- プロンプトを洗練しながらシードをロックし、同じ概要で異なるアレンジメントを探るためにシードを変える。
- 核心の音がうまくいったら、短い持続時間から始めて方向性を検証し、スケールアップします。
- 否定条件付けは設計上無効にされています。初期の探索後に厳格な除外が必要な場合にのみ、真の否定プロンプトを有効にして調整します。
謝辞
このワークフローは、以下の作品とリソースを実装し、基にしています。Audio ACE Step 1.5 XL Turboワークフローに対するComfy.orgと、ACE-Step 1.5XL Turbo拡散モデル、ACE-Step 1.5 VAE、ACE-Step 1.5テキストエンコーダー0.6B、およびACE-Step 1.5テキストエンコーダー4Bに対するComfy-Orgの貢献とメンテナンスに感謝します。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
リソース
- Comfy.org/Audio ACE Step 1.5 XL Turbo ワークフロー
- ドキュメント / リリースノート: Workflow page
- Comfy-Org/ACE-Step 1.5XL Turbo 拡散モデル
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
- Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
- Comfy-Org/ACE-Step 1.5 テキストエンコーダー 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
- Comfy-Org/ACE-Step 1.5 テキストエンコーダー 4B
- Hugging Face: qwen_4b_ace15.safetensors
注: 参照されるモデル、データセット、およびコードの使用は、それらの著者およびメンテナによって提供されるそれぞれのライセンスおよび条件に従います。
