ACE-Step 音楽生成 | AI オーディオ作成
ACE-Stepは、生成速度と音楽品質のギャップを埋める画期的なオープンソースの基盤モデルです。拡散ベースの生成をSanaのDeep Compression AutoEncoderと軽量な線形トランスフォーマーと統合することで、最大4分の高品質な音楽をわずか20秒で合成します。これはLLMベースの代替案より15倍速いです。このモデルは音楽的一貫性を維持しながら、歌詞、声のクローン作成、およびリミックス機能において高度な制御を提供します。ComfyUI ACE-Step ワークフロー
ComfyUI ACE-Step 例
ComfyUI ACE-Step 説明
1. ComfyUI ACE-Step ワークフローとは?
ComfyUI ACE-Stepは、新たに開発されたACE-Step音楽生成基盤モデルをComfyUI環境に統合しています。拡散ベースの生成をSanaのDeep Compression AutoEncoder (DCAE)と軽量な線形トランスフォーマーと組み合わせたハイブリッドアーキテクチャに基づいて構築されており、超高速かつ高品質な音楽生成を可能にし、卓越した制御能力を提供します。このワークフローにより、ユーザーはシンプルな自然言語のプロンプトと歌詞を使用して多様なジャンルやスタイルのオリジナル音楽を作成できます。
2. ComfyUI ACE-Stepの利点:
- 前例のない速度: 20秒で最大4分の音楽を合成します—LLMベースの代替案より15倍速い
- 音楽的一貫性: ACE-Stepはメロディー、ハーモニー、リズムの各次元で優れた品質を維持します
- 多言語対応: トップ10言語で卓越したパフォーマンスを発揮し、19の異なる言語で音楽を生成
- 高度な制御: 声のクローン作成、歌詞編集、リミックス、トラック生成を微細なパラメーターで可能にします
- 創造的な柔軟性: 様々な音楽スタイル、ジャンル、楽器をサポートし、多様な説明形式に対応
- シームレスな統合: ComfyUIワークフローに直接プラグインし、AIによるオーディオ作成を可能にします
3. ComfyUI ACE-Step ワークフローの使用方法
3.1 ComfyUI ACE-Stepによる生成方法
ACE-Stepの設定例:
- 入力を準備:
TextEncodeAceStepAudio
ノードで:- 音楽スタイルの説明タグを追加 (例: "country rock, folk rock, southern rock, bluegrass, pop")
- [verse], [chorus], [bridge]のような構造タグを使用して歌詞を入力
- lyrics_strengthを調整 (デフォルトは1.00)
KSampler
ノードのパラメーターを設定:- ステップを調整 (ACE-Stepには50が推奨)
- cfgを設定 (デフォルトは4.0)
- denoise値を設定 (デフォルトは1.00)
EmptyAceStepLatentAudio
ノードで:- 希望する秒数の長さを設定 (デフォルトは30.0)
- batch_sizeを設定
Run
ボタンをクリックしてACE-Stepワークフローを実行SaveAudio
ノードで音楽を聴くか保存
ACE-Stepコア生成ワークフロー
- 最適用途: テキストの説明と歌詞からオリジナル音楽を作成
- 特徴:
- 迅速な生成 (LLM代替案より15倍速い)
- 強力な音楽的一貫性と品質
- 柔軟な長さの制御
ACE-Step専門ワークフロー (LoRAベース)
- Lyric2Vocal: 歌詞から高品質なボーカルを生成するために微調整されたACE-Stepモデル
- Text2Samples: 楽器ループとサンプルを生成するための専門的なACE-Stepバリアント
- RapMachine: 様々なスタイルのラップ生成に最適化されたACE-Stepモデル
3.2 ComfyUI ACE-Stepのパラメーターリファレンス
TextEncodeAceStepAudioノード: このノードは、ACE-Step音楽生成を指導するためのテキスト入力を処理します。
clip
: スタイルの説明、ジャンル、ムードのテキストフィールドlyrics
: 構造タグを含む歌詞のテキストフィールドlyrics_strength
: 歌詞が生成に与える影響を制御 (デフォルト: 1.00)
KSamplerノード: ACE-Stepにおける拡散サンプリングプロセスを制御します。
seed
: 再現可能な結果のためのランダム化シードを設定control_after_generate
: 生成後のシードの動作オプションsteps
: 拡散ステップ数 (高いほどより精緻化)cfg
: クラスフィアフリーガイダンススケール (高いほどプロンプトへの忠実度が高い)sampler_name
: サンプリングに使用するアルゴリズム (res_multistep推奨)scheduler
: ノイズスケジュールタイプ (simple推奨)denoise
: ノイズ除去レベルを制御 (1.00は完全なデノイズ)
EmptyAceStepLatentAudioノード: オーディオ生成スペースを初期化します。
seconds
: 生成されるオーディオの秒数batch_size
: 同時に生成するサンプル数
VAEDecodeAudioノード: 潜在表現を可聴フォーマットにデコードします。
samples
: KSamplerからの入力vae
: デコードに使用するVAEモデル
SaveAudioノード: 最終的なACE-Stepオーディオ結果を出力します。
filename_prefix
: 保存されたオーディオファイルのプレフィックスaudio
: 生成されたオーディオをプレビューするためのプレイヤー
3.3 ComfyUI ACE-Stepの高度なテクニック
バリエーション生成:
- 元のACE-Step生成に対する類似性を制御するために分散パラメーターを調整
- 高い分散は、コア音楽要素を保持しながらより多様な出力を生成
リペイント:
- オーディオの特定のセクションを選択的に再生成し、残りを保持
- 問題のあるセグメントを修正するのに役立ち、全体の作曲を変更せずに
ACE-Stepでの歌詞編集:
- メロディー、ボーカルトーン、伴奏を維持しながら歌詞を修正
- 音楽的構造を保持しながら複数の言語で編集をサポート
声のクローン作成:
- ACE-Stepで新しいコンテンツを生成しながら声の特徴を保持
- 歌詞編集と組み合わせて柔軟なボーカルパフォーマンスを実現可能
スタイル転送:
- 既存の作曲に新しい音楽スタイルを適用
- 異なるジャンルの特徴を採用しながらコア音楽構造を維持
3.4. ACE-Stepプロンプトのヒント:
一般音楽向け:
- ACE-Stepプロンプトでジャンル、ムード、楽器について具体的に述べる
- プロンプト例: "electronic, rock, pop" または "funk, pop, soul, melodic"
- より詳細なプロンプト: "dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"
器楽音楽向け:
- 楽器と音楽の特徴を指定
- プロンプト例: "saxophone, jazz" または "violin, solo, fast tempo"
- より詳細なプロンプト: "sonata, piano, Violin, B Flat Major, allegro"
多言語サポート向け:
- ACE-Stepは以下の言語で最も効果的に動作します: 英語、中国語、ロシア語、スペイン語、日本語、ドイツ語、フランス語、ポルトガル語、イタリア語、韓国語
- 中国語、日本語、韓国語のような非ラテン文字の言語も十分にサポートされています
ACE-Stepに関する詳細情報
追加の詳細と開発リファレンスについては:
- によるオリジナルのACE-Stepモデル
- モデル開発者: Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, and Joe Guo
謝辞
このワークフローは、ACE StudioとStepFunが共同開発したACE-Stepによって駆動されています。ComfyUI ACE-Stepの統合は、ComfyUI環境内でのシームレスな音楽生成を可能にします。ACE-Stepに関する画期的な作業を行ったオリジナルの著者に全てのクレジットが与えられます。