ACE-Step 1.5XL Base 文本到音樂在 ComfyUI

ComfyUI ACE-Step 1.5XL Base text to music Workflow

ACE-Step 1.5XL Base text to music in ComfyUI | AI Audio Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI ACE-Step 1.5XL Base text to music Examples

ACE-Step 1.5XL Base 文本到音樂：ComfyUI 的提示到歌曲工作流程#

此工作流程使用 ACE-Step 1.5XL Base 擴散家族將自然語言描述轉換為完成的音頻。它將基本模型與其 ACE Step VAE 和雙 Qwen 文本編碼器配對，以確保結果堅定地處於音樂領域，而不是 TTS 或語音。如果您想要具有可預測結構、節奏和樂器的提示驅動 AI 音樂，這個 ACE-Step 1.5XL Base 文本到音樂管道是一個專注的最小設置，能夠快速將您的想法轉換為 MP3。

專為製作人、音效設計師和創作者設計，該圖強調透明度：選擇模型，設置持續時間，撰寫音樂提示，然後生成並保存。ACE-Step 1.5XL Base 文本到音樂工作流程足夠緊湊以進行快速迭代，同時保持對詳細編排、調性和節奏的表達能力。

Comfyui ACE-Step 1.5XL Base 文本到音樂工作流程中的關鍵模型#

ACE-Step 1.5 XL Base (bf16) 擴散模型。生成的骨幹將音頻潛在變成連貫的音樂短語和紋理。模型文件
ACE Step 1.5 VAE。成對的變分自動編碼器，在潛在空間和波形域之間進行編碼/解碼，保留音色和混音平衡。模型文件
Qwen 4B ACE15 文本編碼器。為 ACE 改編的大型文本編碼器，從提示中捕捉豐富的音樂語義、結構和編排提示。模型文件
Qwen 0.6B ACE15 文本編碼器。輕量級的 ACE 適應編碼器，優先考慮速度和資源效率，同時保留強大的提示理解力。模型文件

如何使用 Comfyui ACE-Step 1.5XL Base 文本到音樂工作流程#

該圖分為三組，流入生成和導出：模型、持續時間和提示。您加載模型，選擇目標長度，描述音樂，然後取樣器創建潛在變量，VAE 將其解碼為音頻。

模型#

此組加載核心資產。UNETLoader (#104) 選擇 ACE-Step 1.5 XL Base 擴散檢查點，VAELoader (#106) 加載匹配的 ACE Step 1.5 VAE，以便解碼質量與訓練一致。DualCLIPLoader (#105) 將兩個 Qwen ACE15 編碼器引入工作流程，工作流程將它們結合使用，以便豐富的文本提示轉化為強大的音樂條件。

持續時間#

在這裡您決定作品的長度。Song Duration (#99) 設置以秒為單位的目標長度，並向前推進，以便潛在畫布和文本條件保持一致。PrimitiveInt (#109) 提供一個種子，讓您鎖定確切的結果以便重現，或改變它以探索替代版本。

提示#

這就是語言變成音樂的地方。在 TextEncodeAceStepAudio1.5 (#94) 中撰寫您的描述，包括有用的音樂元數據，如節奏（BPM）、節拍、調性、樂器編排、聲樂存在和混音說明。該節點發出正面條件；ConditioningZeroOut (#47) 提供中立的負面路徑，以便生成保持專注於您的描述。EmptyAceStep1.5LatentAudio (#98) 為選擇的持續時間初始化潛在音頻時間線。ModelSamplingAuraFlow (#78) 將基本模型適應於 ACE-Step 音頻的調度器。KSampler (#3) 結合模型、條件、潛在變量和種子生成音樂潛在變量。VAEDecodeAudio (#18) 將潛在變量轉換回波形，SaveAudioMP3 (#107) 將結果寫入準備分享的 MP3 文件。

Comfyui ACE-Step 1.5XL Base 文本到音樂工作流程中的關鍵節點#

`TextEncodeAceStepAudio1.5` (#94)#

將您的提示轉換為擴散模型可以遵循的條件。它接受音樂細節，如節奏、時間簽名、調性、編排說明、樂器、語言和可選的聲樂意圖。為了獲得最佳效果，請具體描述流派、感覺和混音位置，並保持結構提示簡潔，以便模型能夠在請求的持續時間內保持連貫性。

`EmptyAceStep1.5LatentAudio` (#98)#

為作品創建潛在音頻“畫布”。將其秒數與您在 Song Duration (#99) 中設置的時間匹配，並在文本編碼器中引用以避免不必要的截斷或填充。更長的畫布邀請更漸進的發展，而較短的畫布適合循環、提示和短音。

`ModelSamplingAuraFlow` (#78)#

配置專為 ACE-Step 音頻設計的取樣策略。按提供的方式使用，以獲得穩定的結果；只有在您有特定的調度器偏好時才進行調整，因為它會與 KSampler (#3) 中的步數和指導互動。

`KSampler` (#3)#

執行將條件轉化為音頻潛在變量的去噪。這裡的關鍵杠桿是取樣器類型、步數和種子。增加步數來細化細節，但會消耗時間；在比較提示時保持種子固定，以便您可以將變化歸因於文本而非隨機性。

`DualCLIPLoader` (#105)#

加載兩個 Qwen ACE15 文本編碼器。如果您可以訪問兩者，請先啟用 4B 編碼器以獲得更豐富的語言理解；當您需要更快的迭代或更低的內存使用時，切換到 0.6B 變體。在評估微調提示時，保持編碼器選擇一致。

`ConditioningZeroOut` (#47)#

提供中立的負面路徑。如果您想抑制特定的工件或偏離語音內容，可以用實際的負面提示節點替換此節點；否則零化的負面保持 ACE-Step 1.5XL Base 文本到音樂生成專注於您的正面描述。

可選附加功能#

以緊湊的配方開始提示：流派 + 情緒 + 節奏 + 節拍 + 調性 + 樂器 + 編排 + 混音說明。
使用明確的音樂動詞和角色（主音、墊音、低音、打擊樂器），以便模型在混音中分配空間，避免語音內容。
在 A/B 測試提示時固定種子，然後改變種子以探索獲勝想法的替代表演。
讓 Song Duration (#99)、TextEncodeAceStepAudio1.5 (#94) 和 EmptyAceStep1.5LatentAudio (#98) 的持續時間保持一致，以獲得可預測的措辭。
選擇 Qwen 4B 以獲得更豐富的提示理解力，或選擇 0.6B 以獲得速度；在迭代時保持您的選擇不變，以便進行公平的比較。

感謝#

此工作流程實現並建立在以下作品和資源之上。我們感謝 Comfy.org 提供 audio_ace_step1_5_xl_base 工作流程，感謝 Comfy-Org 提供 ACE Step 1.5 XL Base 擴散模型和 ACE Step 1.5 VAE，感謝 Qwen 團隊提供 0.6B 和 4B ACE15 文本編碼器的貢獻和維護。欲了解詳細內容，請參閱以下鏈接的原始文檔和存儲庫。

資源#

Comfy.org/Workflow source page
- Docs / Release Notes: audio_ace_step1_5_xl_base workflow page
Comfy-Org/ACE Step 1.5 XL Base diffusion model
- Hugging Face: acestep_v1.5_xl_base_bf16.safetensors
Comfy-Org/ACE Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
Comfy-Org/Qwen 0.6B ACE15 text encoder
- Hugging Face: qwen_0.6b_ace15.safetensors
Comfy-Org/Qwen 4B ACE15 text encoder
- Hugging Face: qwen_4b_ace15.safetensors

注意：使用引用的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。

Want More ComfyUI Workflows?

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術，以 15 倍速度生成錄音室品質的音樂。

Ace Step 1.5 | 商業級 AI 音樂生成器

使用智能規劃和擴散能力將文本轉換為完整歌曲。

Stable Audio Open 1.0 | 文本到音樂工具

將文本提示無縫快速地轉換為電影配樂。

MMAudio | Video-to-Audio

MMAudio：先進的視頻到音頻模型，用於高品質音頻生成。

Woosh 音效生成 | Text2Audio + VideoSync

將提示和視頻轉換為尖銳的同步音效。

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

利用 LoRA 模型、ControlNet 和 InstantID 進行高級面孔多風格轉換

Hunyuan Video | Image-Prompt to Video

將圖像和文字提示轉換為動態視頻。

Wan 2.2 + Lightx2v V2 | 超高速 I2V & T2V

雙重 Light LoRA 組合，速度提升 4 倍。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

ACE-Step 1.5XL Base 文本到音樂 | AI 音頻生成器