logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>工作流程>ACE-Step 1.5XL Base 文本到音樂 | AI 音頻生成器

ACE-Step 1.5XL Base 文本到音樂 | AI 音頻生成器

Workflow Name: RunComfy/ACE-Step-1.5XL-Base-text-to-music
Workflow ID: 0000...1396
此工作流程允許您使用集成的擴散設置從文本提示創建複雜的音樂作品。基於 ACE-Step 1.5XL Base 模型,它結合了先進的 VAE 和 Qwen 編碼器,以創建清晰、結構化的音頻。您可以在不進行編輯或後期處理的情況下製作可用的高品質音樂。它完全專注於音樂生成,而不是語音或 TTS。適合尋求定制文本驅動音頻結果的設計師、創作者和音效工程師。

ACE-Step 1.5XL Base 文本到音樂:ComfyUI 的提示到歌曲工作流程

此工作流程使用 ACE-Step 1.5XL Base 擴散家族將自然語言描述轉換為完成的音頻。它將基本模型與其 ACE Step VAE 和雙 Qwen 文本編碼器配對,以確保結果堅定地處於音樂領域,而不是 TTS 或語音。如果您想要具有可預測結構、節奏和樂器的提示驅動 AI 音樂,這個 ACE-Step 1.5XL Base 文本到音樂管道是一個專注的最小設置,能夠快速將您的想法轉換為 MP3。

專為製作人、音效設計師和創作者設計,該圖強調透明度:選擇模型,設置持續時間,撰寫音樂提示,然後生成並保存。ACE-Step 1.5XL Base 文本到音樂工作流程足夠緊湊以進行快速迭代,同時保持對詳細編排、調性和節奏的表達能力。

Comfyui ACE-Step 1.5XL Base 文本到音樂工作流程中的關鍵模型

  • ACE-Step 1.5 XL Base (bf16) 擴散模型。生成的骨幹將音頻潛在變成連貫的音樂短語和紋理。模型文件
  • ACE Step 1.5 VAE。成對的變分自動編碼器,在潛在空間和波形域之間進行編碼/解碼,保留音色和混音平衡。模型文件
  • Qwen 4B ACE15 文本編碼器。為 ACE 改編的大型文本編碼器,從提示中捕捉豐富的音樂語義、結構和編排提示。模型文件
  • Qwen 0.6B ACE15 文本編碼器。輕量級的 ACE 適應編碼器,優先考慮速度和資源效率,同時保留強大的提示理解力。模型文件

如何使用 Comfyui ACE-Step 1.5XL Base 文本到音樂工作流程

該圖分為三組,流入生成和導出:模型、持續時間和提示。您加載模型,選擇目標長度,描述音樂,然後取樣器創建潛在變量,VAE 將其解碼為音頻。

模型

此組加載核心資產。UNETLoader (#104) 選擇 ACE-Step 1.5 XL Base 擴散檢查點,VAELoader (#106) 加載匹配的 ACE Step 1.5 VAE,以便解碼質量與訓練一致。DualCLIPLoader (#105) 將兩個 Qwen ACE15 編碼器引入工作流程,工作流程將它們結合使用,以便豐富的文本提示轉化為強大的音樂條件。

持續時間

在這裡您決定作品的長度。Song Duration (#99) 設置以秒為單位的目標長度,並向前推進,以便潛在畫布和文本條件保持一致。PrimitiveInt (#109) 提供一個種子,讓您鎖定確切的結果以便重現,或改變它以探索替代版本。

提示

這就是語言變成音樂的地方。在 TextEncodeAceStepAudio1.5 (#94) 中撰寫您的描述,包括有用的音樂元數據,如節奏(BPM)、節拍、調性、樂器編排、聲樂存在和混音說明。該節點發出正面條件;ConditioningZeroOut (#47) 提供中立的負面路徑,以便生成保持專注於您的描述。EmptyAceStep1.5LatentAudio (#98) 為選擇的持續時間初始化潛在音頻時間線。ModelSamplingAuraFlow (#78) 將基本模型適應於 ACE-Step 音頻的調度器。KSampler (#3) 結合模型、條件、潛在變量和種子生成音樂潛在變量。VAEDecodeAudio (#18) 將潛在變量轉換回波形,SaveAudioMP3 (#107) 將結果寫入準備分享的 MP3 文件。

Comfyui ACE-Step 1.5XL Base 文本到音樂工作流程中的關鍵節點

TextEncodeAceStepAudio1.5 (#94)

將您的提示轉換為擴散模型可以遵循的條件。它接受音樂細節,如節奏、時間簽名、調性、編排說明、樂器、語言和可選的聲樂意圖。為了獲得最佳效果,請具體描述流派、感覺和混音位置,並保持結構提示簡潔,以便模型能夠在請求的持續時間內保持連貫性。

EmptyAceStep1.5LatentAudio (#98)

為作品創建潛在音頻“畫布”。將其秒數與您在 Song Duration (#99) 中設置的時間匹配,並在文本編碼器中引用以避免不必要的截斷或填充。更長的畫布邀請更漸進的發展,而較短的畫布適合循環、提示和短音。

ModelSamplingAuraFlow (#78)

配置專為 ACE-Step 音頻設計的取樣策略。按提供的方式使用,以獲得穩定的結果;只有在您有特定的調度器偏好時才進行調整,因為它會與 KSampler (#3) 中的步數和指導互動。

KSampler (#3)

執行將條件轉化為音頻潛在變量的去噪。這裡的關鍵杠桿是取樣器類型、步數和種子。增加步數來細化細節,但會消耗時間;在比較提示時保持種子固定,以便您可以將變化歸因於文本而非隨機性。

DualCLIPLoader (#105)

加載兩個 Qwen ACE15 文本編碼器。如果您可以訪問兩者,請先啟用 4B 編碼器以獲得更豐富的語言理解;當您需要更快的迭代或更低的內存使用時,切換到 0.6B 變體。在評估微調提示時,保持編碼器選擇一致。

ConditioningZeroOut (#47)

提供中立的負面路徑。如果您想抑制特定的工件或偏離語音內容,可以用實際的負面提示節點替換此節點;否則零化的負面保持 ACE-Step 1.5XL Base 文本到音樂生成專注於您的正面描述。

可選附加功能

  • 以緊湊的配方開始提示:流派 + 情緒 + 節奏 + 節拍 + 調性 + 樂器 + 編排 + 混音說明。
  • 使用明確的音樂動詞和角色(主音、墊音、低音、打擊樂器),以便模型在混音中分配空間,避免語音內容。
  • 在 A/B 測試提示時固定種子,然後改變種子以探索獲勝想法的替代表演。
  • 讓 Song Duration (#99)、TextEncodeAceStepAudio1.5 (#94) 和 EmptyAceStep1.5LatentAudio (#98) 的持續時間保持一致,以獲得可預測的措辭。
  • 選擇 Qwen 4B 以獲得更豐富的提示理解力,或選擇 0.6B 以獲得速度;在迭代時保持您的選擇不變,以便進行公平的比較。

感謝

此工作流程實現並建立在以下作品和資源之上。我們感謝 Comfy.org 提供 audio_ace_step1_5_xl_base 工作流程,感謝 Comfy-Org 提供 ACE Step 1.5 XL Base 擴散模型和 ACE Step 1.5 VAE,感謝 Qwen 團隊提供 0.6B 和 4B ACE15 文本編碼器的貢獻和維護。欲了解詳細內容,請參閱以下鏈接的原始文檔和存儲庫。

資源

  • Comfy.org/Workflow source page
    • Docs / Release Notes: audio_ace_step1_5_xl_base workflow page
  • Comfy-Org/ACE Step 1.5 XL Base diffusion model
    • Hugging Face: acestep_v1.5_xl_base_bf16.safetensors
  • Comfy-Org/ACE Step 1.5 VAE
    • Hugging Face: ace_1.5_vae.safetensors
  • Comfy-Org/Qwen 0.6B ACE15 text encoder
    • Hugging Face: qwen_0.6b_ace15.safetensors
  • Comfy-Org/Qwen 4B ACE15 text encoder
    • Hugging Face: qwen_4b_ace15.safetensors

注意:使用引用的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。

Want More ComfyUI Workflows?

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術,以 15 倍速度生成錄音室品質的音樂。

Ace Step 1.5 | 商業級 AI 音樂生成器

使用智能規劃和擴散能力將文本轉換為完整歌曲。

Stable Audio Open 1.0 | 文本到音樂工具

將文本提示無縫快速地轉換為電影配樂。

MMAudio | Video-to-Audio

MMAudio:先進的視頻到音頻模型,用於高品質音頻生成。

Woosh 音效生成 | Text2Audio + VideoSync

將提示和視頻轉換為尖銳的同步音效。

AnimateDiff + ControlNet + IPAdapter V1 | 冒險遊戲風格

將影片革命性地轉變為冒險遊戲風格,讓遊戲的刺激感活現!

Mochi 1 | Genmo 文字轉影片

使用 Genmo Mochi 1 模型的文字轉影片演示

先進實時肖像 | 參數控制

使用可自定義的參數來控制每個特徵,從眨眼到頭部運動,以獲得自然的結果。

關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2026 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。