logo
RunComfy
  • ComfyUI
  • EntraîneurNouveau
  • Modèles
  • API
  • Tarification
discord logo
ComfyUI>Workflows>ACE-Step 1.5XL Turbo comfyui workflow | Générateur de texte en musique

ACE-Step 1.5XL Turbo comfyui workflow | Générateur de texte en musique

Workflow Name: RunComfy/ACE-Step-1.5XL-Turbo
Workflow ID: 0000...1395
Créez de la musique instantanément à partir de n'importe quelle entrée textuelle en utilisant le workflow AI ACE-Step 1.5XL Turbo. Cette configuration intègre la pile de modèles ACE optimisée avec les encodeurs de texte Qwen pour produire des sorties MP3 nettes et détaillées. Elle permet aux concepteurs et créateurs audio de tester rapidement des invites créatives, d'affiner les tons musicaux et de sauvegarder les résultats pour une réutilisation. Avec son pipeline rationalisé, elle réduit considérablement le temps de génération tout en maintenant la fidélité. Idéal pour les essais rapides de concepts et le prototypage de musique AI.

Workflow ACE-Step 1.5XL Turbo Text-to-Music ComfyUI

Transformez des invites compactes en musique MP3 soignée avec ce workflow comfyui axé sur la rapidité et la répétabilité. Il associe le générateur ACE-Step 1.5XL Turbo avec son VAE officiel et des encodeurs de texte Qwen doubles, puis exporte directement en MP3 pour un aperçu facile et une réutilisation. Les producteurs, concepteurs sonores et artistes d'invites peuvent itérer rapidement tout en maintenant la cohérence des résultats à chaque exécution.

Modèles clés dans ce workflow comfyui

  • ACE-Step 1.5XL Turbo (bf16). Le modèle de diffusion principal qui synthétise la musique à partir du conditionnement textuel, optimisé pour un débruitage rapide et des latents audio de haute qualité. Fichier modèle
  • ACE-Step 1.5 VAE. Le décodeur qui transforme les latents audio en une forme d'onde finale tout en préservant le timbre et la dynamique attendus par la famille ACE-Step. Fichier modèle
  • Qwen 0.6B ACE 1.5 encodeur de texte. Encodeur léger qui convertit votre invite descriptive en vecteurs de conditionnement utilisés par le générateur. Fichier modèle
  • Qwen 4B ACE 1.5 encodeur de texte. Encodeur compagnon plus grand qui enrichit les sémantiques, les indices de style, les instruments et les indications vocales pour des rendus plus fidèles. Fichier modèle

Comment utiliser ce workflow comfyui

Le graphe est organisé en deux groupes principaux plus des contrôles globaux. Vous chargez la pile de modèles ACE-Step, décrivez la musique souhaitée, définissez la durée de la chanson et la graine, puis échantillonnez, décodez et exportez en MP3.

Groupe de modèles

Cette section initialise la pile de modèles attendue par le générateur. UNETLoader (#104) charge ACE-Step 1.5XL Turbo, et VAELoader (#106) apporte le VAE ACE-Step 1.5 correspondant pour que le décodage reste fidèle. DualCLIPLoader (#105) associe les encodeurs de texte Qwen 0.6B et 4B pour préparer les embeddings d'invite. Le UNet est acheminé à travers ModelSamplingAuraFlow (#78), qui applique la configuration de l'échantillonneur requise par le modèle avant que le débruitage ne commence.

Groupe d'invites

Écrivez une description concise du genre, de l'humeur, des instruments, des voix, du tempo et du style de production dans TextEncodeAceStepAudio1.5 (#94). Si vous utilisez des paroles ou des notes structurelles, fournissez-les dans la boîte de texte secondaire afin que les encodeurs puissent conditionner la phraséologie et la dynamique. Le conditionnement négatif est intentionnellement désactivé via ConditioningZeroOut (#47) pour garder les sorties ciblées et simplifier les premières itérations. Le nœud accepte également la durée globale et la graine, garantissant que le conditionnement reste aligné avec la longueur de la piste et vos paramètres de reproductibilité.

Durée et graine

Réglez la longueur de la piste en secondes en utilisant Float (Duration) (#99). Choisissez une graine dans Int (Seed) (#109) pour rendre les exécutions reproductibles à la fois pour l'encodeur et l'échantillonneur. Garder la même graine tout en changeant uniquement l'invite est un moyen fiable de tester A/B les directions créatives. Pour une exploration large, variez la graine après être satisfait de l'invite.

Configuration audio latente

EmptyAceStep1.5LatentAudio (#98) construit un audio latent vide qui correspond à la durée choisie. Cela sert de toile que l'échantillonneur remplira pendant le débruitage. Les durées plus longues nécessitent plus de calculs, alors envisagez de commencer plus court pour valider une invite avant d'augmenter. Le workflow connecte la durée globalement pour que votre latent et votre conditionnement restent toujours synchronisés.

Débruitage et échantillonnage

KSampler (#3) effectue le processus de diffusion en utilisant le modèle ACE-Step 1.5XL Turbo et votre conditionnement d'invite. Le chemin de l'échantillonneur passe par ModelSamplingAuraFlow (#78) pour correspondre aux paramètres du planificateur attendus par le modèle pour une convergence stable et rapide. Utilisez la même graine pour comparer les changements de formulation ou de style, et ajustez les paramètres de l'échantillonneur uniquement une fois que votre invite est ajustée. Lorsque l'échantillonneur termine, vous aurez un audio latent prêt pour le décodage.

Décodage et exportation

VAEDecodeAudio (#18) convertit le latent en une forme d'onde avec le VAE ACE-Step 1.5 pour préserver le timbre prévu. SaveAudioMP3 (#107) écrit un MP3 avec un nom de fichier de base et une étiquette de version optionnelle pour que vous puissiez garder les prises organisées. Le MP3 est idéal pour une révision rapide et un partage, et vous pouvez toujours re-render ou ré-exporter dans un format différent plus tard. Le résultat apparaît dans votre emplacement de sortie ComfyUI standard.

Nœuds clés dans ce workflow comfyui

TextEncodeAceStepAudio1.5 (#94)

Ce nœud traduit votre description musicale et les paroles optionnelles en conditionnement pour le générateur en utilisant les encodeurs Qwen appariés. Gardez les invites spécifiques au genre, à l'instrumentation, à la présence vocale, au tempo, à l'humeur et au caractère du mix. Assurez-vous que la durée du nœud correspond à la longueur globale de la chanson pour que la structure et la phraséologie soient alignées. Utilisez une graine fixe tout en itérant sur la formulation pour comprendre comment les termes influencent l'arrangement et le timbre.

EmptyAceStep1.5LatentAudio (#98)

Contrôle la toile temporelle que le modèle remplira. Augmenter la durée augmente la mémoire et le temps de rendu, alors itérez sur des brouillons plus courts avant de vous engager sur des pièces plus longues. Gardez les changements de durée délibérés car ils peuvent modifier le tempo perçu et le rythme des sections, même avec la même invite et graine.

KSampler (#3)

Conduit la qualité, la vitesse et la texture globale en contrôlant comment le bruit est supprimé du latent. Commencez par le chemin du planificateur fourni et ajustez les paramètres de l'échantillonneur uniquement après que l'invite semble correcte. Pour des ébauches rapides, réduisez l'effort d'échantillonnage; pour une plus haute fidélité, augmentez-le progressivement tout en gardant la graine constante pour que les différences soient faciles à entendre. Consultez le comportement principal de l'échantillonneur dans le dépôt ComfyUI pour des conseils généraux. ComfyUI sur GitHub

SaveAudioMP3 (#107)

Gère l'exportation et le nommage des fichiers pour que vous puissiez cataloguer les prises. Définissez un nom de base clair et une étiquette de version pour suivre les itérations. Si vous prévoyez de masteriser ou de modifier davantage, conservez la graine du projet et l'invite dans vos notes pour pouvoir re-render avec des paramètres d'exportation alternatifs si nécessaire.

Extras optionnels

  • Écrivez les invites sous forme de phrases courtes et ordonnées : genre, humeur, ressenti clé, tempo, instruments, type de voix, style de production.
  • Gardez les paroles concises et alignées sur la durée choisie pour éviter une phraséologie précipitée vers la fin.
  • Verrouillez la graine tout en affinant l'invite, puis variez la graine pour explorer des arrangements alternatifs avec le même brief.
  • Commencez par des durées plus courtes pour valider la direction, puis augmentez une fois que le son de base fonctionne.
  • Le conditionnement négatif est désactivé par conception; activez et ajustez une véritable invite négative uniquement si vous avez besoin d'exclusions strictes après une exploration initiale.

Remerciements

Ce workflow met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Comfy.org pour le workflow Audio ACE Step 1.5 XL Turbo, et Comfy-Org pour le modèle de diffusion ACE-Step 1.5XL Turbo, le VAE ACE-Step 1.5, l'encodeur de texte ACE-Step 1.5 0.6B, et l'encodeur de texte ACE-Step 1.5 4B pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources

  • Comfy.org/Audio ACE Step 1.5 XL Turbo workflow
    • Docs / Notes de version : Page du workflow
  • Comfy-Org/ACE-Step 1.5XL Turbo diffusion model
    • Hugging Face : acestep_v1.5_xl_turbo_bf16.safetensors
  • Comfy-Org/ACE-Step 1.5 VAE
    • Hugging Face : ace_1.5_vae.safetensors
  • Comfy-Org/ACE-Step 1.5 text encoder 0.6B
    • Hugging Face : qwen_0.6b_ace15.safetensors
  • Comfy-Org/ACE-Step 1.5 text encoder 4B
    • Hugging Face : qwen_4b_ace15.safetensors

Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Génération Musicale ACE-Step | Création Audio IA

Générez de la musique de qualité studio 15× plus rapidement grâce à une technologie de diffusion révolutionnaire.

Ace Step 1.5 | Générateur de Musique IA de Qualité Commerciale

Transforme le texte en chansons complètes avec une planification intelligente et la puissance de la diffusion.

Stable Audio Open 1.0 | Outil Texte-à-Musique

Transforme les prompts textuels en musique cinématographique de manière fluide et rapide.

MMAudio | Vidéo-à-Audio

MMAudio : Modèle vidéo-à-audio avancé pour la génération audio de haute qualité.

Génération d'effets sonores Woosh | Text2Audio + VideoSync

Transforme les invites et les vidéos en effets sonores synchronisés et précis.

HiDream E1.1 | Édition d'images AI

Éditez des images avec un langage naturel en utilisant le modèle HiDream E1.1

IPAdapter Plus (V2) + ControlNet | Image en vidéo

Convertissez des images en animations avec ComfyUI IPAdapter Plus et ControlNet QRCode.

Flux 2 Klein 9B KV Image Edit | Transformateur d'Image Intelligent

Éditions d'images basées sur des prompts qui gardent la structure et l'identité intactes.

Suivez-nous
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • Email
  • État du système
  • affilié
Ressources
  • ComfyUI en ligne gratuit
  • Guides ComfyUI
  • RunComfy API
  • Tutoriels ComfyUI
  • Nœuds ComfyUI
  • En savoir plus
Légal
  • Conditions d'utilisation
  • Politique de confidentialité
  • Politique relative aux cookies
RunComfy
Droits d'auteur 2026 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.