ACE-Step 1.5XL Turbo comfyui workflow | Générateur de texte en musique rapide

ComfyUI ACE-Step 1.5XL Turbo Workflow

ACE-Step 1.5XL Turbo comfyui workflow | Fast AI Text-to-Music

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI ACE-Step 1.5XL Turbo Examples

Workflow ACE-Step 1.5XL Turbo Text-to-Music ComfyUI#

Transformez des invites compactes en musique MP3 soignée avec ce workflow comfyui axé sur la rapidité et la répétabilité. Il associe le générateur ACE-Step 1.5XL Turbo avec son VAE officiel et des encodeurs de texte Qwen doubles, puis exporte directement en MP3 pour un aperçu facile et une réutilisation. Les producteurs, concepteurs sonores et artistes d'invites peuvent itérer rapidement tout en maintenant la cohérence des résultats à chaque exécution.

Modèles clés dans ce workflow comfyui#

ACE-Step 1.5XL Turbo (bf16). Le modèle de diffusion principal qui synthétise la musique à partir du conditionnement textuel, optimisé pour un débruitage rapide et des latents audio de haute qualité. Fichier modèle
ACE-Step 1.5 VAE. Le décodeur qui transforme les latents audio en une forme d'onde finale tout en préservant le timbre et la dynamique attendus par la famille ACE-Step. Fichier modèle
Qwen 0.6B ACE 1.5 encodeur de texte. Encodeur léger qui convertit votre invite descriptive en vecteurs de conditionnement utilisés par le générateur. Fichier modèle
Qwen 4B ACE 1.5 encodeur de texte. Encodeur compagnon plus grand qui enrichit les sémantiques, les indices de style, les instruments et les indications vocales pour des rendus plus fidèles. Fichier modèle

Comment utiliser ce workflow comfyui#

Le graphe est organisé en deux groupes principaux plus des contrôles globaux. Vous chargez la pile de modèles ACE-Step, décrivez la musique souhaitée, définissez la durée de la chanson et la graine, puis échantillonnez, décodez et exportez en MP3.

Groupe de modèles#

Cette section initialise la pile de modèles attendue par le générateur. UNETLoader (#104) charge ACE-Step 1.5XL Turbo, et VAELoader (#106) apporte le VAE ACE-Step 1.5 correspondant pour que le décodage reste fidèle. DualCLIPLoader (#105) associe les encodeurs de texte Qwen 0.6B et 4B pour préparer les embeddings d'invite. Le UNet est acheminé à travers ModelSamplingAuraFlow (#78), qui applique la configuration de l'échantillonneur requise par le modèle avant que le débruitage ne commence.

Groupe d'invites#

Écrivez une description concise du genre, de l'humeur, des instruments, des voix, du tempo et du style de production dans TextEncodeAceStepAudio1.5 (#94). Si vous utilisez des paroles ou des notes structurelles, fournissez-les dans la boîte de texte secondaire afin que les encodeurs puissent conditionner la phraséologie et la dynamique. Le conditionnement négatif est intentionnellement désactivé via ConditioningZeroOut (#47) pour garder les sorties ciblées et simplifier les premières itérations. Le nœud accepte également la durée globale et la graine, garantissant que le conditionnement reste aligné avec la longueur de la piste et vos paramètres de reproductibilité.

Durée et graine#

Réglez la longueur de la piste en secondes en utilisant Float (Duration) (#99). Choisissez une graine dans Int (Seed) (#109) pour rendre les exécutions reproductibles à la fois pour l'encodeur et l'échantillonneur. Garder la même graine tout en changeant uniquement l'invite est un moyen fiable de tester A/B les directions créatives. Pour une exploration large, variez la graine après être satisfait de l'invite.

Configuration audio latente#

EmptyAceStep1.5LatentAudio (#98) construit un audio latent vide qui correspond à la durée choisie. Cela sert de toile que l'échantillonneur remplira pendant le débruitage. Les durées plus longues nécessitent plus de calculs, alors envisagez de commencer plus court pour valider une invite avant d'augmenter. Le workflow connecte la durée globalement pour que votre latent et votre conditionnement restent toujours synchronisés.

Débruitage et échantillonnage#

KSampler (#3) effectue le processus de diffusion en utilisant le modèle ACE-Step 1.5XL Turbo et votre conditionnement d'invite. Le chemin de l'échantillonneur passe par ModelSamplingAuraFlow (#78) pour correspondre aux paramètres du planificateur attendus par le modèle pour une convergence stable et rapide. Utilisez la même graine pour comparer les changements de formulation ou de style, et ajustez les paramètres de l'échantillonneur uniquement une fois que votre invite est ajustée. Lorsque l'échantillonneur termine, vous aurez un audio latent prêt pour le décodage.

Décodage et exportation#

VAEDecodeAudio (#18) convertit le latent en une forme d'onde avec le VAE ACE-Step 1.5 pour préserver le timbre prévu. SaveAudioMP3 (#107) écrit un MP3 avec un nom de fichier de base et une étiquette de version optionnelle pour que vous puissiez garder les prises organisées. Le MP3 est idéal pour une révision rapide et un partage, et vous pouvez toujours re-render ou ré-exporter dans un format différent plus tard. Le résultat apparaît dans votre emplacement de sortie ComfyUI standard.

Nœuds clés dans ce workflow comfyui#

`TextEncodeAceStepAudio1.5` (#94)#

Ce nœud traduit votre description musicale et les paroles optionnelles en conditionnement pour le générateur en utilisant les encodeurs Qwen appariés. Gardez les invites spécifiques au genre, à l'instrumentation, à la présence vocale, au tempo, à l'humeur et au caractère du mix. Assurez-vous que la durée du nœud correspond à la longueur globale de la chanson pour que la structure et la phraséologie soient alignées. Utilisez une graine fixe tout en itérant sur la formulation pour comprendre comment les termes influencent l'arrangement et le timbre.

`EmptyAceStep1.5LatentAudio` (#98)#

Contrôle la toile temporelle que le modèle remplira. Augmenter la durée augmente la mémoire et le temps de rendu, alors itérez sur des brouillons plus courts avant de vous engager sur des pièces plus longues. Gardez les changements de durée délibérés car ils peuvent modifier le tempo perçu et le rythme des sections, même avec la même invite et graine.

`KSampler` (#3)#

Conduit la qualité, la vitesse et la texture globale en contrôlant comment le bruit est supprimé du latent. Commencez par le chemin du planificateur fourni et ajustez les paramètres de l'échantillonneur uniquement après que l'invite semble correcte. Pour des ébauches rapides, réduisez l'effort d'échantillonnage; pour une plus haute fidélité, augmentez-le progressivement tout en gardant la graine constante pour que les différences soient faciles à entendre. Consultez le comportement principal de l'échantillonneur dans le dépôt ComfyUI pour des conseils généraux. ComfyUI sur GitHub

`SaveAudioMP3` (#107)#

Gère l'exportation et le nommage des fichiers pour que vous puissiez cataloguer les prises. Définissez un nom de base clair et une étiquette de version pour suivre les itérations. Si vous prévoyez de masteriser ou de modifier davantage, conservez la graine du projet et l'invite dans vos notes pour pouvoir re-render avec des paramètres d'exportation alternatifs si nécessaire.

Extras optionnels#

Écrivez les invites sous forme de phrases courtes et ordonnées : genre, humeur, ressenti clé, tempo, instruments, type de voix, style de production.
Gardez les paroles concises et alignées sur la durée choisie pour éviter une phraséologie précipitée vers la fin.
Verrouillez la graine tout en affinant l'invite, puis variez la graine pour explorer des arrangements alternatifs avec le même brief.
Commencez par des durées plus courtes pour valider la direction, puis augmentez une fois que le son de base fonctionne.
Le conditionnement négatif est désactivé par conception; activez et ajustez une véritable invite négative uniquement si vous avez besoin d'exclusions strictes après une exploration initiale.

Remerciements#

Ce workflow met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Comfy.org pour le workflow Audio ACE Step 1.5 XL Turbo, et Comfy-Org pour le modèle de diffusion ACE-Step 1.5XL Turbo, le VAE ACE-Step 1.5, l'encodeur de texte ACE-Step 1.5 0.6B, et l'encodeur de texte ACE-Step 1.5 4B pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources#

Comfy.org/Audio ACE Step 1.5 XL Turbo workflow
- Docs / Notes de version : Page du workflow
Comfy-Org/ACE-Step 1.5XL Turbo diffusion model
- Hugging Face : acestep_v1.5_xl_turbo_bf16.safetensors
Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face : ace_1.5_vae.safetensors
Comfy-Org/ACE-Step 1.5 text encoder 0.6B
- Hugging Face : qwen_0.6b_ace15.safetensors
Comfy-Org/ACE-Step 1.5 text encoder 4B
- Hugging Face : qwen_4b_ace15.safetensors

Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Génération Musicale ACE-Step | Création Audio IA

Générez de la musique de qualité studio 15× plus rapidement grâce à une technologie de diffusion révolutionnaire.

Ace Step 1.5 | Générateur de Musique IA de Qualité Commerciale

Transforme le texte en chansons complètes avec une planification intelligente et la puissance de la diffusion.

Stable Audio Open 1.0 | Outil Texte-à-Musique

Transforme les prompts textuels en musique cinématographique de manière fluide et rapide.

MMAudio | Vidéo-à-Audio

MMAudio : Modèle vidéo-à-audio avancé pour la génération audio de haute qualité.

Génération d'effets sonores Woosh | Text2Audio + VideoSync

Transforme les invites et les vidéos en effets sonores synchronisés et précis.

Qwen Edit 2509 Restauration de Lumière | Outil de Rééclairage Photo

Corrigez rapidement un mauvais éclairage pour des photos parfaites, propres et équilibrées à chaque fois.

IPAdapter V1 + AnimateDiff + ControlNet | Art du Mouvement

Découvrez l'utilisation innovante d'IPAdapter pour créer un art du mouvement époustouflant.

ControlNet Tile + 4x UltraSharp | Outil d'upscale d'image/vidéo

Utilisez ControlNet Tile, 4xUltraSharp et l'interpolation de frames pour un résultat haute résolution.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

ACE-Step 1.5XL Turbo comfyui workflow | Générateur de texte en musique