ComfyUI>Workflows>Stable Audio Open 1.0 | Outil Texte-à-Musique

Stable Audio Open 1.0 | Outil Texte-à-Musique

Workflow Name: RunComfy/Stable-Audio

Workflow ID: 0000...1308

Générez des paysages sonores expressifs et des compositions musicales à partir de prompts écrits en utilisant ce workflow texte-à-musique. Construit sur le modèle de diffusion audio avancé, il offre un contrôle total sur la durée, le ton et l'émotion. Parfait pour les designers et créateurs recherchant des sorties sonores cinématiques ou ambiantes. Il encode le texte avec précision et le traite en audio réaliste et écoutable. Obtenez une qualité constante et une flexibilité pour tout thème ou humeur créatif.

Stable Audio Open 1.0 Workflow Texte-à-Musique

Ce workflow transforme le texte brut en musique originale et paysages sonores en utilisant Stable Audio Open 1.0. Il est conçu pour les compositeurs, designers sonores et créateurs qui souhaitent une génération audio rapide et contrôlable sans quitter ComfyUI. Vous écrivez un prompt, définissez une durée cible, et le graphique rend un MP3 qui reflète votre style, humeur, tempo et instrumentation.

Sous le capot, le workflow encode votre texte avec un encodeur de texte basé sur T5, exécute le processus de diffusion de Stable Audio dans l'espace audio latent, puis décode en une forme d'onde et enregistre le résultat. Avec des conseils de prompt clairs et un contrôle de longueur simple, la génération Stable Audio devient prévisible et répétable pour des pistes cinématiques, ambiantes ou expérimentales.

Modèles clés dans le workflow Stable Audio de ComfyUI

Stable Audio Open 1.0. Modèle de diffusion latent open-weight pour la musique et la conception sonore texte-à-musique par Stability AI. Il mappe l'intention textuelle aux latents audio et prend en charge des styles et structures musicales variés. Repository • Weights
T5-Base Text Encoder. Modèle de texte à usage général utilisé ici pour intégrer les prompts pour le conditionnement de la génération Stable Audio. Des entrées claires et descriptives mènent à une musique plus cohérente. Model card

Comment utiliser le workflow Stable Audio de ComfyUI

Le graphique s'écoule du chargement du modèle au conditionnement du prompt, puis à l'échantillonnage, au décodage et à l'enregistrement. Les groupes sont organisés pour que vous puissiez définir les modèles une fois, ajuster la longueur, écrire votre prompt, et rendre.

Charger les modèles

Ce groupe initialise les ressources principales. CheckpointLoaderSimple (#4) charge le checkpoint Stable Audio Open 1.0, qui comprend le modèle de diffusion et son audio VAE. CLIPLoader (#10) charge l'encodeur de texte basé sur T5 utilisé pour le conditionnement. Une fois chargés, ces modèles fournissent l'épine dorsale pour la génération Stable Audio et restent résidents pour les exécutions ultérieures.

Longueur

Ce groupe définit la durée de votre audio. EmptyLatentAudio (#11) crée une piste latente vierge avec la durée choisie afin que l'échantillonneur sache combien d'images générer. Les clips plus longs consomment plus de temps et de mémoire, donc commencez modestement, puis augmentez. Vous pouvez également produire plusieurs variations en augmentant la dimension de lot lors de l'exploration des idées.

Prompt

Ce groupe transforme le texte en signaux de guidage pour le processus de diffusion. Utilisez CLIPTextEncode (#6) pour écrire un prompt positif avec des instruments, genre, humeur, tempo et indices de production, par exemple : "orchestre cinématique luxuriant, cordes et cuivres balayant, percussions profondes, pads ambiants, 90 BPM, exaltant." Utilisez CLIPTextEncode (#7) pour un prompt négatif afin de supprimer les artefacts tels que "bruit dur, coupure, distorsion." Ensemble, ils orientent Stable Audio vers les textures et structures que vous souhaitez.

Générer et exporter

KSampler (#3) effectue les étapes de diffusion qui transforment le latent vide en un latent musical guidé par vos encodages textuels. VAEDecodeAudio (#12) reconvertit l'audio latent en une forme d'onde. Enfin, SaveAudioMP3 (#19) écrit un fichier MP3 pour que vous puissiez le revoir ou le déposer directement dans votre chronologie. Pour un travail itératif, ajustez le préfixe du nom de fichier pour garder les prises organisées.

Nœuds clés dans le workflow Stable Audio de ComfyUI

CLIPTextEncode (#6) Ce nœud encode votre prompt positif en un conditionnement que Stable Audio suit. Priorisez des listes claires d'instruments, genre, humeur, tempo ou BPM, et termes de production comme "chaleureux," "lo-fi," "cinématique," ou "ambiant." Des changements subtils dans la formulation peuvent modifier significativement la composition. Voir les nœuds de base de ComfyUI pour le comportement général. ComfyUI
CLIPTextEncode (#7) Le prompt négatif aide à éviter les timbres indésirables ou les problèmes de mixage. Ajoutez des termes décrivant ce à quoi renoncer, par exemple "criard, sonnerie métallique, pops de glitch, sifflement radio." Garder ceci concis produit souvent des rendus Stable Audio plus propres. ComfyUI
EmptyLatentAudio (#11) Contrôle la durée du clip en secondes et éventuellement le nombre de lots pour plusieurs variations. Augmentez les secondes pour des morceaux plus longs, en notant que le calcul évolue avec la longueur. Utilisez la génération par lots pour auditionner plusieurs prises Stable Audio à partir d'un seul prompt. ComfyUI
KSampler (#3) Conduit le processus de diffusion pour les latents audio. Les contrôles les plus influents sont steps, sampler, cfg, et seed. Augmentez steps pour plus de détails raffinés, ajustez cfg pour équilibrer l'adhérence au prompt avec la créativité, et fixez un seed pour reproduire une prise ou la varier pour de nouvelles idées. Reportez-vous aux notes de l'échantillonneur de ComfyUI pour des conseils généraux. ComfyUI
SaveAudioMP3 (#19) Exporte la forme d'onde finale en un MP3. Utilisez le filename_prefix pour étiqueter les versions et garder les itérations ordonnées. Lors de la comparaison de prompts ou de seeds, enregistrer plusieurs prises côte à côte rend la sélection Stable Audio plus rapide. ComfyUI

Extras optionnels

Écrivez des prompts comme un brief de session : instruments, genre, humeur, tempo ou BPM, et adjectifs de mixage.
Utilisez des prompts négatifs courts et ciblés pour réduire le sifflement, la dureté ou les instruments indésirables.
Verrouillez seed tout en itérant le texte, puis changez seed pour explorer de nouvelles variations Stable Audio.
Commencez avec des durées plus courtes pour peaufiner le style, puis allongez une fois que le son est correct.
Gardez un préfixe de nom de fichier cohérent par concept pour pouvoir comparer les prises Stable Audio plus tard.

Ressources pour une lecture approfondie : détails et exemples du modèle Stable Audio ici, noyau et comportement des nœuds de ComfyUI ici, et la carte du modèle T5-Base ici.

Remerciements

Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Stability AI pour Stable Audio Open, comfyanonymous (ComfyUI) pour les nœuds ComfyUI et les références de workflow, et Comfy-Org et ComfyUI-Wiki pour le checkpoint Stable Audio Open 1.0 et l'encodeur de texte T5-Base pour leurs contributions et maintenance. Pour des détails d'autorité, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources

Comfy-Org/Stable Audio Open 1.0 workflow
- GitHub: Stability-AI/stable-audio-open

Note: L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

MMAudio | Vidéo-à-Audio

MMAudio : Modèle vidéo-à-audio avancé pour la génération audio de haute qualité.

Génération Musicale ACE-Step | Création Audio IA

Générez de la musique de qualité studio 15× plus rapidement grâce à une technologie de diffusion révolutionnaire.

EchoMimic | Animations de Portraits Dirigées par l'Audio

Générez des têtes parlantes réalistes et des gestes corporels synchronisés avec l'audio fourni.

ACE++ Cohérence des Personnages

Générez des images cohérentes de votre personnage à travers des poses, angles et styles à partir d'une seule photo.

ControlNet Tile + 4x UltraSharp | Outil d'upscale d'image/vidéo

Utilisez ControlNet Tile, 4xUltraSharp et l'interpolation de frames pour un résultat haute résolution.

APISR | Upscaler d'images/vidéos d'anime

Le modèle APISR améliore et restaure les images et vidéos d'anime, rendant vos visuels plus vibrants et plus nets.

Wan 2.1 Fun | I2V + T2V

Renforcez vos vidéos IA avec Wan 2.1 Fun.

Relighting de Produit | Alternative à Magnific.AI Relight

Élevez votre photographie de produit sans effort, une alternative de premier choix à Magnific.AI Relight.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.