Stable Audio 3.0 Medium Base workflow in ComfyUI

ComfyUI Stable Audio 3.0 Medium Base workflow Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Stable Audio 3.0 Medium Base workflow Examples

ComfyUI의 Stable Audio 3.0 Medium Base 워크플로우를 위한 장기 텍스트-오디오#

이 Stable Audio 3.0 Medium Base 워크플로우는 짧은 텍스트 아이디어를 더 길고 음악적인 스테레오 오디오로 변환합니다. 이는 ComfyUI에서 재현 가능한 설정으로 프롬프트 기반 음악 스케치, 환경 배드, SFX 및 원샷을 제공하기 위해 T5-Gemma 및 Qwen3.5 텍스트 인코더와 함께 stable_audio_3_medium_base 체크포인트를 중심으로 구축되었습니다.

그래프에는 합성 전에 간단한 아이디어를 밀도 높은 프로덕션 준비 프롬프트로 확장할 수 있는 선택적 카테고리 인식 재프롬프트 시스템이 포함되어 있습니다. 카테고리, 지속 시간 및 시드를 선택한 후 파이프라인이 Stable Audio 3을 조건화하고 MP3로 저장되는 오디오를 렌더링합니다. 이 워크플로우는 Comfy-Org에서 제공한 Stable Audio 3.0 Medium Base의 공식 템플릿 및 자산을 따릅니다. 참조 템플릿 및 모델은 Comfy-Org/workflow_templates 및 Comfy-Org/stable-audio-3에서 확인하세요.

ComfyUI Stable Audio 3.0 Medium Base 워크플로우의 주요 모델#

Stable Audio 3 Medium Base 체크포인트. 텍스트 조건화 및 잠재변수에서 스테레오 오디오를 합성하는 핵심 생성 모델입니다. 출처: Comfy-Org/stable-audio-3.
T5-Gemma Base UL2 텍스트 인코더. 긍정 및 부정 프롬프트에 대한 Stable Audio 3을 조건화하는 데 사용되는 텍스트 임베딩을 생성합니다. 패키지화된 텍스트 인코더 파일은 Stable Audio 3 저장소의 text_encoders 폴더에 포함되어 있습니다: Comfy-Org/stable-audio-3.
Qwen3.5 2B 텍스트 모델. 짧은 아이디어를 자세한 음악, 악기, SFX 또는 원샷 설명으로 확장하는 선택적 카테고리 인식 재프롬프트를 지원합니다. 출처: Comfy-Org/Qwen3.5.

ComfyUI Stable Audio 3.0 Medium Base 워크플로우 사용 방법#

고수준에서 짧은 아이디어와 목표 지속 시간을 제공합니다. 그래프는 Qwen3.5를 사용하여 카테고리 템플릿을 통해 단어를 그대로 유지하거나 재작성할 수 있습니다. 결과는 조건화되어 Stable Audio 3에 의해 샘플링되고 오디오로 디코딩되어 저장됩니다.

사용자 입력: 프롬프트 및 지속 시간#

서브그래프 Audio Generation (Stable Audio 3 Medium Base) (#52)는 user_input, duration, seed, use_reprompt, 및 category를 노출합니다. 스타일, 악기 목록, 분위기 및 선택적 BPM과 같은 간단한 아이디어를 일반 언어로 작성하세요. 초 단위로 클립 길이를 선택하고 재현 가능성이나 변화를 위해 seed를 설정하세요. 템플릿 기반 재작성을 원할 때 use_reprompt를 켜고, 그런 다음 Music, Instrument, SFX 또는 One-shot과 같은 category를 선택하세요.

로더: 체크포인트 및 텍스트 인코더#

CheckpointLoaderSimple (#25)은 stable_audio_3_medium_base.safetensors를 로드하여 후속 샘플링 및 디코딩에 사용되는 MODEL 및 VAE를 제공합니다. CLIPLoader (#26)은 조건화를 위한 T5-Gemma 인코더를 로드합니다. 두 번째 CLIPLoader (#29)는 재프롬프트 단계를 구동하는 Qwen3.5 모델을 로드합니다.

재프롬프트: JSON 템플릿 및 카테고리#

카테고리 선택기 CustomCombo (#43)는 시스템 프롬프트의 큰 JSON을 JsonExtractString (#49)에 공급합니다. 선택된 템플릿은 Text Replace (PROMPT TEMPLATE) (#38)에 의해 메타 프롬프트에 삽입됩니다. user_input은 Text Replace (USER INPUT) (#39)에 의해 주입되고, 목표 길이는 Text Replace (AUDIO LENGTH) (#40)를 사용하여 삽입되어 재작성이 선택한 지속 시간과 일치합니다.

재프롬프트: Qwen TextGenerate#

TextGenerate (#28)은 Qwen3.5를 사용하여 조립된 템플릿과 아이디어를 카테고리별 규칙을 따르는 간결하고 상세한 프롬프트로 변환합니다. 이 단계는 특히 더 긴 음악 구조와 구체적인 기술 언어가 중요한 SFX에 유용합니다. 프롬프트 재작성은 미리보기가 가능하여 카테고리 선택과 표현을 빠르게 반복할 수 있습니다.

원본과 재작성된 텍스트 간 전환#

ComfySwitchNode (#34)는 use_reprompt에 따라 원본 텍스트 또는 Qwen이 생성한 재작성을 선택합니다. 구조화된 길이 인식 프롬프트를 얻으려면 켜두고, 문구에 대한 직접적인 제어가 필요하면 꺼두세요. 이 간단한 스위치는 A/B 테스트를 간단하게 만듭니다.

CLIP 인코드: 조건화#

CLIPTextEncode (#6)는 선택된 프롬프트를 모델을 구동하는 긍정적 조건화로 변환합니다. 두 번째 CLIPTextEncode (#7)는 기본적으로 중립적 부정 조건화를 제공합니다. 이 쌍은 Stable Audio 3에 명확한 지침을 제공하면서 의도하지 않은 아티팩트를 피합니다.

오디오 생성: Stable Audio#

EmptyLatentAudio (#11)는 duration과 일치하는 오디오 잠재변수를 생성합니다. KSampler (#3)는 체크포인트에서 Stable Audio 3 Medium Base MODEL을 사용하여 디노이징 프로세스를 수행합니다. VAEDecodeAudio (#12)는 최종 잠재변수를 청취 가능한 스테레오 파형으로 변환합니다. 동일한 duration은 또한 재프롬프트를 알려주므로 렌더링된 클립 길이와 재작성된 텍스트가 동기화됩니다.

저장 및 내보내기#

서브그래프 외부에서 SaveAudioMP3 (#19)는 결과를 MP3 파일로 작성하며, 조직을 위한 유용한 접두사를 제공합니다. 다른 seed 값이나 카테고리로 여러 테이크를 일괄 생성할 때 사용한 후, 오디션하고 즐겨찾기를 보관하세요.

ComfyUI Stable Audio 3.0 Medium Base 워크플로우의 주요 노드#

ComfySwitchNode (#34). 원본 user_input과 Qwen이 생성한 텍스트 간 전환합니다. 구조화된 길이 일치 재작성을 위해 켜두고, 직접 제어를 위해 꺼두세요.
TextGenerate (#28). Qwen3.5를 실행하여 카테고리별 시스템 프롬프트로 아이디어를 확장합니다. 재작성 스타일을 사용자 정의하려면 JsonExtractString (#49)의 카테고리 템플릿과 인접한 Text Replace 노드의 접착 프롬프트를 편집하세요.
EmptyLatentAudio (#11). 클립 길이를 설정합니다. 삽입된 AUDIO_LENGTH 토큰과 일치시켜 합성 시간이 텍스트 의도와 맞도록 유지하세요.
KSampler (#3). Stable Audio 3의 디노이징 궤적을 관리합니다. seed를 조정하여 변화를 주며 다른 설정을 안정적으로 유지하여 테이크를 공정하게 비교하세요.
SaveAudioMP3 (#19). 여러 실행에서 빠르게 라이브러리를 구축하기 위해 출력 파일 이름 접두사 및 형식을 제어합니다.

선택적 엑스트라#

장르 또는 출처, 주요 악기 또는 텍스처, 분위기를 명시하는 한두 문장 아이디어로 시작하세요. 재프롬프트는 BPM 및 편곡과 같은 세부 사항을 채울 수 있습니다.
목표에 맞는 카테고리를 선택하세요: 전체 트랙을 위한 Music, 루프 또는 스템을 위한 Instrument, 환경 및 행동을 위한 SFX, 고립된 히트를 위한 One-shot.
목표 콘텐츠에 대해 지속 시간을 현실적으로 유지하세요. 매우 긴 클립은 계산이 더 무겁고 반복할 때 안정적인 seed가 유리할 수 있습니다.
결과가 혼잡하게 느껴질 때, 재프롬프트를 비활성화하고 더 간단한 문구를 시도한 후 방향이 마음에 들면 다시 활성화하세요.
빠른 대체 테이크를 위해 모든 것을 일정하게 유지하고 seed만 변경하세요.

감사 인사#

이 워크플로우는 다음 작업 및 리소스를 구현하고 확장합니다. Comfy-Org의 ComfyUI Stable Audio 3 Day-0 Support 기사, Comfy-Org의 Official Stable Audio 3.0 Medium Base workflow 템플릿, Comfy-Org의 Stable Audio 3 모델 파일, Comfy-Org의 Qwen3.5 인코더 모델 파일에 대해 그들의 기여와 유지 관리에 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.

리소스#

Comfy-Org/ComfyUI Stable Audio 3 Day-0 Support Article
- 문서 / 릴리스 노트: Stable Audio 3 Day-0 Support
Comfy-Org/Official Stable Audio 3.0 Medium Base Workflow Template
- GitHub: Comfy-Org/workflow_templates
Comfy-Org/Stable Audio 3 Model Files
- Hugging Face: Comfy-Org/stable-audio-3
Comfy-Org/Qwen3.5 Encoder Model Files
- Hugging Face: Comfy-Org/Qwen3.5

참고: 참조된 모델, 데이터셋 및 코드의 사용은 저자 및 유지 관리자가 제공한 해당 라이선스 및 약관에 따릅니다.

Want More ComfyUI Workflows?

Stable Audio Open 1.0 | 텍스트-음악 도구

텍스트 프롬프트를 매끄럽고 빠르게 시네마틱 음악으로 변환합니다.

ACE-Step 음악 생성 | AI 오디오 생성

획기적인 확산 기술로 스튜디오 품질의 음악을 15배 빠르게 생성합니다.

Ace Step 1.5 | 상업용 AI 음악 생성기

텍스트를 스마트한 계획과 확산의 힘으로 완전한 노래로 변환합니다.

ACE-Step 1.5XL Base text to music | AI Sound Generator

텍스트를 순수 AI 제작 음악으로 즉시 변환합니다.

ACE-Step 1.5XL Turbo comfyui 워크플로우 | Text-to-Music Generator

텍스트를 멋진 음악으로 빠르고 명확하게 변환합니다.

SkyReels-A2 | 다중 요소 비디오 생성

정밀도로 여러 요소를 결합하여 동적인 비디오를 만드세요.

창의적 소프트웨어 비누

IPAdapter와 ControlNet을 결합하여 효율적인 질감 적용과 향상된 비주얼을 제공합니다.

Wan 2.2 프롬프트 릴레이 | 장면 제어 비디오 제작기

정확한 프롬프트 전환으로 모든 비디오 장면을 제어하십시오.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

Stable Audio 3.0 Medium Base | 텍스트-음악 생성기