ComfyUI의 Stable Audio 3.0 Medium Base 워크플로우를 위한 장기 텍스트-오디오#
이 Stable Audio 3.0 Medium Base 워크플로우는 짧은 텍스트 아이디어를 더 길고 음악적인 스테레오 오디오로 변환합니다. 이는 ComfyUI에서 재현 가능한 설정으로 프롬프트 기반 음악 스케치, 환경 배드, SFX 및 원샷을 제공하기 위해 T5-Gemma 및 Qwen3.5 텍스트 인코더와 함께 stable_audio_3_medium_base 체크포인트를 중심으로 구축되었습니다.
그래프에는 합성 전에 간단한 아이디어를 밀도 높은 프로덕션 준비 프롬프트로 확장할 수 있는 선택적 카테고리 인식 재프롬프트 시스템이 포함되어 있습니다. 카테고리, 지속 시간 및 시드를 선택한 후 파이프라인이 Stable Audio 3을 조건화하고 MP3로 저장되는 오디오를 렌더링합니다. 이 워크플로우는 Comfy-Org에서 제공한 Stable Audio 3.0 Medium Base의 공식 템플릿 및 자산을 따릅니다. 참조 템플릿 및 모델은 Comfy-Org/workflow_templates 및 Comfy-Org/stable-audio-3에서 확인하세요.
ComfyUI Stable Audio 3.0 Medium Base 워크플로우의 주요 모델#
- Stable Audio 3 Medium Base 체크포인트. 텍스트 조건화 및 잠재변수에서 스테레오 오디오를 합성하는 핵심 생성 모델입니다. 출처: Comfy-Org/stable-audio-3.
- T5-Gemma Base UL2 텍스트 인코더. 긍정 및 부정 프롬프트에 대한 Stable Audio 3을 조건화하는 데 사용되는 텍스트 임베딩을 생성합니다. 패키지화된 텍스트 인코더 파일은 Stable Audio 3 저장소의 text_encoders 폴더에 포함되어 있습니다: Comfy-Org/stable-audio-3.
- Qwen3.5 2B 텍스트 모델. 짧은 아이디어를 자세한 음악, 악기, SFX 또는 원샷 설명으로 확장하는 선택적 카테고리 인식 재프롬프트를 지원합니다. 출처: Comfy-Org/Qwen3.5.
ComfyUI Stable Audio 3.0 Medium Base 워크플로우 사용 방법#
고수준에서 짧은 아이디어와 목표 지속 시간을 제공합니다. 그래프는 Qwen3.5를 사용하여 카테고리 템플릿을 통해 단어를 그대로 유지하거나 재작성할 수 있습니다. 결과는 조건화되어 Stable Audio 3에 의해 샘플링되고 오디오로 디코딩되어 저장됩니다.
사용자 입력: 프롬프트 및 지속 시간#
서브그래프 Audio Generation (Stable Audio 3 Medium Base) (#52)는 user_input, duration, seed, use_reprompt, 및 category를 노출합니다. 스타일, 악기 목록, 분위기 및 선택적 BPM과 같은 간단한 아이디어를 일반 언어로 작성하세요. 초 단위로 클립 길이를 선택하고 재현 가능성이나 변화를 위해 seed를 설정하세요. 템플릿 기반 재작성을 원할 때 use_reprompt를 켜고, 그런 다음 Music, Instrument, SFX 또는 One-shot과 같은 category를 선택하세요.
로더: 체크포인트 및 텍스트 인코더#
CheckpointLoaderSimple (#25)은 stable_audio_3_medium_base.safetensors를 로드하여 후속 샘플링 및 디코딩에 사용되는 MODEL 및 VAE를 제공합니다. CLIPLoader (#26)은 조건화를 위한 T5-Gemma 인코더를 로드합니다. 두 번째 CLIPLoader (#29)는 재프롬프트 단계를 구동하는 Qwen3.5 모델을 로드합니다.
재프롬프트: JSON 템플릿 및 카테고리#
카테고리 선택기 CustomCombo (#43)는 시스템 프롬프트의 큰 JSON을 JsonExtractString (#49)에 공급합니다. 선택된 템플릿은 Text Replace (PROMPT TEMPLATE) (#38)에 의해 메타 프롬프트에 삽입됩니다. user_input은 Text Replace (USER INPUT) (#39)에 의해 주입되고, 목표 길이는 Text Replace (AUDIO LENGTH) (#40)를 사용하여 삽입되어 재작성이 선택한 지속 시간과 일치합니다.
재프롬프트: Qwen TextGenerate#
TextGenerate (#28)은 Qwen3.5를 사용하여 조립된 템플릿과 아이디어를 카테고리별 규칙을 따르는 간결하고 상세한 프롬프트로 변환합니다. 이 단계는 특히 더 긴 음악 구조와 구체적인 기술 언어가 중요한 SFX에 유용합니다. 프롬프트 재작성은 미리보기가 가능하여 카테고리 선택과 표현을 빠르게 반복할 수 있습니다.
원본과 재작성된 텍스트 간 전환#
ComfySwitchNode (#34)는 use_reprompt에 따라 원본 텍스트 또는 Qwen이 생성한 재작성을 선택합니다. 구조화된 길이 인식 프롬프트를 얻으려면 켜두고, 문구에 대한 직접적인 제어가 필요하면 꺼두세요. 이 간단한 스위치는 A/B 테스트를 간단하게 만듭니다.
CLIP 인코드: 조건화#
CLIPTextEncode (#6)는 선택된 프롬프트를 모델을 구동하는 긍정적 조건화로 변환합니다. 두 번째 CLIPTextEncode (#7)는 기본적으로 중립적 부정 조건화를 제공합니다. 이 쌍은 Stable Audio 3에 명확한 지침을 제공하면서 의도하지 않은 아티팩트를 피합니다.
오디오 생성: Stable Audio#
EmptyLatentAudio (#11)는 duration과 일치하는 오디오 잠재변수를 생성합니다. KSampler (#3)는 체크포인트에서 Stable Audio 3 Medium Base MODEL을 사용하여 디노이징 프로세스를 수행합니다. VAEDecodeAudio (#12)는 최종 잠재변수를 청취 가능한 스테레오 파형으로 변환합니다. 동일한 duration은 또한 재프롬프트를 알려주므로 렌더링된 클립 길이와 재작성된 텍스트가 동기화됩니다.
저장 및 내보내기#
서브그래프 외부에서 SaveAudioMP3 (#19)는 결과를 MP3 파일로 작성하며, 조직을 위한 유용한 접두사를 제공합니다. 다른 seed 값이나 카테고리로 여러 테이크를 일괄 생성할 때 사용한 후, 오디션하고 즐겨찾기를 보관하세요.
ComfyUI Stable Audio 3.0 Medium Base 워크플로우의 주요 노드#
ComfySwitchNode(#34). 원본user_input과 Qwen이 생성한 텍스트 간 전환합니다. 구조화된 길이 일치 재작성을 위해 켜두고, 직접 제어를 위해 꺼두세요.TextGenerate(#28). Qwen3.5를 실행하여 카테고리별 시스템 프롬프트로 아이디어를 확장합니다. 재작성 스타일을 사용자 정의하려면JsonExtractString(#49)의 카테고리 템플릿과 인접한Text Replace노드의 접착 프롬프트를 편집하세요.EmptyLatentAudio(#11). 클립 길이를 설정합니다. 삽입된AUDIO_LENGTH토큰과 일치시켜 합성 시간이 텍스트 의도와 맞도록 유지하세요.KSampler(#3). Stable Audio 3의 디노이징 궤적을 관리합니다.seed를 조정하여 변화를 주며 다른 설정을 안정적으로 유지하여 테이크를 공정하게 비교하세요.SaveAudioMP3(#19). 여러 실행에서 빠르게 라이브러리를 구축하기 위해 출력 파일 이름 접두사 및 형식을 제어합니다.
선택적 엑스트라#
- 장르 또는 출처, 주요 악기 또는 텍스처, 분위기를 명시하는 한두 문장 아이디어로 시작하세요. 재프롬프트는 BPM 및 편곡과 같은 세부 사항을 채울 수 있습니다.
- 목표에 맞는 카테고리를 선택하세요: 전체 트랙을 위한 Music, 루프 또는 스템을 위한 Instrument, 환경 및 행동을 위한 SFX, 고립된 히트를 위한 One-shot.
- 목표 콘텐츠에 대해 지속 시간을 현실적으로 유지하세요. 매우 긴 클립은 계산이 더 무겁고 반복할 때 안정적인
seed가 유리할 수 있습니다. - 결과가 혼잡하게 느껴질 때, 재프롬프트를 비활성화하고 더 간단한 문구를 시도한 후 방향이 마음에 들면 다시 활성화하세요.
- 빠른 대체 테이크를 위해 모든 것을 일정하게 유지하고
seed만 변경하세요.
감사 인사#
이 워크플로우는 다음 작업 및 리소스를 구현하고 확장합니다. Comfy-Org의 ComfyUI Stable Audio 3 Day-0 Support 기사, Comfy-Org의 Official Stable Audio 3.0 Medium Base workflow 템플릿, Comfy-Org의 Stable Audio 3 모델 파일, Comfy-Org의 Qwen3.5 인코더 모델 파일에 대해 그들의 기여와 유지 관리에 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.
리소스#
- Comfy-Org/ComfyUI Stable Audio 3 Day-0 Support Article
- 문서 / 릴리스 노트: Stable Audio 3 Day-0 Support
- Comfy-Org/Official Stable Audio 3.0 Medium Base Workflow Template
- GitHub: Comfy-Org/workflow_templates
- Comfy-Org/Stable Audio 3 Model Files
- Hugging Face: Comfy-Org/stable-audio-3
- Comfy-Org/Qwen3.5 Encoder Model Files
- Hugging Face: Comfy-Org/Qwen3.5
참고: 참조된 모델, 데이터셋 및 코드의 사용은 저자 및 유지 관리자가 제공한 해당 라이선스 및 약관에 따릅니다.


