ComfyUI에서 Stable Audio Open 1.0 | 텍스트-음악 워크플로우

ComfyUI Stable Audio Workflow

Stable Audio Open 1.0 in ComfyUI | Text-to-Music Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Stable Audio Examples

Stable Audio Open 1.0 텍스트-음악 워크플로우#

이 워크플로우는 Stable Audio Open 1.0을 사용하여 일반 텍스트를 원본 음악과 사운드스케이프로 변환합니다. ComfyUI를 떠나지 않고도 빠르고 제어 가능한 오디오 생성이 필요한 작곡가, 사운드 디자이너, 창작자를 위해 설계되었습니다. 프롬프트를 작성하고 목표 지속 시간을 설정하면 그래프가 스타일, 분위기, 템포 및 악기를 반영하는 MP3를 렌더링합니다.

기본적으로 워크플로우는 T5 기반 텍스트 인코더로 텍스트를 인코딩하고, 잠재 오디오 공간에서 Stable Audio의 디퓨전 프로세스를 실행한 후, 이를 웨이브폼으로 디코딩하여 결과를 저장합니다. 명확한 프롬프트 가이드와 간단한 길이 제어로 Stable Audio 생성은 시네마틱, 앰비언트 또는 실험적 트랙에 대해 예측 가능하고 반복 가능합니다.

Comfyui Stable Audio 워크플로우의 주요 모델#

Stable Audio Open 1.0. Stability AI에 의해 텍스트-음악 및 사운드 디자인을 위한 오픈-웨이트 잠재 디퓨전 모델입니다. 텍스트 의도를 오디오 잠재로 매핑하며 다양한 음악 스타일과 구조를 지원합니다. Repository • Weights
T5-Base Text Encoder. 여기서 Stable Audio 생성을 위한 조건으로 프롬프트를 임베딩하는 데 사용되는 범용 텍스트 모델입니다. 명확하고 설명적인 입력이 더 일관된 음악을 이끌어냅니다. Model card

Comfyui Stable Audio 워크플로우 사용 방법#

그래프는 모델 로딩에서 프롬프트 조건화, 샘플링, 디코딩 및 저장으로 흐릅니다. 그룹은 모델을 한 번 설정하고 길이를 조정하고 프롬프트를 작성하고 렌더링할 수 있도록 구성되어 있습니다.

모델 로드#

이 그룹은 핵심 자산을 초기화합니다. CheckpointLoaderSimple (#4)는 디퓨전 모델과 그 오디오 VAE를 포함하는 Stable Audio Open 1.0 체크포인트를 로드합니다. CLIPLoader (#10)는 조건화를 위해 사용되는 T5 기반 텍스트 인코더를 로드합니다. 로드되면, 이러한 모델은 Stable Audio 생성의 백본을 제공하며 후속 실행을 위해 상주합니다.

길이#

이 그룹은 오디오의 길이를 정의합니다. EmptyLatentAudio (#11)는 선택한 지속 시간으로 빈 잠재 트랙을 생성하여 샘플러가 생성할 프레임 수를 알 수 있도록 합니다. 더 긴 클립은 더 많은 시간과 메모리를 소모하므로, 처음에는 적절히 시작한 후 확장하십시오. 아이디어를 탐색할 때 배치 차원을 늘려 여러 변형을 생성할 수도 있습니다.

프롬프트#

이 그룹은 텍스트를 디퓨전 프로세스의 가이던스 신호로 변환합니다. CLIPTextEncode (#6)를 사용하여 악기, 장르, 분위기, 템포 및 프로덕션 큐와 같은 긍정적인 프롬프트를 작성하십시오. 예를 들어: "풍부한 시네마틱 오케스트라, 휩쓰는 현악기와 금관악기, 깊은 타악기, 앰비언트 패드, 90 BPM, 고양된." CLIPTextEncode (#7)를 사용하여 "거친 소음, 클리핑, 왜곡"과 같은 아티팩트를 억제하는 부정적인 프롬프트를 작성하십시오. 이들을 함께 사용하여 Stable Audio를 원하는 텍스처와 구조로 유도합니다.

생성 및 내보내기#

KSampler (#3)는 텍스트 인코딩으로 안내된 잠재 오디오를 음악적 잠재로 변환하는 디퓨전 단계를 수행합니다. VAEDecodeAudio (#12)는 잠재 오디오를 다시 웨이브폼으로 변환합니다. 마지막으로, SaveAudioMP3 (#19)는 MP3 파일을 작성하여 검토하거나 타임라인에 직접 드롭할 수 있도록 합니다. 반복 작업의 경우, 파일 이름 접두사를 조정하여 테이크를 정리합니다.

Comfyui Stable Audio 워크플로우의 주요 노드#

CLIPTextEncode (#6) 이 노드는 긍정적인 프롬프트를 Stable Audio가 따르는 조건으로 인코딩합니다. 명확한 악기 목록, 장르, 분위기, 템포 또는 BPM, "따뜻한," "로파이," "시네마틱," "앰비언트"와 같은 프로덕션 용어를 우선시하십시오. 미세한 단어 변경이 구성에 의미 있게 영향을 미칠 수 있습니다. ComfyUI 핵심 노드를 참조하여 일반적인 동작을 확인하십시오. ComfyUI
CLIPTextEncode (#7) 부정적인 프롬프트는 원치 않는 음색이나 믹스 문제를 피하는 데 도움이 됩니다. 예를 들어 "날카로운 소음, 금속성 울림, 글리치 팝, 라디오 히스"와 같이 제거할 항목을 설명하는 용어를 추가하십시오. 이를 간결하게 유지하면 더 깨끗한 Stable Audio 렌더링을 얻을 수 있습니다. ComfyUI
EmptyLatentAudio (#11) 여러 변형을 위한 배치 수와 선택적으로 클립 지속 시간을 초 단위로 제어합니다. 더 긴 작품을 위해 초를 늘리되, 길이에 따라 계산이 확장됨을 유의하십시오. 배치 생성을 사용하여 단일 프롬프트에서 여러 Stable Audio 테이크를 청취할 수 있습니다. ComfyUI
KSampler (#3) 오디오 잠재에 대한 디퓨전 프로세스를 구동합니다. 가장 영향력 있는 제어 요소는 steps, sampler, cfg 및 seed입니다. steps를 높여 더 정교한 디테일을 얻고, cfg를 조정하여 프롬프트 준수와 창의성의 균형을 맞추며, 고정 seed를 설정하여 테이크를 재현하거나 새로운 아이디어를 위해 변경하십시오. ComfyUI의 샘플러 노트를 참조하여 일반적인 지침을 확인하십시오. ComfyUI
SaveAudioMP3 (#19) 최종 웨이브폼을 MP3로 내보냅니다. filename_prefix를 사용하여 버전을 라벨링하고 반복을 깔끔하게 유지하십시오. 프롬프트나 시드를 비교할 때, 여러 테이크를 나란히 저장하면 Stable Audio 선택이 더 빨라집니다. ComfyUI

선택적 추가 기능#

세션 브리프처럼 프롬프트 작성: 악기, 장르, 분위기, 템포 또는 BPM, 믹스 형용사.
짧고 집중된 부정적인 프롬프트를 사용하여 히스, 거칠음, 원치 않는 악기를 줄이십시오.
텍스트를 반복하면서 seed를 고정한 후, 새로운 Stable Audio 변형을 탐색하기 위해 seed를 변경하십시오.
스타일을 조정하기 위해 짧은 지속 시간으로 시작한 후, 소리가 적절해지면 길이를 늘리십시오.
개념당 일관된 파일 이름 접두사를 유지하여 나중에 Stable Audio 테이크를 A/B 테스트할 수 있도록 하십시오.

더 깊은 읽기를 위한 리소스: Stable Audio 모델 세부 정보 및 예제 here, ComfyUI 핵심 및 노드 동작 here, 그리고 T5-Base 모델 카드 here.

감사의 글#

이 워크플로우는 다음 작업과 리소스를 구현하고 기반으로 합니다. Stable Audio Open을 위한 Stability AI, ComfyUI 노드 및 워크플로우 참조를 위한 comfyanonymous (ComfyUI), Stable Audio Open 1.0 체크포인트 및 T5-Base 텍스트 인코더를 위한 Comfy-Org 및 ComfyUI-Wiki에 감사드립니다. 공식적인 세부 사항은 아래 링크된 원본 문서와 리포지토리를 참조하십시오.

리소스#

Comfy-Org/Stable Audio Open 1.0 워크플로우
- GitHub: Stability-AI/stable-audio-open

참고: 참조된 모델, 데이터셋, 코드의 사용은 저자 및 유지 관리자가 제공하는 해당 라이선스 및 조건을 따릅니다.

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio: 고품질 오디오 생성을 위한 고급 비디오-오디오 모델.

ACE-Step 음악 생성 | AI 오디오 생성

획기적인 확산 기술로 스튜디오 품질의 음악을 15배 빠르게 생성합니다.

EchoMimic | 오디오 기반 초상화 애니메이션

제공된 오디오와 동기화된 현실적인 말하는 머리와 신체 제스처를 생성합니다.

ACE++ 캐릭터 일관성

단일 사진에서 포즈, 각도 및 스타일 전반에 걸쳐 캐릭터의 일관된 이미지를 생성합니다.

Hunyuan LoRA

다운로드한 Hunyuan LoRA를 사용하여 비디오 생성에서 스타일과 캐릭터 일관성을 제어하세요.

ACE-Step 1.5XL Turbo comfyui 워크플로우 | Text-to-Music Generator

텍스트를 멋진 음악으로 빠르고 명확하게 변환합니다.

LTX 2.3 Sulphur 2 프롬프트 릴레이 워크플로우 | 시네마틱 비디오 메이커

정지 이미지를 시네마틱 모션 제어 비디오로 즉시 변환합니다.

FLUX Kontext Dev | 지능형 이미지 편집

Kontext Dev = 제어 가능 + 모든 그래픽 디자인 요구를 한 도구에

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

Stable Audio Open 1.0 | 텍스트-음악 도구