이 워크플로우는 Stable Audio Open 1.0을 사용하여 일반 텍스트를 원본 음악과 사운드스케이프로 변환합니다. ComfyUI를 떠나지 않고도 빠르고 제어 가능한 오디오 생성이 필요한 작곡가, 사운드 디자이너, 창작자를 위해 설계되었습니다. 프롬프트를 작성하고 목표 지속 시간을 설정하면 그래프가 스타일, 분위기, 템포 및 악기를 반영하는 MP3를 렌더링합니다.
기본적으로 워크플로우는 T5 기반 텍스트 인코더로 텍스트를 인코딩하고, 잠재 오디오 공간에서 Stable Audio의 디퓨전 프로세스를 실행한 후, 이를 웨이브폼으로 디코딩하여 결과를 저장합니다. 명확한 프롬프트 가이드와 간단한 길이 제어로 Stable Audio 생성은 시네마틱, 앰비언트 또는 실험적 트랙에 대해 예측 가능하고 반복 가능합니다.
그래프는 모델 로딩에서 프롬프트 조건화, 샘플링, 디코딩 및 저장으로 흐릅니다. 그룹은 모델을 한 번 설정하고 길이를 조정하고 프롬프트를 작성하고 렌더링할 수 있도록 구성되어 있습니다.
이 그룹은 핵심 자산을 초기화합니다. CheckpointLoaderSimple (#4)는 디퓨전 모델과 그 오디오 VAE를 포함하는 Stable Audio Open 1.0 체크포인트를 로드합니다. CLIPLoader (#10)는 조건화를 위해 사용되는 T5 기반 텍스트 인코더를 로드합니다. 로드되면, 이러한 모델은 Stable Audio 생성의 백본을 제공하며 후속 실행을 위해 상주합니다.
이 그룹은 오디오의 길이를 정의합니다. EmptyLatentAudio (#11)는 선택한 지속 시간으로 빈 잠재 트랙을 생성하여 샘플러가 생성할 프레임 수를 알 수 있도록 합니다. 더 긴 클립은 더 많은 시간과 메모리를 소모하므로, 처음에는 적절히 시작한 후 확장하십시오. 아이디어를 탐색할 때 배치 차원을 늘려 여러 변형을 생성할 수도 있습니다.
이 그룹은 텍스트를 디퓨전 프로세스의 가이던스 신호로 변환합니다. CLIPTextEncode (#6)를 사용하여 악기, 장르, 분위기, 템포 및 프로덕션 큐와 같은 긍정적인 프롬프트를 작성하십시오. 예를 들어: "풍부한 시네마틱 오케스트라, 휩쓰는 현악기와 금관악기, 깊은 타악기, 앰비언트 패드, 90 BPM, 고양된." CLIPTextEncode (#7)를 사용하여 "거친 소음, 클리핑, 왜곡"과 같은 아티팩트를 억제하는 부정적인 프롬프트를 작성하십시오. 이들을 함께 사용하여 Stable Audio를 원하는 텍스처와 구조로 유도합니다.
KSampler (#3)는 텍스트 인코딩으로 안내된 잠재 오디오를 음악적 잠재로 변환하는 디퓨전 단계를 수행합니다. VAEDecodeAudio (#12)는 잠재 오디오를 다시 웨이브폼으로 변환합니다. 마지막으로, SaveAudioMP3 (#19)는 MP3 파일을 작성하여 검토하거나 타임라인에 직접 드롭할 수 있도록 합니다. 반복 작업의 경우, 파일 이름 접두사를 조정하여 테이크를 정리합니다.
CLIPTextEncode (#6)
이 노드는 긍정적인 프롬프트를 Stable Audio가 따르는 조건으로 인코딩합니다. 명확한 악기 목록, 장르, 분위기, 템포 또는 BPM, "따뜻한," "로파이," "시네마틱," "앰비언트"와 같은 프로덕션 용어를 우선시하십시오. 미세한 단어 변경이 구성에 의미 있게 영향을 미칠 수 있습니다. ComfyUI 핵심 노드를 참조하여 일반적인 동작을 확인하십시오. ComfyUI
CLIPTextEncode (#7)
부정적인 프롬프트는 원치 않는 음색이나 믹스 문제를 피하는 데 도움이 됩니다. 예를 들어 "날카로운 소음, 금속성 울림, 글리치 팝, 라디오 히스"와 같이 제거할 항목을 설명하는 용어를 추가하십시오. 이를 간결하게 유지하면 더 깨끗한 Stable Audio 렌더링을 얻을 수 있습니다. ComfyUI
EmptyLatentAudio (#11)
여러 변형을 위한 배치 수와 선택적으로 클립 지속 시간을 초 단위로 제어합니다. 더 긴 작품을 위해 초를 늘리되, 길이에 따라 계산이 확장됨을 유의하십시오. 배치 생성을 사용하여 단일 프롬프트에서 여러 Stable Audio 테이크를 청취할 수 있습니다. ComfyUI
KSampler (#3)
오디오 잠재에 대한 디퓨전 프로세스를 구동합니다. 가장 영향력 있는 제어 요소는 steps, sampler, cfg 및 seed입니다. steps를 높여 더 정교한 디테일을 얻고, cfg를 조정하여 프롬프트 준수와 창의성의 균형을 맞추며, 고정 seed를 설정하여 테이크를 재현하거나 새로운 아이디어를 위해 변경하십시오. ComfyUI의 샘플러 노트를 참조하여 일반적인 지침을 확인하십시오. ComfyUI
SaveAudioMP3 (#19)
최종 웨이브폼을 MP3로 내보냅니다. filename_prefix를 사용하여 버전을 라벨링하고 반복을 깔끔하게 유지하십시오. 프롬프트나 시드를 비교할 때, 여러 테이크를 나란히 저장하면 Stable Audio 선택이 더 빨라집니다. ComfyUI
seed를 고정한 후, 새로운 Stable Audio 변형을 탐색하기 위해 seed를 변경하십시오.더 깊은 읽기를 위한 리소스: Stable Audio 모델 세부 정보 및 예제 here, ComfyUI 핵심 및 노드 동작 here, 그리고 T5-Base 모델 카드 here.
이 워크플로우는 다음 작업과 리소스를 구현하고 기반으로 합니다. Stable Audio Open을 위한 Stability AI, ComfyUI 노드 및 워크플로우 참조를 위한 comfyanonymous (ComfyUI), Stable Audio Open 1.0 체크포인트 및 T5-Base 텍스트 인코더를 위한 Comfy-Org 및 ComfyUI-Wiki에 감사드립니다. 공식적인 세부 사항은 아래 링크된 원본 문서와 리포지토리를 참조하십시오.
참고: 참조된 모델, 데이터셋, 코드의 사용은 저자 및 유지 관리자가 제공하는 해당 라이선스 및 조건을 따릅니다.
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.