ACE-Step 1.5XL Turbo Text-to-Music ComfyUI 워크플로우
짧은 프롬프트를 세련된 MP3 음악으로 변환하는 이 comfyui 워크플로우는 속도와 반복성을 중점으로 합니다. ACE-Step 1.5XL Turbo 생성기를 공식 VAE 및 듀얼 Qwen 텍스트 인코더와 결합한 후, 직접 MP3로 내보내어 쉽게 미리보기하고 재사용할 수 있습니다. 제작자, 사운드 디자이너, 프롬프트 아티스트는 결과를 일관되게 유지하면서 빠르게 반복할 수 있습니다.
이 comfyui 워크플로우의 주요 모델
- ACE-Step 1.5XL Turbo (bf16). 텍스트 조건부로 음악을 합성하는 핵심 확산 모델로, 빠른 노이즈 제거와 고품질 오디오 잠재성을 위해 최적화되었습니다. 모델 파일
- ACE-Step 1.5 VAE. 오디오 잠재성을 최종 파형으로 변환하여 ACE-Step 계열이 기대하는 음색과 다이내믹스를 보존합니다. 모델 파일
- Qwen 0.6B ACE 1.5 텍스트 인코더. 생성기가 사용하는 조건 벡터로 설명적 프롬프트를 변환하는 경량 인코더입니다. 모델 파일
- Qwen 4B ACE 1.5 텍스트 인코더. 더 큰 동반 인코더로, 더 충실한 렌더링을 위해 의미론, 스타일 신호, 악기 및 보컬 힌트를 풍부하게 합니다. 모델 파일
이 comfyui 워크플로우 사용 방법
그래프는 두 개의 주요 그룹과 전역 제어로 구성됩니다. ACE-Step 모델 스택을 로드하고, 원하는 음악을 설명하고, 곡의 길이와 시드를 설정한 다음 샘플링, 디코딩, MP3로 내보내기까지 진행합니다.
모델 그룹
이 섹션은 생성기가 기대하는 모델 스택을 초기화합니다. UNETLoader (#104)는 ACE-Step 1.5XL Turbo를 로드하고, VAELoader (#106)는 일치하는 ACE-Step 1.5 VAE를 가져와 디코딩이 충실하게 유지되도록 합니다. DualCLIPLoader (#105)는 Qwen 0.6B 및 4B 텍스트 인코더를 연결하여 프롬프트 임베딩을 준비합니다. UNet은 ModelSamplingAuraFlow (#78)를 통해 라우팅되어, 디노이징이 시작되기 전에 모델이 필요로 하는 샘플러 구성을 적용합니다.
프롬프트 그룹
TextEncodeAceStepAudio1.5 (#94)에서 장르, 분위기, 악기, 보컬, 템포 및 제작 스타일에 대한 간결한 설명을 작성하세요. 가사나 구조적 노트를 사용하는 경우, 인코더가 구문과 다이내믹스를 조건화할 수 있도록 두 번째 텍스트 상자에 제공합니다. 부정적 조건화는 ConditioningZeroOut (#47)를 통해 의도적으로 비활성화되어 초기 반복을 단순화하고 출력을 집중시킵니다. 노드는 전역 duration 및 seed도 수용하여 조건화가 트랙 길이 및 재현 가능성 설정과 일치하도록 합니다.
지속 시간 및 시드
Float (Duration) (#99)를 사용하여 초 단위로 트랙 길이를 설정하세요. Int (Seed) (#109)에서 시드를 선택하여 인코더와 샘플러 모두에서 실행을 재현 가능하게 만듭니다. 프롬프트만 변경하고 동일한 시드를 유지하는 것은 창의적 방향을 A/B 테스트하는 신뢰할 수 있는 방법입니다. 넓은 탐색을 위해 프롬프트에 만족한 후 시드를 변경하세요.
잠재 오디오 설정
EmptyAceStep1.5LatentAudio (#98)는 선택한 지속 시간과 일치하는 빈 오디오 잠재성을 구축합니다. 이는 샘플러가 디노이징하는 동안 채울 캔버스로 작용합니다. 더 긴 지속 시간은 더 많은 계산을 요구하므로, 확대하기 전에 짧은 프롬프트로 유효성을 검사하는 것이 좋습니다. 워크플로우는 지속 시간을 전역으로 연결하여 잠재성과 조건화가 항상 동기화되도록 합니다.
디노이징 및 샘플링
KSampler (#3)은 ACE-Step 1.5XL Turbo 모델과 프롬프트 조건화를 사용하여 확산 과정을 수행합니다. 샘플러 경로는 ModelSamplingAuraFlow (#78)를 통해 실행되어 모델이 예상하는 스케줄러 설정에 맞춥니다. 동일한 시드를 사용하여 단어 또는 스타일의 변경을 비교하고, 프롬프트가 조정된 후에만 샘플러 설정을 조정하세요. 샘플러가 완료되면 디코딩할 준비가 된 오디오 잠재성이 생깁니다.
디코딩 및 내보내기
VAEDecodeAudio (#18)는 ACE-Step 1.5 VAE를 사용하여 잠재성을 파형으로 변환하여 의도한 음색을 보존합니다. SaveAudioMP3 (#107)는 기본 파일 이름과 선택적 버전 태그가 있는 MP3를 작성하여 테이크를 체계적으로 정리할 수 있습니다. MP3는 빠른 검토 및 공유에 이상적이며, 나중에 다른 형식으로 다시 렌더링하거나 내보낼 수 있습니다. 결과는 표준 ComfyUI 출력 위치에 나타납니다.
이 comfyui 워크플로우의 주요 노드
TextEncodeAceStepAudio1.5 (#94)
이 노드는 페어링된 Qwen 인코더를 사용하여 음악 설명 및 선택적 가사를 생성기로의 조건화로 변환합니다. 장르, 악기, 보컬 존재, 템포, 분위기, 믹스 특성에 대해 구체적인 프롬프트를 유지하세요. 노드의 duration이 전역 곡 길이와 일치하여 구조와 구문이 정렬되도록 합니다. 용어가 배열 및 음색에 미치는 영향을 이해하려면 단어 조정 중에 고정된 seed를 사용하세요.
EmptyAceStep1.5LatentAudio (#98)
모델이 채울 시간 캔버스를 제어합니다. 지속 시간을 늘리면 메모리와 렌더링 시간이 증가하므로, 더 긴 조각에 전념하기 전에 짧은 초안으로 반복하세요. 지속 시간 변경은 동일한 프롬프트 및 시드로도 인식된 템포 및 섹션 페이싱을 변경할 수 있으므로 신중하게 조정하세요.
KSampler (#3)
잠재성에서 노이즈가 제거되는 방식을 제어하여 품질, 속도 및 전체 텍스처를 구동합니다. 제공된 스케줄러 경로로 시작하고, 프롬프트가 적절하게 느껴진 후에만 샘플러 설정을 조정하세요. 빠른 초안을 위해 샘플링 노력을 줄이고, 더 높은 충실도를 위해 점차적으로 늘리면서 차이를 쉽게 들을 수 있도록 시드를 일정하게 유지하세요. 일반적인 지침은 ComfyUI 저장소의 코어 샘플러 동작을 참조하세요. ComfyUI on GitHub
SaveAudioMP3 (#107)
내보내기 및 파일 이름 지정을 처리하여 테이크를 카탈로그할 수 있습니다. 명확한 기본 이름 및 버전 태그를 설정하여 반복을 추적하세요. 마스터링하거나 추가 편집을 계획하는 경우, 프로젝트 시드 및 프롬프트를 노트에 기록하여 대체 내보내기 설정으로 다시 렌더링할 수 있도록 하세요.
선택적 추가 기능
- 짧고 순서 있는 구문으로 프롬프트 작성: 장르, 분위기, 키 느낌, 템포, 악기, 보컬 유형, 제작 스타일.
- 가사를 간결하게 유지하고 선택한 지속 시간에 맞추어 문장의 끝에서 서두르는 구문을 피하세요.
- 프롬프트를 다듬는 동안 시드를 고정한 다음, 동일한 브리프로 대안 배열을 탐색하기 위해 시드를 변경하세요.
- 방향을 검증하기 위해 짧은 지속 시간으로 시작한 다음, 핵심 사운드가 작동하면 확장하세요.
- 부정적 조건화는 설계상 비활성화되어 있습니다; 초기 탐색 후 엄격한 배제가 필요한 경우에만 진정한 부정적 프롬프트를 활성화하고 조정하세요.
감사의 말
이 워크플로우는 다음 작업 및 리소스를 구현하고 확장합니다. 오디오 ACE Step 1.5 XL Turbo 워크플로우에 대한 Comfy.org와 ACE-Step 1.5XL Turbo 확산 모델, ACE-Step 1.5 VAE, ACE-Step 1.5 텍스트 인코더 0.6B, 및 ACE-Step 1.5 텍스트 인코더 4B에 대한 Comfy-Org의 기여 및 유지보수에 감사드립니다. 권위 있는 세부 정보는 아래에 연결된 원본 문서 및 저장소를 참조하세요.
리소스
- Comfy.org/Audio ACE Step 1.5 XL Turbo 워크플로우
- 문서 / 릴리스 노트: 워크플로우 페이지
- Comfy-Org/ACE-Step 1.5XL Turbo 확산 모델
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
- Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
- Comfy-Org/ACE-Step 1.5 텍스트 인코더 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
- Comfy-Org/ACE-Step 1.5 텍스트 인코더 4B
- Hugging Face: qwen_4b_ace15.safetensors
참고: 참조된 모델, 데이터세트 및 코드의 사용은 해당 저자 및 유지관리자가 제공한 라이선스 및 조건에 따릅니다.
