ACE-Step 음악 생성 | AI 오디오 생성
ACE-Step은 음악 생성의 기초 모델로, 생성 속도와 음악 품질 간의 격차를 해소하는 획기적인 오픈 소스 모델입니다. 확산 기반 생성과 Sana의 Deep Compression AutoEncoder 및 경량의 선형 트랜스포머를 통합하여, 최대 4분의 고품질 음악을 단 20초 만에 합성합니다—LLM 기반 대안보다 15배 빠릅니다. 이 모델은 가사, 음성 복제, 리믹싱 기능에 대한 고급 제어를 제공하면서 음악적 일관성을 유지하는 데 탁월합니다.ComfyUI ACE-Step 워크플로우
ComfyUI ACE-Step 예제
ComfyUI ACE-Step 설명
1. ComfyUI ACE-Step 워크플로우란?
ComfyUI ACE-Step은 ComfyUI 환경에 새롭게 개발된 ACE-Step 음악 생성 기초 모델을 통합합니다. 확산 기반 생성과 Sana의 Deep Compression AutoEncoder (DCAE) 및 경량의 선형 트랜스포머를 결합한 하이브리드 아키텍처 위에 구축된 ACE-Step은 초고속, 고품질의 음악 생성을 가능하게 하며 뛰어난 제어 기능을 제공합니다. 이 워크플로우는 사용자가 간단한 자연어 프롬프트와 가사를 사용하여 다양한 장르와 스타일의 독창적인 음악을 만들 수 있도록 합니다.
2. ComfyUI ACE-Step의 장점:
- 전례 없는 속도: 최대 4분의 음악을 단 20초 만에 합성—LLM 기반 대안보다 15배 빠름
- 음악적 일관성: ACE-Step은 멜로디, 하모니, 리듬 차원에서 우수한 품질을 유지합니다
- 다국어 지원: 19개 언어로 음악을 생성하며 상위 10개 언어에서 뛰어난 성능을 발휘합니다
- 고급 제어: 음성 복제, 가사 편집, 리믹싱, 트랙 생성이 세밀한 매개변수로 가능합니다
- 창의적 유연성: 다양한 음악 스타일, 장르, 악기를 다양한 설명 형식으로 지원합니다
- 원활한 통합: AI 기반 오디오 생성을 위해 ComfyUI 워크플로우에 직접 플러그인합니다
3. ComfyUI ACE-Step 워크플로우 사용법
3.1 ComfyUI ACE-Step 생성 방법
ACE-Step 설정 예시:
- 입력 준비:
TextEncodeAceStepAudio
노드에서:- 음악 스타일에 대한 설명 태그 추가 (예: "country rock, folk rock, southern rock, bluegrass, pop")
- [verse], [chorus], [bridge] 같은 구조 태그를 사용하여 가사 입력
- lyrics_strength 조정 (기본값은 1.00)
KSampler
노드 매개변수 구성:- 단계 조정 (ACE-Step에 50을 권장)
- cfg 설정 (기본값은 4.0)
- denoise 값 설정 (기본값은 1.00)
EmptyAceStepLatentAudio
노드에서:- 원하는 초 단위 설정 (기본값은 30.0)
- batch_size 설정
Run
버튼을 눌러 ACE-Step 워크플로우 실행SaveAudio
노드에서 생성된 음악을 듣거나 저장
ACE-Step 핵심 생성 워크플로우
- 최적 용도: 텍스트 설명 및 가사에서 독창적인 음악 생성
- 특징:
- 빠른 생성 (LLM 대안보다 15배 빠름)
- 강력한 음악적 일관성과 품질
- 유연한 지속 시간 제어
ACE-Step 특화 워크플로우 (LoRA 기반)
- Lyric2Vocal: 가사에서 고품질 보컬을 생성하도록 미세 조정된 ACE-Step 모델
- Text2Samples: 악기 루프 및 샘플을 생성하기 위한 특화된 ACE-Step 변형
- RapMachine: 다양한 스타일로 랩 생성에 최적화된 ACE-Step 모델
3.2 ComfyUI ACE-Step 매개변수 참조
TextEncodeAceStepAudio 노드: 이 노드는 텍스트 입력을 처리하여 ACE-Step 음악 생성을 안내합니다.
clip
: 스타일 설명, 장르, 분위기를 위한 텍스트 필드lyrics
: 구조 태그가 있는 노래 가사를 위한 텍스트 필드lyrics_strength
: 가사가 생성에 미치는 영향을 제어합니다 (기본값: 1.00)
KSampler 노드: ACE-Step의 확산 샘플링 과정을 제어합니다.
seed
: 재현 가능한 결과를 위한 랜덤화 시드 설정control_after_generate
: 생성 후 시드 동작에 대한 옵션steps
: 확산 단계 수 (더 높을수록 더 많은 정제)cfg
: 프롬프트에 대한 클래스프리 가이드 스케일 (더 높을수록 프롬프트에 더 많이 따름)sampler_name
: 샘플링에 사용되는 알고리즘 (res_multistep 권장)scheduler
: 노이즈 일정 유형 (simple 권장)denoise
: 노이즈 제거 수준 제어 (1.00은 완전한 디노이징)
EmptyAceStepLatentAudio 노드: 오디오 생성 공간을 초기화합니다.
seconds
: 생성된 오디오의 지속 시간 (초 단위)batch_size
: 동시에 생성할 샘플 수
VAEDecodeAudio 노드: 잠재 표현을 들을 수 있는 형식으로 디코딩합니다.
samples
: KSampler에서의 입력vae
: 디코딩에 사용되는 VAE 모델
SaveAudio 노드: 최종 ACE-Step 오디오 결과를 출력합니다.
filename_prefix
: 저장된 오디오 파일의 접두사audio
: 생성된 오디오 미리보기를 위한 플레이어
3.3. ComfyUI ACE-Step 고급 기법
변형 생성:
- 원래 ACE-Step 생성물과의 유사성을 제어하기 위해 변형 매개변수 조정
- 더 높은 변형은 핵심 음악 요소를 보존하면서 더 다양한 출력을 생성합니다
재페인팅:
- 전체 구성을 변경하지 않고 문제 있는 부분을 수정하기 위해 오디오의 특정 부분을 선택적으로 재생성
ACE-Step에서의 가사 편집:
- 멜로디, 음성 음색, 반주를 유지하면서 가사를 수정
- 음악 구조를 보존하면서 여러 언어로 편집 지원
음성 복제:
- ACE-Step으로 새 콘텐츠를 생성할 때 음성 특성을 보존
- 가사 편집과 결합하여 유연한 음성 퍼포먼스 가능
스타일 전환:
- 기존 구성에 새로운 음악 스타일 적용
- 다른 장르 특성을 채택하면서 핵심 음악 구조 유지
3.4. ACE-Step 프롬프트 팁:
일반 음악용:
- ACE-Step 프롬프트에서 장르, 분위기, 악기에 대해 구체적으로 명시
- 예시 프롬프트: "electronic, rock, pop" 또는 "funk, pop, soul, melodic"
- 더 자세한 프롬프트: "dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"
악기 음악용:
- 악기 및 음악적 특성 명시
- 예시 프롬프트: "saxophone, jazz" 또는 "violin, solo, fast tempo"
- 더 자세한 프롬프트: "sonata, piano, Violin, B Flat Major, allegro"
다국어 지원용:
- ACE-Step은 다음 언어에서 가장 잘 작동합니다: English, Chinese, Russian, Spanish, Japanese, German, French, Portuguese, Italian, Korean
- Chinese, Japanese, Korean과 같은 비라틴 문자 언어도 잘 지원됩니다
ACE-Step에 대한 추가 정보
추가 세부사항 및 개발 참조:
- 이 개발한 원본 ACE-Step 모델
- 모델 개발자: Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, Joe Guo
감사의 글
이 워크플로우는 ACE-Step에 기반을 두고 있으며, ACE Studio와 StepFun이 공동으로 개발했습니다. ComfyUI 환경 내에서 매끄러운 음악 생성을 가능하게 하는 ComfyUI ACE-Step 통합은 ACE-Step의 혁신적인 작업을 수행한 원저자들에게 전적인 공로가 돌아갑니다.