ComfyUI>워크플로우>ACE-Step 음악 생성 | AI 오디오 생성

ACE-Step 음악 생성 | AI 오디오 생성

Workflow Name: RunComfy/ACE-Step-Music

Workflow ID: 0000...1224

ACE-Step은 음악 생성의 기초 모델로, 생성 속도와 음악 품질 간의 격차를 해소하는 획기적인 오픈 소스 모델입니다. 확산 기반 생성과 Sana의 Deep Compression AutoEncoder 및 경량의 선형 트랜스포머를 통합하여, 최대 4분의 고품질 음악을 단 20초 만에 합성합니다—LLM 기반 대안보다 15배 빠릅니다. 이 모델은 가사, 음성 복제, 리믹싱 기능에 대한 고급 제어를 제공하면서 음악적 일관성을 유지하는 데 탁월합니다.

1. ComfyUI ACE-Step 워크플로우란?

ComfyUI ACE-Step은 ComfyUI 환경에 새롭게 개발된 ACE-Step 음악 생성 기초 모델을 통합합니다. 확산 기반 생성과 Sana의 Deep Compression AutoEncoder (DCAE) 및 경량의 선형 트랜스포머를 결합한 하이브리드 아키텍처 위에 구축된 ACE-Step은 초고속, 고품질의 음악 생성을 가능하게 하며 뛰어난 제어 기능을 제공합니다. 이 워크플로우는 사용자가 간단한 자연어 프롬프트와 가사를 사용하여 다양한 장르와 스타일의 독창적인 음악을 만들 수 있도록 합니다.

2. ComfyUI ACE-Step의 장점:

전례 없는 속도: 최대 4분의 음악을 단 20초 만에 합성—LLM 기반 대안보다 15배 빠름
음악적 일관성: ACE-Step은 멜로디, 하모니, 리듬 차원에서 우수한 품질을 유지합니다
다국어 지원: 19개 언어로 음악을 생성하며 상위 10개 언어에서 뛰어난 성능을 발휘합니다
고급 제어: 음성 복제, 가사 편집, 리믹싱, 트랙 생성이 세밀한 매개변수로 가능합니다
창의적 유연성: 다양한 음악 스타일, 장르, 악기를 다양한 설명 형식으로 지원합니다
원활한 통합: AI 기반 오디오 생성을 위해 ComfyUI 워크플로우에 직접 플러그인합니다

3. ComfyUI ACE-Step 워크플로우 사용법

3.1 ComfyUI ACE-Step 생성 방법

ACE-Step 설정 예시:

입력 준비: TextEncodeAceStepAudio 노드에서:
- 음악 스타일에 대한 설명 태그 추가 (예: "country rock, folk rock, southern rock, bluegrass, pop")
- [verse], [chorus], [bridge] 같은 구조 태그를 사용하여 가사 입력
- lyrics_strength 조정 (기본값은 1.00)
KSampler 노드 매개변수 구성:
- 단계 조정 (ACE-Step에 50을 권장)
- cfg 설정 (기본값은 4.0)
- denoise 값 설정 (기본값은 1.00)
EmptyAceStepLatentAudio 노드에서:
- 원하는 초 단위 설정 (기본값은 30.0)
- batch_size 설정
Run 버튼을 눌러 ACE-Step 워크플로우 실행
SaveAudio 노드에서 생성된 음악을 듣거나 저장

ACE-Step 핵심 생성 워크플로우

최적 용도: 텍스트 설명 및 가사에서 독창적인 음악 생성
특징:
- 빠른 생성 (LLM 대안보다 15배 빠름)
- 강력한 음악적 일관성과 품질
- 유연한 지속 시간 제어

ACE-Step 특화 워크플로우 (LoRA 기반)

Lyric2Vocal: 가사에서 고품질 보컬을 생성하도록 미세 조정된 ACE-Step 모델
Text2Samples: 악기 루프 및 샘플을 생성하기 위한 특화된 ACE-Step 변형
RapMachine: 다양한 스타일로 랩 생성에 최적화된 ACE-Step 모델

3.2 ComfyUI ACE-Step 매개변수 참조

TextEncodeAceStepAudio 노드: 이 노드는 텍스트 입력을 처리하여 ACE-Step 음악 생성을 안내합니다.

clip: 스타일 설명, 장르, 분위기를 위한 텍스트 필드
lyrics: 구조 태그가 있는 노래 가사를 위한 텍스트 필드
lyrics_strength: 가사가 생성에 미치는 영향을 제어합니다 (기본값: 1.00)

KSampler 노드: ACE-Step의 확산 샘플링 과정을 제어합니다.

seed: 재현 가능한 결과를 위한 랜덤화 시드 설정
control_after_generate: 생성 후 시드 동작에 대한 옵션
steps: 확산 단계 수 (더 높을수록 더 많은 정제)
cfg: 프롬프트에 대한 클래스프리 가이드 스케일 (더 높을수록 프롬프트에 더 많이 따름)
sampler_name: 샘플링에 사용되는 알고리즘 (res_multistep 권장)
scheduler: 노이즈 일정 유형 (simple 권장)
denoise: 노이즈 제거 수준 제어 (1.00은 완전한 디노이징)

EmptyAceStepLatentAudio 노드: 오디오 생성 공간을 초기화합니다.

seconds: 생성된 오디오의 지속 시간 (초 단위)
batch_size: 동시에 생성할 샘플 수

VAEDecodeAudio 노드: 잠재 표현을 들을 수 있는 형식으로 디코딩합니다.

samples: KSampler에서의 입력
vae: 디코딩에 사용되는 VAE 모델

SaveAudio 노드: 최종 ACE-Step 오디오 결과를 출력합니다.

filename_prefix: 저장된 오디오 파일의 접두사
audio: 생성된 오디오 미리보기를 위한 플레이어

3.3. ComfyUI ACE-Step 고급 기법

변형 생성:

원래 ACE-Step 생성물과의 유사성을 제어하기 위해 변형 매개변수 조정
더 높은 변형은 핵심 음악 요소를 보존하면서 더 다양한 출력을 생성합니다

재페인팅:

전체 구성을 변경하지 않고 문제 있는 부분을 수정하기 위해 오디오의 특정 부분을 선택적으로 재생성

ACE-Step에서의 가사 편집:

멜로디, 음성 음색, 반주를 유지하면서 가사를 수정
음악 구조를 보존하면서 여러 언어로 편집 지원

음성 복제:

ACE-Step으로 새 콘텐츠를 생성할 때 음성 특성을 보존
가사 편집과 결합하여 유연한 음성 퍼포먼스 가능

스타일 전환:

기존 구성에 새로운 음악 스타일 적용
다른 장르 특성을 채택하면서 핵심 음악 구조 유지

3.4. ACE-Step 프롬프트 팁:

일반 음악용:

ACE-Step 프롬프트에서 장르, 분위기, 악기에 대해 구체적으로 명시
예시 프롬프트: "electronic, rock, pop" 또는 "funk, pop, soul, melodic"
더 자세한 프롬프트: "dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"

악기 음악용:

악기 및 음악적 특성 명시
예시 프롬프트: "saxophone, jazz" 또는 "violin, solo, fast tempo"
더 자세한 프롬프트: "sonata, piano, Violin, B Flat Major, allegro"

다국어 지원용:

ACE-Step은 다음 언어에서 가장 잘 작동합니다: English, Chinese, Russian, Spanish, Japanese, German, French, Portuguese, Italian, Korean
Chinese, Japanese, Korean과 같은 비라틴 문자 언어도 잘 지원됩니다

ACE-Step에 대한 추가 정보

추가 세부사항 및 개발 참조:

ACE Studio와 StepFun이 개발한 원본 ACE-Step 모델
모델 개발자: Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, Joe Guo

감사의 글

이 워크플로우는 ACE-Step에 기반을 두고 있으며, ACE Studio와 StepFun이 공동으로 개발했습니다. ComfyUI 환경 내에서 매끄러운 음악 생성을 가능하게 하는 ComfyUI ACE-Step 통합은 ACE-Step의 혁신적인 작업을 수행한 원저자들에게 전적인 공로가 돌아갑니다.

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio: 고품질 오디오 생성을 위한 고급 비디오-오디오 모델.

Sonic | 립싱크 초상화 애니메이션

Sonic은 고품질 애니메이션으로 초상화를 위한 고급 오디오 기반 립싱크를 제공합니다.

LatentSync| 립싱크 모델

고급 오디오 기반 립싱크 기술.

FLUX Kontext Dev | 지능형 이미지 편집

Kontext Dev = 제어 가능 + 모든 그래픽 디자인 요구를 한 도구에

AnimateDiff + ControlNet | 만화 스타일

생동감 넘치는 만화로 변신시켜 동영상에 재미있는 변화를 주세요.

IC-Light | 비디오 재조명 | AnimateDiff

라이트 맵과 프롬프트로 비디오를 재조명하세요

오디오 리액티브 댄서 진화

정교한 기하학적 도형으로 구성된 오디오 리액티브 배경으로 대상을 변형하세요.

Flux & 10 In-Context LoRA 모델

이미지 생성을 위한 Flux 및 10개의 다재다능한 In-Context LoRA 모델을 발견하십시오.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.