ChatterBox TTS ComfyUI 워크플로우 | 다국어 음성 및 대화

ChatterBox TTS ComfyUI Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ChatterBox TTS ComfyUI Examples

ChatterBox TTS ComfyUI: 다중 모드 TTS, 음성 변환, 다국어 및 대화 합성을 하나의 그래프에서#

ChatterBox TTS ComfyUI는 하나의 캔버스에서 여러 모드로 음성을 생성할 수 있는 간결하고 창작자 친화적인 오디오 워크플로우입니다: 표준 TTS, 빠른 초안을 위한 터보 TTS, 다국어 내레이션, 참조 기반의 음성 복제, 음성 변환, 그리고 스크립트된 두 명의 화자 대화. 이는 ComfyUI_Fill-ChatterBox에 의해 통합된 오픈 소스 Resemble AI Chatterbox 프로젝트의 FL ChatterBox 노드 스위트에 의해 구동됩니다.

이 워크플로우를 사용하여 AI 음성을 프로토타입하고, 다른 언어로 대사를 현지화하고, 하나의 성능을 다른 음성으로 변환하거나 캐릭터 교환을 차단할 수 있습니다. 레이아웃은 각 경로를 별도로 유지하므로 결과를 나란히 시청하고 어떤 ChatterBox TTS ComfyUI 모드가 작업에 적합한지 빠르게 결정할 수 있습니다.

Comfyui ChatterBox TTS ComfyUI 워크플로우의 주요 모델#

Resemble AI Chatterbox TTS 모델. 스크립트를 자연스러운 말로 변환하는 핵심 신경 TTS로, 선택적으로 음성 및 스타일을 조정하기 위한 참조 오디오를 사용할 수 있습니다. Resemble AI Chatterbox
Resemble AI Chatterbox Turbo TTS. 빠른 테이크와 반복적 프롬프트가 필요할 때 속도에 최적화된 저지연 TTS 변형. Resemble AI Chatterbox
Resemble AI Chatterbox Multilingual TTS. 선택된 스타일이나 참조 음성을 유지하면서 여러 언어로 텍스트를 렌더링하는 모델. Resemble AI Chatterbox
Resemble AI Chatterbox Voice Conversion. 타이밍과 내용을 유지하면서 하나의 녹음의 음색을 대상 음성으로 변환합니다. Resemble AI Chatterbox

Comfyui ChatterBox TTS ComfyUI 워크플로우 사용 방법#

이 그래프는 공유 오디오 입력에서 시작하여 각자 자신의 결과를 미리 보는 ChatterBox 노드로 흐르는 병렬 경로로 구성되어 있습니다. 두 입력 클립을 로드하거나 교체한 다음 원하는 경로를 트리거하세요.

입력: 참조 및 소스 오디오#

두 개의 LoadAudio 노드는 재사용 가능한 입력을 제공합니다. LoadAudio (#12)는 스타일 또는 소스 참조로 여러 경로에 공급됩니다. LoadAudio (#20)는 대체 참조 또는 대상 음성으로 사용됩니다. 이들은 말하는 스타일이나 모방하고자 하는 정체성을 나타내는 짧고 깨끗한 클립으로 지정할 수 있습니다. 둘 다 일반적인 오디오 파일을 수용하고 비디오에서 오디오를 추출할 수도 있습니다.

스타일 참조가 선택적인 표준 TTS#

FL_ChatterboxTTS (#16)은 스크립트에서 음성을 생성하며, 선택적으로 LoadAudio (#12)에서 audio_prompt를 받아 음성과 전달을 캡처할 수 있습니다. 텍스트를 입력하고, 음성 유사성을 원하면 적절한 참조를 연결하고 노드를 대기열에 추가하세요. 연결된 PreviewAudio를 사용하여 미리 듣기하세요. 재현 가능한 테이크가 필요할 때는 시드를 고정하고, 변형을 탐색하려면 무작위화하세요.

빠른 반복을 위한 터보 TTS#

FL_ChatterboxTurboTTS (#15)는 빠른 초안 작성을 위한 빠른 합성에 중점을 두고 있으며, 상호작용적인 편집을 지원합니다. 톤이나 정체성을 조정하려면 LoadAudio (#20)에서 audio_prompt를 수용할 수 있습니다. 빠르게 이동할 때는 스크립트를 간결하게 유지하고, 비언어적 신호를 테스트하기 위해 예제의 “[laugh]”와 같은 마크업을 실험해 보세요. 출력을 미리 보고, 더 풍부한 전달을 원하면 표준 또는 다국어 TTS로 전환하세요.

다국어 내레이션#

FL_ChatterboxMultilingualTTS (#25)은 선택된 언어로 스크립트를 렌더링하며, LoadAudio (#12)의 audio_prompt에서 스타일을 빌릴 수 있습니다. 언어 레이블을 선택하고 해당 언어로 텍스트를 제공합니다. 짧은 참조 클립은 언어 전반에 걸쳐 일관된 억양이나 인물을 유지하는 데 도움이 됩니다. PreviewAudio에서 듣고 명료성을 위해 구문을 반복합니다.

음성 변환#

FL_ChatterboxVC (#19)은 LoadAudio (#12)에서 input_audio 라인의 음색을 LoadAudio (#20)에서 target_voice로 변환합니다. 이미 타이밍이 완벽한 읽기가 있고 다른 음성으로 말하게 하고 싶을 때 이상적입니다. 침묵을 자르고 대상 음성을 깨끗하게 유지하여 아티팩트를 줄입니다. 미리보기를 사용하여 내용이 유지되면서 정체성이 변경되었는지 확인합니다.

두 화자 대화 합성#

FL_ChatterboxDialogTTS (#23)은 다중 라인 스크립트를 단일 dialog_audio 트랙으로 변환합니다. 각 캐릭터의 음성을 고정하기 위해 두 LoadAudio 노드에서 선택적인 speaker_A_Audio 및 speaker_B_Audio를 제공합니다. 스크립트 상자에서 그래프에 표시된 대로 “SPEAKER A:” 및 “SPEAKER B:”와 같은 화자 태그로 줄을 접두사하여 차례를 할당할 수 있습니다. 입력에 참조 클립을 추가하여 화자 C 및 D로 확장할 수 있습니다.

미리보기 및 비교#

각 경로는 자체 PreviewAudio로 확장되므로 즉시 듣고 모드를 비교할 수 있습니다. 표준, 터보, 다국어, 변환 및 대화 출력을 동일한 ChatterBox TTS ComfyUI 세션 내에서 차례로 실행하거나 여러 개를 대기열에 추가하여 차이를 감상하세요.

Comfyui ChatterBox TTS ComfyUI 워크플로우의 주요 노드#

`FL_ChatterboxTTS` (#16)#

스타일을 모방하기 위해 스크립트와 선택적인 audio_prompt 참조를 수용하는 범용 TTS입니다. 품질과 제어 가능성이 가장 중요한 경우에 사용하세요. 일관된 정체성을 위해 테이크 전반에 동일한 참조 클립을 유지하고, 정확한 재현 가능성이 필요할 때 시드를 고정하세요.

`FL_ChatterboxTurboTTS` (#15)#

라인을 초안으로 작성하고 프롬프트를 반복하거나 마크업 아이디어를 미리보기 위한 빠른 TTS입니다. 음성 조정을 위해 audio_prompt도 수용합니다. 표준 경로와 비교했을 때 얇은 운율이 눈에 띄면 동일한 스크립트와 참조를 사용하여 FL_ChatterboxTTS로 마무리하세요.

`FL_ChatterboxMultilingualTTS` (#25)#

선택된 인물을 유지하면서 언어를 전환하는 언어 인식 TTS입니다. 언어 레이블을 선택하고 해당 언어로 텍스트를 제공합니다. 일치하는 audio_prompt는 참조 음성과 억양 및 에너지를 일치시킵니다.

`FL_ChatterboxVC` (#19)#

input_audio 성능을 target_voice에 매핑하는 음성 변환입니다. 깨끗하고 대표적인 대상 클립과 잘 조절된 소스 읽기를 사용하세요. 최상의 결과를 위해 긴 침묵을 자르고 두 클립에서 무거운 배경 소음을 피하세요.

`FL_ChatterboxDialogTTS` (#23)#

태그가 지정된 라인을 단일 대화로 구문 분석하는 다중 화자 TTS입니다. 사용할 계획인 각 캐릭터 입력에 대한 참조를 할당한 다음 “SPEAKER X:” 태그로 스크립트를 명확하게 구조화하세요. 자연스러운 속도를 위해 차례를 적당히 짧게 유지하고 나중에 타이밍 편집을 쉽게 하세요.

선택적 추가 기능#

참조 클립을 짧고 깨끗하며 표현력 있게 유지하세요. 방음과 소음은 음성 충실도를 줄입니다.
수정 사항 전반에 걸쳐 타이밍과 전달을 맞춰야 할 때는 고정된 시드를 사용하세요. 대안을 탐색하려면 무작위화하세요.
경로가 너무 크거나 잘린 것처럼 들리면 합성 전에 참조를 정규화하고 입력 게인을 줄이세요.
터보는 프롬프트 탐색에 좋습니다. 표준 또는 다국어 TTS로 유망한 라인을 재실행하여 최종 마무리를 하세요.
대화 스크립트는 한 줄당 하나의 발화를 배치하고 화자를 일관되게 태그하면 유지하기가 더 쉽습니다.
캔버스에서 파일을 직접 내보내려면 미리보기 후 SaveAudio 노드를 추가하세요.

ChatterBox TTS ComfyUI는 ComfyUI_Fill-ChatterBox 및 Resemble AI Chatterbox로 지원되는 맥락 전환 없이 음성, 언어 및 대화를 시도할 수 있는 유연한 단일 그래프 놀이터를 제공합니다.

감사의 말씀#

이 워크플로우는 다음 작업 및 리소스를 구현하고 확장합니다. ComfyUI_Fill-ChatterBox에 대한 filliptm과 Chatterbox에 대한 Resemble AI의 기여와 유지를 감사히 인정합니다. 권위 있는 세부 정보는 아래에 링크된 원본 문서 및 저장소를 참조하십시오.

리소스#

filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox

참고: 참조된 모델, 데이터셋 및 코드의 사용은 저자 및 유지 관리자가 제공한 해당 라이선스 및 조건의 적용을 받습니다.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | 표현력 있는 음성 생성기

감정, 스타일, 클론된 목소리로 생생한 음성을 빠르게 만드세요.

MMAudio | Video-to-Audio

MMAudio: 고품질 오디오 생성을 위한 고급 비디오-오디오 모델.

ACE-Step 1.5XL Base text to music | AI Sound Generator

텍스트를 순수 AI 제작 음악으로 즉시 변환합니다.

ACE-Step 음악 생성 | AI 오디오 생성

획기적인 확산 기술로 스튜디오 품질의 음악을 15배 빠르게 생성합니다.

LTX 2.3 Inpaint | 정밀 비디오 편집 LoRA

초정밀 제어와 완벽한 연속성으로 빠르게 비디오 영역을 편집하세요.

Wan 2.2 Lightning T2V I2V | 4단계 초고속

Wan 2.2가 이제 20배 더 빠릅니다! 4단계에서 T2V + I2V.

ReActor | 빠른 얼굴 교체

ComfyUI ReActor를 사용하면 이미지나 비디오에서 한 명 이상의 캐릭터 얼굴을 쉽게 교체할 수 있습니다.

InstantCharacter

한 장의 사진, 끝없는 캐릭터. 완벽한 정체성 보존.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

ChatterBox TTS ComfyUI | AI 음성 생성기