ComfyUI의 MultiTalk 워크플로우 | 사진을 말하는 영상으로

This ComfyUI MultiTalk workflow integrates MeiGen-AI's MultiTalk model with kijai's ComfyUI-WanVideoWrapper implementation. Credit to MeiGen-AI team for the innovative MultiTalk technology and kijai for the ComfyUI workflow integration!

Best used with 2X Large machines for stable memory performance.

ComfyUI MultiTalk Workflow

MultiTalk Workflow in ComfyUI | Photo to Talking Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI MultiTalk Examples

⚠️ 중요 안내: 이 ComfyUI MultiTalk 구현은 현재 단일 인물 생성만 지원합니다. 다중 인물 대화 기능은 곧 제공될 예정입니다.

1. MultiTalk이란?#

MultiTalk은 MeiGen-AI가 개발한 오디오 기반 다중 인물 대화 영상 생성을 위한 혁신적인 프레임워크입니다. 얼굴 움직임만 애니메이션하는 기존의 토킹 헤드 생성 방법과 달리, MultiTalk 기술은 오디오 입력과 완벽한 립싱크를 유지하면서 사람들이 말하고, 노래하고, 상호작용하는 사실적인 영상을 생성할 수 있습니다. MultiTalk은 정적 사진을 역동적인 말하는 영상으로 변환하여 원하는 대로 말하거나 노래하게 만듭니다.

2. MultiTalk 작동 원리#

MultiTalk은 오디오 신호와 시각 정보를 모두 이해하는 고급 AI 기술을 활용합니다. ComfyUI MultiTalk 구현은 최적의 결과를 위해 MultiTalk + Wan2.1 + Uni3C를 결합합니다:

오디오 분석: MultiTalk은 강력한 오디오 인코더(Wav2Vec)를 사용하여 리듬, 톤, 발음 패턴을 포함한 음성의 미묘한 차이를 이해합니다.

시각적 이해: 강력한 Wan2.1 비디오 확산 모델을 기반으로 구축된 MultiTalk은 인체 해부학, 얼굴 표정 및 신체 움직임을 이해합니다(t2v/i2v 생성을 위한 Wan2.1 워크플로우를 방문하세요).

카메라 제어: Uni3C controlnet을 갖춘 MultiTalk은 미세한 카메라 움직임과 장면 제어를 가능하게 하여 영상을 더 역동적이고 전문적으로 만듭니다. 아름다운 카메라 모션 전송을 위한 Uni3C 워크플로우를 확인하세요.

완벽한 동기화: 정교한 어텐션 메커니즘을 통해 MultiTalk은 자연스러운 표정과 바디 랭귀지를 유지하면서 입 움직임을 오디오와 완벽하게 정렬합니다.

지시 따르기: 더 단순한 방법과 달리 MultiTalk은 오디오 동기화를 유지하면서 텍스트 프롬프트를 따라 장면, 포즈, 전체적인 동작을 제어할 수 있습니다.

3. ComfyUI MultiTalk의 장점#

고품질 립싱크: MultiTalk은 밀리초 수준의 립싱크 정밀도를 달성하며, 특히 노래 시나리오에서 인상적입니다
다양한 콘텐츠 제작: MultiTalk은 만화 캐릭터를 포함한 다양한 캐릭터 유형으로 대화와 노래 생성을 모두 지원합니다
유연한 해상도: MultiTalk은 임의의 종횡비로 480P 또는 720P 영상을 생성합니다
긴 영상 지원: MultiTalk은 최대 15초 길이의 영상을 생성합니다
지시 따르기: MultiTalk은 텍스트 프롬프트를 통해 캐릭터 동작과 장면 설정을 제어합니다

4. ComfyUI MultiTalk 워크플로우 사용 방법#

MultiTalk 단계별 사용 가이드#

단계 1: MultiTalk 입력 준비

참조 이미지 업로드: Load Image 노드에서 "choose file to upload" 클릭
- 최상의 MultiTalk 결과를 위해 선명한 정면 사진 사용
- 이미지는 자동으로 최적 크기로 조정됩니다 (832px 권장)
오디오 파일 업로드: LoadAudio 노드에서 "choose file to upload" 클릭
- MultiTalk은 다양한 오디오 형식(WAV, MP3 등)을 지원합니다
- 선명한 음성/노래가 MultiTalk에서 가장 좋은 결과를 냅니다
- 커스텀 노래 제작에는 동기화된 가사와 함께 고품질 음악을 생성하는 Ace-Step 음악 생성 워크플로우 사용을 고려하세요.
텍스트 프롬프트 작성: MultiTalk 생성을 위한 텍스트 인코드 노드에 원하는 장면을 설명하세요

단계 2: MultiTalk 생성 설정 구성

샘플링 단계: 20-40 단계 (높을수록 = 더 좋은 MultiTalk 품질, 느린 생성)
오디오 스케일: 최적의 MultiTalk 립싱크를 위해 1.0 유지
Embed Cond Scale: 균형 잡힌 MultiTalk 오디오 컨디셔닝을 위해 2.0
카메라 제어: 미세한 움직임을 위해 Uni3C 활성화, 또는 정적 MultiTalk 샷을 위해 비활성화

단계 3: 선택적 MultiTalk 향상

LoRA 가속: 최소한의 품질 손실로 더 빠른 MultiTalk 생성을 위해 활성화
영상 향상: MultiTalk 후처리 개선을 위한 향상 노드 사용
네거티브 프롬프트: MultiTalk 출력에서 피하고 싶은 요소 추가 (흐릿함, 왜곡 등)

단계 4: MultiTalk으로 생성

프롬프트를 대기열에 넣고 MultiTalk 생성을 기다립니다
VRAM 사용량 모니터링 (MultiTalk에 48GB 권장)
MultiTalk 생성 시간: 설정과 하드웨어에 따라 7-15분

5. 감사의 말#

원본 연구: MultiTalk은 이 분야의 선도적인 연구자들과의 협력으로 MeiGen-AI가 개발했습니다. 원본 논문 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation"은 이 기술의 획기적인 연구를 제시합니다.

ComfyUI 통합: ComfyUI 구현은 ComfyUI-WanVideoWrapper 저장소를 통해 Kijai가 제공하며, 이 고급 기술을 더 넓은 크리에이티브 커뮤니티에 접근 가능하게 합니다.

기반 기술: Wan2.1 비디오 확산 모델을 기반으로 구축되었으며 Wav2Vec의 오디오 처리 기술을 통합하여 최첨단 AI 연구의 종합을 나타냅니다.

6. 링크 및 리소스#

원본 연구: MeiGen-AI MultiTalk Repository
프로젝트 페이지: https://meigen-ai.github.io/multi-talk/
ComfyUI 통합: ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Sonic | 립싱크 초상화 애니메이션

Sonic은 고품질 애니메이션으로 초상화를 위한 고급 오디오 기반 립싱크를 제공합니다.

ACE-Step 음악 생성 | AI 오디오 생성

획기적인 확산 기술로 스튜디오 품질의 음악을 15배 빠르게 생성합니다.

Uni3C 비디오 참조 카메라 및 모션 전송

전문 비디오 생성을 위해 참조 비디오에서 카메라 움직임과 인간 모션을 추출합니다

LatentSync| 립싱크 모델

고급 오디오 기반 립싱크 기술.

Instagirl v.20 | Wan 2.2 LoRA Demo

Instara의 Instagirl LoRA를 시연하기 위한 Wan 2.2 워크플로우입니다.

Mesh Graphormer ControlNet | 손 수정

Mesh Graphormer ControlNet은 이미지의 나머지 부분을 보존하면서 기형적인 손을 교정합니다.

Z 이미지 | 초고속 사진 실사 생성기

비교할 수 없는 실시간 세부사항으로 초고화질 비주얼을 빠르게 생성합니다.

LTX 2.3 IC-LoRA | 모션 트랙 AI 비디오 생성기

초정밀, 스타일 자유 AI 생성을 위한 V2V 모션 기반 비디오 도구

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

MultiTalk | 사진을 말하는 영상으로