ComfyUI>워크플로우>Multitalk | 현실적인 말하는 비디오 제작기

Multitalk | 현실적인 말하는 비디오 제작기

Workflow Name: RunComfy/Multitalk

Workflow ID: 0000...1266

이 워크플로우는 초상화와 오디오로부터 립싱크된 비디오를 생성하며, 단일 화자 및 다중 화자 출력을 상세한 얼굴 움직임과 말의 정렬로 지원합니다.

ComfyUI MultiTalk: 다중 인원 및 단일 인원 말하는 비디오

참고:
이것은 ComfyUI MultiTalk 단일 인원 워크플로우의 업그레이드된 다중 인원 버전입니다.
이제 다중 인원 대화 비디오 생성을 지원하며, 이전 버전의 단일 인원 모드도 포함하고 있습니다.

이 워크플로우는 소셜 콘텐츠, 제품 설명자, 캐릭터 대화, 빠른 사전 시각화에 이상적입니다. MultiTalk 오디오 임베딩을 비디오 확산과 결합하여 입술, 턱, 미묘한 얼굴 신호가 말을 따라가도록 합니다. Meigen MultiTalk 다중 화자 장면 또는 간결한 단일 화자 클립을 위한 드롭인 경로로 사용하세요.

ComfyUI MultiTalk 워크플로우의 주요 모델

Wan 2.1 비디오 확산 모델

핵심 텍스트 및 이미지 조건의 비디오 생성을 구동합니다. 장면 외관, 카메라, 움직임을 처리하며 대화 역학에 대한 추가 지침을 수용합니다.

Wav2Vec 2.0

MultiTalk가 말하기 전용 임베딩으로 변환하는 강력한 음성 표현을 추출합니다. 참고: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

오디오 기반 다중 인원 대화 비디오를 위한 연구 방법입니다. 참고 구현: MeiGen-AI/MultiTalk.

ComfyUI Wan Video Wrapper

Wan 2.1 로딩, 인코더 및 비디오 샘플러를 노출하는 ComfyUI 통합, MultiTalk 임베딩 노드 포함. 참고: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (선택 사항)

워크플로우 내에서 깨끗한 대화 트랙을 생성하기 위한 음성 참조를 사용한 텍스트-음성 변환. 참고: chenpipi0807/ComfyUI-Index-TTS.

ComfyUI MultiTalk 워크플로우 사용 방법

이 워크플로우는 처음부터 끝까지 실행됩니다: 화자와 오디오를 준비하고, 짧은 장면 프롬프트를 설정한 후 렌더링합니다. 단일 인원 및 다중 인원 설정을 모두 지원합니다. 그래프의 그룹은 정리된 상태를 유지하며, 가장 중요한 것들은 아래에 설명되어 있습니다.

입력 및 출력

화자 얼굴을 위한 정체성 이미지를 로드하고 미리보기 마스크를 로드한 다음 오디오와 결합하여 최종 프레임을 합성합니다. LoadImage 노드는 초상화를 수용하며, VHS_VideoCombine은 렌더링된 프레임과 선택된 오디오 트랙을 MP4로 조립합니다. 설정 중에 PreviewAudio로 오디오를 스크럽하여 레벨과 지속 시간을 확인할 수 있습니다.

모델

Get_WanModel, Get_WanTextEncoder, 및 WanVideoModelLoader는 Wan 2.1과 텍스트 및 VAE 구성 요소를 초기화합니다. 이것을 엔진 룸으로 생각하세요: 로드되면 비디오 샘플러가 이미지, 텍스트, 대화 임베딩을 수용할 수 있습니다. 여기에서 변경해야 할 것은 거의 없으며, 올바른 Wan 가중치가 선택되었는지만 확인하면 됩니다.

화자 오디오 (두 가지 방법)

자신의 대화 트랙을 가져오거나 합성할 수 있습니다:

오디오 가져오기: LoadAudio를 사용하여 각 화자의 대사를 가져옵니다. 클립이 음악이나 잡음과 섞여 있으면 AudioSeparation을 통과시켜 깨끗한 Vocals 출력을 앞으로 라우팅하세요.
오디오 생성: Speaker 1 - Text 및 Speaker 2 - Text와 함께 IndexTTSNode를 사용하여 타이핑된 줄에서 목소리를 합성하며, 원하는 음질을 위해 reference_audio를 제공할 수 있습니다.

MultiTalk 오디오 임베딩

MultiTalkWav2VecEmbeds는 각 화자의 타이밍과 발음 신호를 포착하는 MultiTalk 임베딩으로 말을 변환합니다. 단일 인원 대화에는 하나의 오디오 스트림을, 다중 인원 대화에는 두 개의 스트림을 공급하세요. 장면에 얼굴별 타겟팅이 필요하다면 각 목소리가 올바른 사람을 구동하도록 깨끗한 얼굴 마스크를 ref_target_masks로 제공하세요.

프롬프트 및 텍스트 컨텍스트

짧은 장면 프롬프트를 Prompt 및 WanVideoTextEncodeSingle로 설정하여 시각적 분위기와 환경을 설정합니다. 프롬프트는 간결하고 설명적이어야 합니다 (위치, 분위기, 조명). 텍스트 인코더는 정체성과 대화 신호와 함께 Wan이 사용하는 의미론적 지침을 생성합니다.

Uni3C와 Resize

Uni3C 그룹은 시간이 지남에 따라 정체성, 프레임, 구성을 안정시키는 전역 컨텍스트 임베딩을 준비합니다. Resize 그룹은 소스 이미지와 마스크가 모델 친화적 차원으로 스케일링되도록 하여 샘플러가 일관된 입력을 받도록 보장합니다.

KSampler 및 샘플링 처리

WanVideoSampler는 모든 것이 만나는 곳입니다: 정체성 이미지 임베딩, 텍스트 임베딩, MultiTalk 오디오 임베딩이 결합되어 최종 프레임을 생성합니다. 다운스트림 Sampling processing 그룹은 매끄러움과 일관성을 위해 필요한 후처리 단계를 비디오 결합기에게 전달하기 전에 적용합니다.

다중 인원을 위한 마스크

다중 인원 클립의 경우 ComfyUI의 마스크 편집기에서 얼굴 당 하나의 마스크를 그립니다. 마스크가 절대 닿지 않도록 분리된 상태를 유지하세요. 하나의 마스크와 하나의 오디오 트랙만 제공하면 워크플로우는 자동으로 단일 인원 MultiTalk 설정으로 작동합니다.

ComfyUI MultiTalk 워크플로우의 주요 노드

`MultiTalkWav2VecEmbeds` (#79/#162)

하나 이상의 대화 트랙을 MultiTalk 대화 임베딩으로 변환합니다. 단일 인원에는 하나의 오디오 입력을, 다중 인원에는 두 개의 입력을 시작합니다; 얼굴별 라우팅이 필요할 때 마스크를 추가하세요. 중요한 것만 조정하세요: 계획된 클립 길이에 맞게 프레임 수를 조정하고, 정확한 화자에서 얼굴 정렬을 위해 ref_target_masks를 제공할지 여부를 결정하세요.

`AudioSeparation` (#88/#160/#161)

잡음이 있는 입력을 위한 선택적 정리. 잡음이 있는 클립을 이 노드로 라우팅하고 Vocals 출력을 전달하세요. 배경 음악이나 잡담이 포함된 현장 녹음이 있는 경우 사용하세요; 이미 깨끗한 음성 트랙이 있는 경우 건너뛰세요.

`IndexTTSNode` (#163/#164)

Speaker 1 - Text 및 Speaker 2 - Text를 대화 오디오로 변환합니다. 톤과 페이싱을 복제하기 위해 짧은 reference_audio를 제공한 다음 텍스트 줄을 제공합니다. MultiTalk에서 최적의 립 타이밍을 위해 문장을 짧고 자연스럽게 유지하세요.

`WanVideoTextEncodeSingle` (#18)

Wan 2.1을 위한 장면 프롬프트를 인코딩합니다. 장소, 조명, 스타일에 대한 간단하고 구체적인 설명을 선호하세요. 긴 목록은 피하고 한두 문장으로 샘플러가 충분히 이해할 수 있도록 합니다.

감사의 말

원본 연구: MultiTalk는 MeiGen-AI가 이 분야의 선도적인 연구자들과 협력하여 개발했습니다. 이 기술 뒤에 있는 획기적인 연구를 제시하는 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation"이라는 원본 논문이 있습니다. ComfyUI 통합: Kijai가 제공한 ComfyUI 구현은 ComfyUI-WanVideoWrapper 리포지토리를 통해 이 고급 기술을 더 넓은 창작 커뮤니티에 접근 가능하게 만듭니다.

기본 기술: Wan2.1 비디오 확산 모델을 기반으로 하며, Wav2Vec의 오디오 처리 기술을 통합하여 최첨단 AI 연구의 결합을 나타냅니다.

링크 및 리소스

원본 연구: MeiGen-AI MultiTalk Repository
프로젝트 페이지: https://meigen-ai.github.io/multi-talk/
ComfyUI 통합: ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Hallo2 | 립싱크 초상화 애니메이션

오디오 기반의 립싱크를 통한 4K 초상화 애니메이션.

Sonic | 립싱크 초상화 애니메이션

Sonic은 고품질 애니메이션으로 초상화를 위한 고급 오디오 기반 립싱크를 제공합니다.

IPAdapter Plus (V2) | 옷 바꾸기

IPAdapter Plus를 사용하여 패션 모델을 만들고 의상과 스타일을 쉽게 변경하세요

EchoMimic | 오디오 기반 초상화 애니메이션

제공된 오디오와 동기화된 현실적인 말하는 머리와 신체 제스처를 생성합니다.

Vid2Vid Part 1 | 구성 및 마스킹

ComfyUI Vid2Vid는 고품질의 전문 애니메이션을 만드는 두 가지 고유한 워크플로우를 제공합니다: Vid2Vid Part 1은 원본 비디오의 구성 및 마스킹에 중점을 두어 창의성을 향상시키고, Vid2Vid Part 2는 SDXL Style Transfer를 활용하여 비디오의 스타일을 원하는 미적 감각에 맞게 변환합니다. 이 페이지는 Vid2Vid Part 1을 다룹니다.

Flux Kontext Pulid | 일관된 캐릭터 생성

단일 얼굴 참조 이미지를 사용하여 FLUX Kontext로 일관된 캐릭터를 만드세요.

ACE++ 얼굴 교환 ｜ 이미지 편집

자연어 지시를 사용하여 이미지의 얼굴을 교환하면서 스타일과 맥락을 유지하세요.

AnimateDiff + Dynamic Prompts | 텍스트에서 비디오로

Dynamic Prompts(와일드카드), Animatediff 및 IP-Adapter를 활용하여 동적 애니메이션 또는 GIF를 생성합니다.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.