참고:
이것은 ComfyUI MultiTalk 워크플로우의 업그레이드된 다중 인원 버전입니다.
이제 다중 인원 대화 비디오 생성을 지원하며, 이전 버전의 단일 인원 모드도 포함하고 있습니다.
이 워크플로우는 소셜 콘텐츠, 제품 설명자, 캐릭터 대화, 빠른 사전 시각화에 이상적입니다. MultiTalk 오디오 임베딩을 비디오 확산과 결합하여 입술, 턱, 미묘한 얼굴 신호가 말을 따라가도록 합니다. Meigen MultiTalk 다중 화자 장면 또는 간결한 단일 화자 클립을 위한 드롭인 경로로 사용하세요.
Wan 2.1 비디오 확산 모델
핵심 텍스트 및 이미지 조건의 비디오 생성을 구동합니다. 장면 외관, 카메라, 움직임을 처리하며 대화 역학에 대한 추가 지침을 수용합니다.
Wav2Vec 2.0
MultiTalk가 말하기 전용 임베딩으로 변환하는 강력한 음성 표현을 추출합니다. 참고: .
MultiTalk (MeiGen-AI)
오디오 기반 다중 인원 대화 비디오를 위한 연구 방법입니다. 참고 구현: .
ComfyUI Wan Video Wrapper
Wan 2.1 로딩, 인코더 및 비디오 샘플러를 노출하는 ComfyUI 통합, MultiTalk 임베딩 노드 포함. 참고: .
Index-TTS (선택 사항)
워크플로우 내에서 깨끗한 대화 트랙을 생성하기 위한 음성 참조를 사용한 텍스트-음성 변환. 참고: .
이 워크플로우는 처음부터 끝까지 실행됩니다: 화자와 오디오를 준비하고, 짧은 장면 프롬프트를 설정한 후 렌더링합니다. 단일 인원 및 다중 인원 설정을 모두 지원합니다. 그래프의 그룹은 정리된 상태를 유지하며, 가장 중요한 것들은 아래에 설명되어 있습니다.
화자 얼굴을 위한 정체성 이미지를 로드하고 미리보기 마스크를 로드한 다음 오디오와 결합하여 최종 프레임을 합성합니다. LoadImage
노드는 초상화를 수용하며, VHS_VideoCombine
은 렌더링된 프레임과 선택된 오디오 트랙을 MP4로 조립합니다. 설정 중에 PreviewAudio
로 오디오를 스크럽하여 레벨과 지속 시간을 확인할 수 있습니다.
Get_WanModel
, Get_WanTextEncoder
, 및 WanVideoModelLoader
는 Wan 2.1과 텍스트 및 VAE 구성 요소를 초기화합니다. 이것을 엔진 룸으로 생각하세요: 로드되면 비디오 샘플러가 이미지, 텍스트, 대화 임베딩을 수용할 수 있습니다. 여기에서 변경해야 할 것은 거의 없으며, 올바른 Wan 가중치가 선택되었는지만 확인하면 됩니다.
자신의 대화 트랙을 가져오거나 합성할 수 있습니다:
LoadAudio
를 사용하여 각 화자의 대사를 가져옵니다. 클립이 음악이나 잡음과 섞여 있으면 AudioSeparation
을 통과시켜 깨끗한 Vocals
출력을 앞으로 라우팅하세요.Speaker 1 - Text
및 Speaker 2 - Text
와 함께 IndexTTSNode
를 사용하여 타이핑된 줄에서 목소리를 합성하며, 원하는 음질을 위해 reference_audio
를 제공할 수 있습니다.MultiTalkWav2VecEmbeds
는 각 화자의 타이밍과 발음 신호를 포착하는 MultiTalk 임베딩으로 말을 변환합니다. 단일 인원 대화에는 하나의 오디오 스트림을, 다중 인원 대화에는 두 개의 스트림을 공급하세요. 장면에 얼굴별 타겟팅이 필요하다면 각 목소리가 올바른 사람을 구동하도록 깨끗한 얼굴 마스크를 ref_target_masks
로 제공하세요.
짧은 장면 프롬프트를 Prompt
및 WanVideoTextEncodeSingle
로 설정하여 시각적 분위기와 환경을 설정합니다. 프롬프트는 간결하고 설명적이어야 합니다 (위치, 분위기, 조명). 텍스트 인코더는 정체성과 대화 신호와 함께 Wan이 사용하는 의미론적 지침을 생성합니다.
Uni3C 그룹은 시간이 지남에 따라 정체성, 프레임, 구성을 안정시키는 전역 컨텍스트 임베딩을 준비합니다. Resize 그룹은 소스 이미지와 마스크가 모델 친화적 차원으로 스케일링되도록 하여 샘플러가 일관된 입력을 받도록 보장합니다.
WanVideoSampler
는 모든 것이 만나는 곳입니다: 정체성 이미지 임베딩, 텍스트 임베딩, MultiTalk 오디오 임베딩이 결합되어 최종 프레임을 생성합니다. 다운스트림 Sampling processing 그룹은 매끄러움과 일관성을 위해 필요한 후처리 단계를 비디오 결합기에게 전달하기 전에 적용합니다.
다중 인원 클립의 경우 ComfyUI의 마스크 편집기에서 얼굴 당 하나의 마스크를 그립니다. 마스크가 절대 닿지 않도록 분리된 상태를 유지하세요. 하나의 마스크와 하나의 오디오 트랙만 제공하면 워크플로우는 자동으로 단일 인원 MultiTalk 설정으로 작동합니다.
MultiTalkWav2VecEmbeds
(#79/#162)하나 이상의 대화 트랙을 MultiTalk 대화 임베딩으로 변환합니다. 단일 인원에는 하나의 오디오 입력을, 다중 인원에는 두 개의 입력을 시작합니다; 얼굴별 라우팅이 필요할 때 마스크를 추가하세요. 중요한 것만 조정하세요: 계획된 클립 길이에 맞게 프레임 수를 조정하고, 정확한 화자에서 얼굴 정렬을 위해 ref_target_masks
를 제공할지 여부를 결정하세요.
AudioSeparation
(#88/#160/#161)잡음이 있는 입력을 위한 선택적 정리. 잡음이 있는 클립을 이 노드로 라우팅하고 Vocals
출력을 전달하세요. 배경 음악이나 잡담이 포함된 현장 녹음이 있는 경우 사용하세요; 이미 깨끗한 음성 트랙이 있는 경우 건너뛰세요.
IndexTTSNode
(#163/#164)Speaker 1 - Text
및 Speaker 2 - Text
를 대화 오디오로 변환합니다. 톤과 페이싱을 복제하기 위해 짧은 reference_audio
를 제공한 다음 텍스트 줄을 제공합니다. MultiTalk에서 최적의 립 타이밍을 위해 문장을 짧고 자연스럽게 유지하세요.
WanVideoTextEncodeSingle
(#18)Wan 2.1을 위한 장면 프롬프트를 인코딩합니다. 장소, 조명, 스타일에 대한 간단하고 구체적인 설명을 선호하세요. 긴 목록은 피하고 한두 문장으로 샘플러가 충분히 이해할 수 있도록 합니다.
원본 연구: MultiTalk는 MeiGen-AI가 이 분야의 선도적인 연구자들과 협력하여 개발했습니다. 이 기술 뒤에 있는 획기적인 연구를 제시하는 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation"이라는 원본 논문이 있습니다. ComfyUI 통합: Kijai가 제공한 ComfyUI 구현은 ComfyUI-WanVideoWrapper 리포지토리를 통해 이 고급 기술을 더 넓은 창작 커뮤니티에 접근 가능하게 만듭니다.
기본 기술: Wan2.1 비디오 확산 모델을 기반으로 하며, Wav2Vec의 오디오 처리 기술을 통합하여 최첨단 AI 연구의 결합을 나타냅니다.
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.