ComfyUI에서 Wan2.2 S2V를 사용한 포즈 제어 LipSync는 단일 이미지, 오디오 클립 및 포즈 참조 비디오를 동기화된 말하기 공연으로 변환합니다. 참조 이미지의 캐릭터는 참조 비디오의 몸 동작을 따르며 입 움직임은 오디오에 맞춥니다. 이 ComfyUI 워크플로우는 아바타, 스토리 씬, 트레일러, 설명서 및 포즈, 표현 및 말하기 타이밍에 대한 엄격한 제어가 필요한 뮤직 비디오에 이상적입니다.
Wan 2.2 S2V 14B 모델 패밀리에 기반한 이 워크플로우는 텍스트 프롬프트, 깨끗한 보컬 기능 및 포즈 지도를 융합하여 안정된 정체성을 가진 영화적 모션을 생성합니다. 운영이 간단하도록 설계되었으며, 크리에이터에게 외형, 페이싱 및 프레이밍에 대한 세밀한 제어를 제공합니다.
워크플로우는 모델 로딩, 오디오 준비, 이미지 및 포즈 입력, 조건 설정 및 생성의 다섯 부분으로 구성됩니다. 그룹은 왼쪽에서 오른쪽으로 흐르며, 오디오 길이는 자동으로 클립 지속 시간을 16 fps로 설정합니다.
이 그룹은 Wan 2.2 S2V 모델, 그 VAE, UMT5-XXL 텍스트 인코더 및 LightX2V LoRA를 로드합니다. 기본 변환기는 UNETLoader
(#37)에서 초기화되고, 빠른 저단계 샘플링을 위해 LoraLoaderModelOnly
(#61)로 조정됩니다. Wan VAE는 VAELoader
(#39)에서 제공됩니다. 텍스트 인코더는 CLIPLoader
(#38)에 의해 제공되며, 이는 Wan이 참조하는 UMT5-XXL 가중치를 로드합니다. 모델 파일을 교체하지 않는 한 이 그룹을 건드릴 필요는 거의 없습니다.
LoadAudio
(#58)로 오디오 파일을 드롭합니다. AudioSeparation
(#85)은 보컬 스템을 분리하여 입이 배경 악기 대신 명확한 음성이나 노래를 따르도록 합니다. Audio Duration (mtb)
(#70)은 클립을 측정하고 SimpleMath+
(#71)는 지속 시간을 16 fps에서 프레임 수로 변환하여 비디오 길이가 오디오와 일치하도록 합니다. AudioEncoderEncode
(#56)는 Wav2Vec2-Large 인코더를 공급하여 Wan이 음소를 입 모양에 매핑하여 정확한 립 싱크를 제공합니다.
LoadImage
(#52)는 정체성, 의상 및 카메라 설정을 전달하는 주제 스틸을 제공합니다. ImageResizeKJv2
(#69)는 이미지에서 차원을 읽어 후속 단계에서 일관되게 목표 너비와 높이를 유도합니다. 입이 방해받지 않는 선명한 정면 이미지를 사용하여 가장 정확한 입 움직임을 제공합니다.
VHS_LoadVideo
(#80)는 포즈 참조 비디오를 가져옵니다. ImageResizeKJv2
(#83)는 프레임을 목표 크기에 맞추고, DWPreprocessor
(#78)는 YOLOX 탐지와 DWPose 키포인트로 포즈 지도로 변환합니다. 최종적으로 ImageResizeKJv2
(#81)는 포즈 프레임을 생성 해상도에 맞춰 정렬한 후 제어 비디오로 전달합니다. 포즈 출력을 미리 보려면 VHS_VideoCombine
(#95)로 라우팅하여 참조 프레이밍 및 타이밍이 주제에 맞는지 확인할 수 있습니다.
스타일 및 장면 의도를 CLIP Text Encode (Positive Prompt)
(#6)에 작성하고, CLIP Text Encode (Negative Prompt)
(#7)를 사용하여 원치 않는 아티팩트를 방지합니다. 프롬프트는 높은 수준의 미학 및 배경 모션을 유도하며, 오디오는 입 움직임을 구동하고 포즈 참조는 신체 역학을 통제합니다. 프롬프트는 간결하고 목표 카메라 각도 및 분위기에 맞춰야 합니다.
WanSoundImageToVideo
(#55)는 텍스트, 오디오 기능, 참조 이미지 및 포즈 제어 비디오를 융합한 후 잠재 시퀀스를 준비합니다. KSamplerAdvanced
(#64)는 LightX2V 스타일 가속에 적합한 저단계 노이즈 제거를 수행하고, VAEDecode
(#8)는 프레임을 재구성합니다. VHS_VideoCombine
(#62)는 프레임을 MP4로 조합하고 원본 오디오를 첨부하여 출력을 검토하거나 편집할 준비를 합니다.
WanSoundImageToVideo
(#55)프롬프트, 보컬, 주제 이미지 및 포즈 제어 비디오로 Wan2.2-S2V를 조건화하는 워크플로우의 핵심입니다. 중요한 것만 조정하세요: 주제 이미지와 오디오 길이에 맞춰 width
, height
, length
를 설정하고 모션 제어를 위한 사전 처리된 포즈 비디오를 연결합니다. 별도의 카메라 트랙을 주입할 계획이 없는 한 ref_motion
은 비워 두세요. 모델의 스피치-비디오 동작은 Wan-AI/Wan2.2-S2V-14B 및 Wan-Video/Wan2.2에 설명되어 있습니다.
DWPreprocessor
(#78)YOLOX를 사용하여 감지하고 DWPose로 전체 몸 키포인트를 생성하여 포즈 지도를 생성합니다. 강력한 포즈 신호는 Wan이 팔다리와 몸통을 따르도록 도와주며 오디오는 입과 표현을 제어합니다. 참조에 무거운 카메라 움직임이 있는 경우 의도된 공연과 시점 및 타이밍이 맞는 포즈 비디오를 사용하세요. DWPose 및 그 변형은 IDEA-Research/DWPose에 문서화되어 있습니다.
KSamplerAdvanced
(#64)잠재 시퀀스를 위한 노이즈 제거를 수행합니다. LightX2V LoRA가 로드되면 단계 수를 낮게 유지하여 빠른 미리보기를 제공하면서 모션 일관성을 유지할 수 있습니다; 최대 세부 사항을 추구할 때는 단계를 증가시키세요. 스케줄러 선택은 모션의 부드러움 대 선명도에 영향을 미치며, LoRA 사용과 함께 Wan의 Diffusers 문서에 설명된 대로 조정해야 합니다.
VHS_LoadVideo
(#80)포즈 참조를 가져오고 스크럽합니다. 노드 내 프레임 선택 도구를 사용하여 오디오 세그먼트와 일치하는 정확한 세그먼트를 선택하세요. 참조 이미지와 프레이밍 및 주제 크기를 일치시킴으로써 모션 전송을 안정화할 수 있습니다. 노드는 VideoHelperSuite의 일부입니다: ComfyUI-VideoHelperSuite.
VHS_VideoCombine
(#62)생성된 프레임과 오디오를 MP4로 결합하고 워크플로우 메타데이터를 저장합니다. 이 워크플로우에서 오디오 지속 시간에서 계산된 프레임 수와 일치하도록 출력 프레임 속도를 16 fps로 설정합니다. 자산 관리 요구에 따라 메타데이터 저장을 비활성화하거나 활성화하세요. VideoHelperSuite 문서는 ComfyUI-VideoHelperSuite에서 확인할 수 있습니다.
AudioSeparation
(#85)악기나 FX의 간섭 없이 입 모양을 구동하도록 Wav2Vec2 기능을 사용하여 보컬을 분리합니다. 입력이 이미 깨끗한 음성인 경우에는 분리를 건너뛸 수 있습니다. 최상의 결과를 위해 오디오 레벨을 일관되게 유지하고 반향을 최소화하세요.
이 포즈 제어 LipSync with Wan2.2 S2V 워크플로우는 오디오와 정지 이미지에서 제어 가능한, 박자에 맞는 퍼포먼스를 빠르게 생성하여 일관되고 표현적인 느낌을 제공합니다.
이 워크플로우는 다음의 작업 및 리소스를 구현하고 기반으로 합니다. 우리는 Pose Control LipSync with Wan2.2 S2VDemo의 @ArtOfficialLabs의 기여와 유지 관리를 진심으로 감사드립니다. 권위 있는 세부 사항은 아래에 연결된 원본 문서 및 저장소를 참조하십시오.
참고: 참조된 모델, 데이터 세트 및 코드의 사용은 해당 저자 및 유지 관리자가 제공한 라이센스 및 조건에 따릅니다.
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.