Wan 2.2 Animate V2는 단일 참조 이미지와 드라이빙 포즈 비디오로부터 생동감 있고 정체성을 유지하는 애니메이션을 생성하는 포즈 기반 비디오 생성 워크플로우입니다. 이는 첫 번째 버전보다 더 높은 충실도, 부드러운 움직임 및 더 나은 시간적 일관성을 제공하며 원본 비디오의 전신 움직임 및 표정을 밀접하게 따라갑니다.
이 ComfyUI 워크플로우는 캐릭터 애니메이션, 댄스 클립 및 퍼포먼스 기반 스토리텔링을 위한 빠르고 신뢰할 수 있는 결과를 원하는 제작자를 위해 설계되었습니다. 이는 강력한 사전 처리(포즈, 얼굴 및 주제 마스킹)를 Wan 2.2 모델 패밀리 및 선택적 LoRAs와 결합하여 스타일, 조명 및 배경 처리를 자신 있게 조정할 수 있습니다.
높은 수준에서 파이프라인은 드라이빙 비디오에서 포즈 및 얼굴 신호를 추출하고, 단일 참조 이미지에서 정체성을 인코딩하며, 선택적으로 SAM 2 마스크로 주제를 분리한 후 정체성을 유지하면서 움직임과 일치하는 비디오를 합성합니다. 워크플로우는 최종 결과를 생성하기 위해 협력하는 네 그룹과 빠른 QA를 위한 두 가지 편리한 출력을 구성합니다(포즈 및 마스크 미리보기).
이 그룹은 당신의 초상화나 전신 이미지를 로드하여 목표 해상도로 크기를 조정하고 그래프 전반에 걸쳐 사용할 수 있도록 합니다. 크기가 조정된 이미지는 Get_reference_image
에 의해 저장되고 미리보기가 제공되어 프레이밍을 빠르게 평가할 수 있습니다. 정체성 특징은 WanVideoClipVisionEncode
(CLIP Vision
) (#70)에 의해 인코딩되며, 동일한 이미지는 WanVideoAnimateEmbeds
(#62)에 ref_images
로 피드되어 더 강한 정체성 보존을 제공합니다. 최상의 결과를 위해 드라이버 비디오의 주제 유형과 일치하는 명확하고 잘 조명된 참조 이미지를 제공하십시오. 헤드룸과 최소한의 차폐는 Wan 2.2 Animate V2가 얼굴 구조와 의상을 고정하는 데 도움이 됩니다.
드라이버 비디오는 VHS_LoadVideo
(#191)로 로드되어 이후 사용을 위해 프레임, 오디오, 프레임 수 및 소스 fps를 노출합니다. 포즈 및 얼굴 신호는 OnnxDetectionModelLoader
(#178) 및 PoseAndFaceDetection
(#172)에 의해 추출된 후 DrawViTPose
(#173)로 시각화되어 추적 품질을 확인할 수 있습니다. 주제 분리는 Sam2Segmentation
(#104)에 의해 처리되고, GrowMaskWithBlur
(#182) 및 BlockifyMask
(#108)를 통해 깨끗하고 안정적인 마스크를 생성합니다; 도우미 DrawMaskOnImage
(#99)는 매트를 미리봅니다. 이 그룹은 또한 드라이버 비디오의 너비, 높이 및 프레임 수를 표준화하여 Wan 2.2 Animate V2가 추측 없이 공간 및 시간 설정과 일치할 수 있도록 합니다. 빠른 검사는 짧은 비디오로 내보내집니다: 포즈 오버레이 및 마스크 미리보기로 제로샷 검증.
WanVideoVAELoader
(#38)은 Wan VAE를 로드하고 WanVideoModelLoader
(#22)는 Wan 2.2 Animate 백본을 로드합니다. 선택적 LoRAs는 WanVideoLoraSelectMulti
(#171)에서 선택되고 WanVideoSetLoRAs
(#48)를 통해 적용됩니다; WanVideoBlockSwap
(#51)은 스타일 및 충실도에 영향을 미치는 건축적 조정을 위해 WanVideoSetBlockSwap
(#50)을 통해 활성화할 수 있습니다. 프롬프트는 WanVideoTextEncodeCached
(#65)에 의해 인코딩되고, WanVideoClipVisionEncode
(#70)는 참조 이미지를 강력한 정체성 임베딩으로 변환합니다. WanVideoAnimateEmbeds
(#62)는 CLIP 특징, 참조 이미지, 포즈 이미지, 얼굴 크롭, 선택적 배경 프레임, SAM 2 마스크 및 선택한 해상도와 프레임 수를 단일 애니메이션 임베딩으로 융합합니다. 그 피드는 WanVideoSampler
(#27)를 구동하여 프롬프트, 정체성 및 움직임 신호와 일치하는 잠재 비디오를 합성하고, WanVideoDecode
(#28)는 잠재적 데이터를 다시 RGB 프레임으로 변환합니다.
출력을 비교하는 데 도움이 되도록 워크플로우는 간단한 사이드바이사이드를 조립합니다: 생성된 비디오와 참조 이미지, 얼굴 크롭, 포즈 오버레이 및 드라이버 비디오의 프레임을 보여주는 세로 스트립이 함께 제공됩니다. ImageConcatMulti
(#77, #66)는 시각적 콜라주를 구축하고, VHS_VideoCombine
(#30)은 "비교" mp4를 렌더링합니다. 최종 깨끗한 출력은 VHS_VideoCombine
(#189)에 의해 렌더링되며, 드라이버의 오디오를 빠른 리뷰 컷에 가져옵니다. 이러한 내보내기는 Wan 2.2 Animate V2가 움직임을 얼마나 잘 따랐는지, 정체성을 유지했는지, 의도한 배경을 유지했는지 판단하기 쉽게 만듭니다.
VHS_LoadVideo
(#191)
드라이빙 비디오를 로드하고 프레임, 오디오 및 그래프 전반에 걸쳐 사용되는 메타데이터를 노출합니다. 더 강한 키포인트 추적을 위해 피사체가 완전히 보이고 움직임 블러가 최소화되도록 유지합니다. 짧은 테스트를 원하면 로드되는 프레임 수를 제한하십시오; 최종 결합에서 오디오 비동기화를 방지하려면 소스 fps를 다운스트림에서 일관되게 유지하십시오.
PoseAndFaceDetection
(#172)
YOLO 및 ViTPose를 실행하여 움직임 전환을 직접 안내하는 전신 키포인트 및 얼굴 크롭을 생성합니다. 로더의 이미지와 표준화된 너비 및 높이를 피드합니다; 필요한 경우 포즈를 다른 프레이밍에 맞출 수 있도록 retarget_image
입력을 사용합니다. 포즈 오버레이가 시끄럽게 보이면 더 높은 품질의 ViTPose 모델을 고려하고 피사체가 심하게 차폐되지 않았는지 확인하십시오. 참조: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation
(#104)
Wan 2.2 Animate V2에서 배경을 보존하거나 조명을 지역화할 수 있는 주제 마스크를 생성합니다. PoseAndFaceDetection
에서 감지된 경계 상자를 사용하거나 매트를 정제하기 위해 필요한 경우 빠른 긍정 포인트를 그립니다. 빠른 움직임에서 더 깨끗한 가장자리를 위해 GrowMaskWithBlur
와 쌍을 이루고 마스크 미리보기 내보내기로 결과를 검토합니다. 참조: Segment Anything 2.
WanVideoClipVisionEncode
(#70)
CLIP Vision으로 참조 이미지를 인코딩하여 얼굴 구조, 머리카락 및 의상과 같은 정체성 신호를 포착합니다. 여러 참조 이미지를 평균화하여 정체성을 안정화하거나 원치 않는 특성을 억제하기 위해 부정 이미지를 사용할 수 있습니다. 일관된 조명으로 중심에 맞춘 크롭은 더 강력한 임베딩을 생성하는 데 도움이 됩니다.
WanVideoAnimateEmbeds
(#62)
정체성 특징, 포즈 이미지, 얼굴 크롭, 선택적 배경 프레임 및 SAM 2 마스크를 단일 애니메이션 임베딩으로 융합합니다. 드라이버 비디오와 width
, height
, num_frames
을 정렬하여 아티팩트를 줄입니다. 배경 드리프트가 보이면 깨끗한 배경 프레임과 견고한 마스크를 제공하십시오; 얼굴이 드리프트하면 얼굴 크롭이 존재하고 잘 조명되었는지 확인하십시오.
WanVideoSampler
(#27)
프롬프트, LoRAs 및 애니메이션 임베딩에 의해 안내되는 실제 비디오 잠재적 데이터를 생성합니다. 긴 클립의 경우 슬라이딩 윈도우 전략 또는 모델의 컨텍스트 옵션 중에서 선택하십시오; 윈도우를 클립 길이에 맞추어 움직임의 선명도와 장거리 일관성을 균형 있게 유지하십시오. 일정 계획자와 가이드 강도를 조정하여 충실도, 스타일 준수 및 움직임의 부드러움을 교환하고, LoRA 스택이 혜택을 받는 경우 블록 교체를 활성화하는 것을 고려하십시오.
이 워크플로우에서 사용된 유용한 리소스:
이 워크플로우는 다음 작업 및 리소스를 구현하고 이를 기반으로 구축됩니다. 우리는 Benji’s AI Playground의 워크플로우와 Wan 팀의 Wan 2.2 Animate V2 모델에 대한 기여와 유지 관리를 감사드립니다. 권위 있는 세부 사항은 아래 링크된 원본 문서 및 저장소를 참조하십시오.
참고: 참조된 모델, 데이터세트 및 코드의 사용은 해당 저자 및 유지 관리자가 제공하는 각자의 라이선스 및 약관에 따릅니다.
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.