Wan 2.2 Animate V2는 단일 참조 이미지와 구동 포즈 비디오를 실제 같은, 정체성을 유지하는 애니메이션으로 변환하는 포즈 기반 비디오 생성 워크플로우입니다. 첫 번째 버전에서 더 높은 충실도, 부드러운 움직임, 그리고 더 나은 시간적 일관성을 기반으로 하여 소스 비디오의 전신 움직임과 표현을 밀접하게 따릅니다.
이 ComfyUI 워크플로우는 캐릭터 애니메이션, 춤 클립, 공연 기반 스토리텔링을 위한 빠르고 신뢰할 수 있는 결과를 원하는 제작자를 위해 설계되었습니다. 강력한 사전 처리(포즈, 얼굴, 주제 마스킹)를 Wan 2.2 모델 패밀리 및 선택적 LoRAs와 결합하여 스타일, 조명 및 배경 처리를 자신 있게 조정할 수 있습니다.
전반적으로, 파이프라인은 구동 비디오에서 포즈 및 얼굴 큐를 추출하고, 단일 참조 이미지에서 정체성을 인코딩하며, 선택적으로 SAM 2 마스크로 주제를 격리한 다음, 정체성을 유지하면서 움직임에 맞는 비디오를 합성합니다. 워크플로우는 최종 결과를 생성하기 위해 협력하는 네 개의 그룹과 빠른 품질 보증을 위한 두 개의 편리한 출력을 조직합니다(포즈 및 마스크 미리보기).
이 그룹은 초상화나 전신 이미지를 로드하고, 목표 해상도에 맞게 크기를 조정하며, 그래프 전반에 사용할 수 있게 합니다. 크기 조정된 이미지는 Get_reference_image에 의해 저장되고 미리보기되어 프레이밍을 빠르게 평가할 수 있습니다. 정체성 특징은 WanVideoClipVisionEncode (CLIP Vision) (#70)에 의해 인코딩되며, 동일한 이미지는 WanVideoAnimateEmbeds (#62)에 ref_images로 제공되어 정체성 보존이 강화됩니다. 최상의 결과를 위해 드라이버 비디오의 주제 유형과 일치하는 명확하고 잘 조명된 참조를 제공하세요. 여유 공간과 최소한의 차폐는 Wan 2.2 Animate V2가 얼굴 구조와 의류에 고정하는 데 도움이 됩니다.
드라이버 비디오는 VHS_LoadVideo (#191)에 의해 로드되며, 이는 나중에 사용할 수 있도록 프레임, 오디오, 프레임 수 및 소스 fps를 노출합니다. 포즈 및 얼굴 큐는 OnnxDetectionModelLoader (#178) 및 PoseAndFaceDetection (#172)에 의해 추출된 후 DrawViTPose (#173)로 시각화되어 추적 품질을 확인할 수 있습니다. 주제 격리는 Sam2Segmentation (#104)에 의해 처리된 후, GrowMaskWithBlur (#182) 및 BlockifyMask (#108)에 의해 깨끗하고 안정적인 마스크를 생성합니다; 헬퍼 DrawMaskOnImage (#99)는 매트를 미리보기합니다. 이 그룹은 또한 드라이버 비디오의 너비, 높이 및 프레임 수를 표준화하여 Wan 2.2 Animate V2가 공간 및 시간 설정을 추측 없이 일치시킬 수 있도록 합니다. 빠른 검사는 짧은 비디오로 내보내집니다: 포즈 오버레이 및 마스크 미리보기로 제로 샷 검증을 위한 것입니다.
WanVideoVAELoader (#38)은 Wan VAE를 로드하고 WanVideoModelLoader (#22)는 Wan 2.2 Animate 백본을 로드합니다. 선택적 LoRAs는 WanVideoLoraSelectMulti (#171)에서 선택되고 WanVideoSetLoRAs (#48)를 통해 적용됩니다; WanVideoBlockSwap (#51)은 스타일 및 충실도에 영향을 미치는 아키텍처 조정을 위해 WanVideoSetBlockSwap (#50)을 통해 활성화할 수 있습니다. 프롬프트는 WanVideoTextEncodeCached (#65)에 의해 인코딩되며, WanVideoClipVisionEncode (#70)는 참조 이미지를 강력한 정체성 임베딩으로 변환합니다. WanVideoAnimateEmbeds (#62)는 CLIP 특징, 참조 이미지, 포즈 이미지, 얼굴 크롭, 선택적 배경 프레임, SAM 2 마스크, 선택한 해상도 및 프레임 수를 단일 애니메이션 임베딩으로 융합합니다. 그 피드는 WanVideoSampler (#27)를 구동하여 프롬프트, 정체성 및 움직임 큐와 일치하는 잠재 비디오를 합성하고, WanVideoDecode (#28)는 잠재를 다시 RGB 프레임으로 변환합니다.
출력을 비교하기 위해 워크플로우는 간단한 나란히 배치를 조립합니다: 생성된 비디오와 참조 이미지, 얼굴 크롭, 포즈 오버레이, 드라이버 비디오의 프레임을 보여주는 세로 스트립. ImageConcatMulti (#77, #66)는 시각적 콜라주를 빌드하고, VHS_VideoCombine (#30)은 "Compare" mp4를 렌더링합니다. 최종 깨끗한 출력은 VHS_VideoCombine (#189)에 의해 렌더링되며, 이는 드라이버에서 오디오도 가져와 빠른 리뷰 컷을 제공합니다. 이러한 내보내기는 Wan 2.2 Animate V2가 움직임을 얼마나 잘 따르고, 정체성을 보존하며, 의도한 배경을 유지했는지 판단하기 쉽게 만듭니다.
VHS_LoadVideo (#191)
구동 비디오를 로드하고, 그래프 전반에 사용되는 프레임, 오디오 및 메타데이터를 노출합니다. 더 강력한 키포인트 추적을 위해 주제를 완전히 노출하고 모션 블러를 최소화하세요. 더 짧은 테스트를 원한다면 로드된 프레임 수를 제한하세요; 최종 결합에서 오디오 비동기화를 피하기 위해 소스 fps를 일관되게 유지하세요.
PoseAndFaceDetection (#172)
YOLO와 ViTPose를 실행하여 운동 전달을 직접 안내하는 전신 키포인트와 얼굴 크롭을 생성합니다. 로더에서 이미지를 제공하고 표준화된 너비와 높이를 제공하세요; 선택적 retarget_image 입력은 필요할 때 포즈를 다른 프레이밍에 맞출 수 있습니다. 포즈 오버레이가 시끄럽게 보인다면, 더 높은 품질의 ViTPose 모델을 고려하고 주제가 심하게 차폐되지 않았는지 확인하세요. 참조: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Wan 2.2 Animate V2에서 배경을 보존하거나 리라이팅을 국지화할 수 있는 주제 마스크를 생성합니다. PoseAndFaceDetection에서 감지된 경계 상자를 사용하거나 필요한 경우 매트를 정제하기 위해 빠른 양성 점을 그릴 수 있습니다. 빠른 움직임에서 더 깔끔한 가장자리를 위해 GrowMaskWithBlur와 쌍을 이루고, 마스크 미리보기 내보내기로 결과를 검토하세요. 참조: Segment Anything 2.
WanVideoClipVisionEncode (#70)
얼굴 구조, 머리카락, 의류와 같은 정체성 큐를 포착하기 위해 CLIP Vision으로 참조 이미지를 인코딩합니다. 여러 참조 이미지를 평균하여 정체성을 안정화하거나 원치 않는 특징을 억제하기 위해 부정적 이미지를 사용할 수 있습니다. 일관된 조명으로 중심에 맞춘 크롭이 더 강한 임베딩을 생성하는 데 도움이 됩니다.
WanVideoAnimateEmbeds (#62)
정체성 특징, 포즈 이미지, 얼굴 크롭, 선택적 배경 프레임 및 SAM 2 마스크를 단일 애니메이션 임베딩으로 융합합니다. 드라이버 비디오와 width, height, num_frames을 맞추어 아티팩트를 줄이세요. 배경 드리프트가 보이면 깨끗한 배경 프레임과 견고한 마스크를 제공하세요; 얼굴이 드리프트하면 얼굴 크롭이 존재하고 잘 조명되었는지 확인하세요.
WanVideoSampler (#27)
프롬프트, LoRAs 및 애니메이션 임베딩에 의해 안내되는 실제 비디오 잠재를 생성합니다. 긴 클립의 경우, 슬라이딩 윈도우 전략 또는 모델의 컨텍스트 옵션 중에서 선택하세요; 모션 선명도와 장기적 일관성을 균형 잡기 위해 윈도우를 클립 길이에 맞추세요. 스케줄러와 가이드 강도를 조정하여 충실도, 스타일 준수 및 움직임의 부드러움을 교환하고, LoRA 스택이 이점이 있다면 블록 스왑을 활성화하는 것을 고려하세요.
이 워크플로우에 사용된 유용한 리소스:
이 워크플로우는 다음 작업 및 리소스를 구현하고 확장합니다. 우리는 Benji’s AI Playground의 워크플로우와 Wan 팀의 Wan 2.2 Animate V2 모델에 대한 그들의 기여와 유지 보수에 대해 감사드립니다. 권위 있는 세부 사항은 아래에 연결된 원본 문서 및 리포지토리를 참조하세요.
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 작성자 및 유지 관리자가 제공한 해당 라이센스 및 조건의 적용을 받습니다.
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.