이 워크플로우는 하나의 참조 이미지를 짧은 비디오로 변환하여 동일한 얼굴과 스타일이 프레임 전반에 걸쳐 지속되도록 합니다. Wan 2.1 패밀리와 목적에 맞춘 Stand In LoRA에 의해 구동되며, 안정적인 정체성이 최소한의 설정으로 필요한 이야기꾼, 애니메이터 및 아바타 제작자를 위해 설계되었습니다. Wan2.1 Stand In 파이프라인은 배경 정리, 크롭, 마스킹 및 임베딩을 처리하여 프롬프트와 모션에 집중할 수 있도록 합니다.
신뢰할 수 있는 정체성 연속성을 단일 사진에서 얻고 싶을 때, 빠른 반복과 내보낼 준비가 된 MP4 및 선택적 나란히 비교 출력을 위해 Wan2.1 Stand In 워크플로우를 사용하십시오.
간단히 보기: 깨끗하고 정면을 향한 참조 이미지를 로드하면, 워크플로우가 얼굴 중심의 마스크와 합성을 준비하고, 이를 잠재 변수로 인코딩하여 Wan 2.1 이미지 임베드에 정체성을 병합한 다음 비디오 프레임을 샘플링하고 MP4로 내보냅니다. 두 출력이 저장됩니다: 주요 렌더링과 나란히 비교.
잘 조명된, 정면을 향한 이미지로 시작하십시오. 파이프라인은 LoadImage
(#58)에서 이미지를 로드하고, ImageResizeKJv2
(#142)로 크기를 표준화하며, MediaPipe-FaceMeshPreprocessor
(#144) 및 BinaryPreprocessor
(#151)를 사용하여 얼굴 중심의 마스크를 만듭니다. 배경은 TransparentBGSession+
(#127) 및 ImageRemoveBackground+
(#128)에서 제거되고, 주제는 ImageCompositeMasked
(#108)로 깨끗한 캔버스에 합성되어 색상 번짐을 최소화합니다. 마지막으로, ImagePadKJ
(#129) 및 ImageResizeKJv2
(#68)로 생성에 대한 비율을 맞추고; 준비된 프레임은 WanVideoEncode
(#104)를 통해 잠재 변수로 인코딩됩니다.
기존 클립에서 모션 제어를 원할 경우, VHS_LoadVideo
(#161)를 사용하여 로드하고 선택적으로 보조 가이드 또는 알파 비디오를 VHS_LoadVideo
(#168)로 로드합니다. 프레임은 DWPreprocessor
(#163)를 통해 포즈 큐를 받고 ImageResizeKJv2
(#169)로 모양을 맞춥니다; ImageToMask
(#171) 및 ImageCompositeMasked
(#174)를 사용하여 제어 이미지를 정확하게 혼합할 수 있습니다. WanVideoVACEEncode
(#160)는 이를 VACE 임베딩으로 변환합니다. 이 경로는 선택 사항입니다; Wan 2.1의 텍스트 기반 모션만 원할 때는 그대로 둡니다.
WanVideoModelLoader
(#22)는 Wan 2.1 14B 기반과 Stand In LoRA를 로드하여 시작부터 정체성이 내재되도록 합니다. VRAM 친화적인 속도 기능은 WanVideoBlockSwap
(#39)을 통해 제공되며 WanVideoSetBlockSwap
(#70)로 적용됩니다. WanVideoSetLoRAs
(#79)를 통해 추가 어댑터인 LightX2V를 연결할 수 있습니다. 프롬프트는 WanVideoTextEncodeCached
(#159)로 인코딩되며, 다국어 제어를 위해 UMT5‑XXL을 사용합니다. 프롬프트는 간결하고 설명적이어야 하며; Stand In 정체성을 보완하기 위해 주제의 의상, 각도 및 조명을 강조하십시오.
WanVideoEmptyEmbeds
(#177)는 이미지 임베딩의 목표 모양을 설정하고, WanVideoAddStandInLatent
(#102)는 인코딩된 참조 잠재 변수를 주입하여 시간 전반에 걸쳐 정체성을 유지합니다. 결합된 이미지 및 텍스트 임베딩은 WanVideoSampler
(#27)에 공급되어 구성된 스케줄러와 단계로 잠재 비디오 시퀀스를 생성합니다. 샘플링 후, 프레임은 WanVideoDecode
(#28)로 디코딩되고 VHS_VideoCombine
(#180)에서 MP4로 기록됩니다.
즉각적인 QA를 위해, ImageConcatMulti
(#122)는 생성된 프레임을 리사이즈된 참조 이미지 옆에 스택하여 프레임별로 유사성을 판단할 수 있도록 합니다. VHS_VideoCombine
(#74)는 이를 별도의 "비교" MP4로 저장합니다. 따라서 Wan2.1 Stand In 워크플로우는 추가 노력 없이 깨끗한 최종 비디오와 나란히 비교를 생성합니다.
WanVideoModelLoader
(#22). Wan 2.1 14B를 로드하고 모델 초기화 시 Stand In LoRA를 적용합니다. 정체성이 제거 경로 전반에 걸쳐 강화되도록 여기에서 Stand In 어댑터를 연결하십시오. 일치하는 Wan‑VAE를 위한 WanVideoVAELoader
(#38)와 짝지으십시오.WanVideoAddStandInLatent
(#102). 인코딩된 참조 이미지 잠재 변수를 이미지 임베딩에 융합합니다. 정체성이 흐려지면 그 영향력을 증가시키십시오; 모션이 과도하게 제한된 것 같으면 약간 줄이십시오.WanVideoSampler
(#27). 주요 생성기입니다. 단계 조정, 스케줄러 선택 및 안내 전략은 세부 사항, 모션 풍부함 및 시간적 안정성에 가장 큰 영향을 미칩니다. 해상도 또는 길이를 밀어붙일 때는 상류의 다른 것을 변경하기 전에 샘플러 설정을 조정하는 것을 고려하십시오.WanVideoSetBlockSwap
(#70)과 WanVideoBlockSwap
(#39). GPU 메모리를 스피드로 교환하여 장치 간 주의 블록을 교환합니다. 메모리 부족 오류가 발생하면 오프로드를 증가시키십시오; 여유가 있다면 빠른 반복을 위해 오프로드를 줄이십시오.ImageRemoveBackground+
(#128) 및 ImageCompositeMasked
(#108). 주제가 중립적인 캔버스에 깔끔하게 배치되어 색상 오염을 줄이고 프레임 전반에 걸쳐 Stand In 정체성 잠금을 향상시킵니다.VHS_VideoCombine
(#180). 주요 MP4 출력의 인코딩, 프레임 속도 및 파일 이름을 제어합니다. 전달을 위한 선호하는 FPS 및 품질 목표를 설정하는 데 사용하십시오.리소스
이 워크플로우는 ArtOfficial Labs의 작업 및 리소스를 구현하고 확장합니다. 우리는 ArtOfficial Labs 및 Wan 2.1 Demo의 저자들에게 그들의 기여와 유지보수에 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 리포지토리를 참조하십시오.
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 저자 및 유지보수자가 제공하는 라이선스 및 조건에 따릅니다.
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.