이 워크플로우는 단일 정지 이미지를 고품질 판타지 초상화 애니메이션으로 변환합니다. Fantasy-AMAP FantasyPortrait 모델을 표현 증강 확산 변환기와 통합하고 Wan Video 2.1 이미지-비디오 파이프라인에 결합하여 최소한의 설정으로 아이덴티티를 보존하고 감정이 풍부한 토킹 샷을 생성할 수 있습니다. 단일 사진에서 영화적 판타지 초상화 모션을 원하는 창작자를 위해 설계되었으며, 프레이밍, 지속 시간, 스타일을 명확하게 제어할 수 있습니다.
파이프라인은 완전 자동화되어 있습니다: 초상화를 넣고, 해상도와 프레임 수를 선택하고, 선택적으로 프롬프트와 LoRA를 추가한 후 MP4로 렌더링합니다. 내부적으로 그래프는 얼굴을 감지하고, 이미지와 텍스트 지침을 인코딩하고, 판타지 초상화 아이덴티티 임베딩을 Wan의 I2V 컨디셔너에 융합하여 비디오를 샘플링하고 프레임을 디코딩한 후 최종 클립을 저장합니다.
FantasyPortrait (Fantasy-AMAP)
핵심 아이덴티티 및 표현 모듈. 주제의 특성을 보존하면서 미세한 얼굴 모션이 가능하도록 하는 표현 증강 임베딩을 제공합니다.
GitHub | Paper (arXiv)
WanVideo 2.1 I2V (14B, 720p)
초상화와 텍스트/이미지 조건화를 통해 애니메이션을 샘플링하기 위해 사용되는 비디오 확산 백본. Kijai의 모델 팩을 통해 양자화되고 Comfy에 최적화된 가중치를 사용할 수 있습니다.
Hugging Face: Kijai/WanVideo_comfy
UMT5-XXL 인코더
비디오 샘플러에서 프롬프트 지침을 위한 고용량 텍스트 인코더.
예제 가중치: umt5-xxl-enc-bf16.safetensors in Kijai/WanVideo_comfy
Wan 2.1 VAE
잠재 인코딩/디코딩을 위한 비디오 최적화 VAE.
예제 가중치: Wan2_1_VAE_bf16.safetensors in Kijai/WanVideo_comfy
워크플로우는 입력에서 최종 비디오까지 왼쪽에서 오른쪽으로 실행됩니다. 주로 세 가지를 설정합니다: 이미지, 크기, 지속 시간. 그런 다음 필요에 따라 짧은 프롬프트나 LoRA로 세부 조정할 수 있습니다.
단일 초상화를 LoadImage에 로드한 후 처리할 수 있도록 크기를 조정합니다. 두 단계의 크기 조정은 이미지가 선택한 width와 height에 맞추면서 구성을 유지하도록 합니다. Width, Height, Frames 컨트롤을 사용하여 출력 크기(기본값 720 × 720)와 애니메이션 길이를 정의합니다. 이렇게 하면 파이프라인 전반에 걸쳐 판타지 초상화 프레이밍이 일관되게 유지됩니다.
FantasyPortraitModelLoader는 FantasyPortrait 가중치를 로드하고, FantasyPortraitFaceDetector는 이미지에서 아이덴티티 및 표현 인식 초상화 임베딩을 추출합니다. 핵심 아이디어는 주제가 누구인지와 그들이 어떻게 감정을 표현하는지를 분리하여 최종 애니메이션이 아이덴티티를 보존하면서 표현력 있는 모션을 가능하게 하는 것입니다. 모델을 교체하지 않는 한 여기서는 조정할 필요가 없습니다.
이미지 지침을 위해 CLIPVisionLoader와 WanVideoClipVisionEncode는 초상화에서 강력한 시각적 기능을 생성합니다. 텍스트 지침을 위해 WanVideoTextEncodeCached는 UMT5-XXL 인코더를 사용하여 긍정적이고 부정적인 프롬프트를 비디오 조건 임베딩으로 변환합니다. "자연스러운 스튜디오 클로즈업, 부드러운 미소"와 같은 짧고 간단한 프롬프트가 종종 깨끗한 판타지 초상화 외관을 위해 충분합니다.
VHS_LoadVideo는 편리한 프레임 카운터로 사용됩니다. 플레이스홀더 클립을 그대로 두거나 선호하는 지속 시간을 가진 참조를 로드할 수 있으며, 프레임 수는 WanVideoImageToVideoEncode에 피드되어 시작 이미지와 이미지/텍스트 임베딩을 I2V 조건화로 변환합니다. 고정된 길이를 선호하는 경우 Frames를 직접 설정하고 참조 로더를 무시하면 됩니다.
WanVideoAddFantasyPortrait는 단계 2의 초상화 임베딩과 I2V 조건을 결합합니다. 이것이 최종 판타지 초상화 애니메이션에 강력한 아이덴티티 보존과 표현적 세부 사항을 부여하는 것입니다. 이미지가 로드되면 추가 입력이 필요하지 않습니다.
WanVideoModelLoader는 Wan 2.1을 로드한 다음 WanVideoLoraSelect는 선택적으로 Kijai 팩에서 가벼운 I2V LoRA를 적용하여 모션이나 미학을 편향시킬 수 있습니다. 아이덴티티를 유지하면서 약간 더 스타일화된 판타지 초상화를 원할 경우 실험하기에 좋은 곳입니다.
WanVideoSampler는 융합된 조건을 사용하여 잠재 프레임을 생성합니다. 프롬프트를 간단하게 유지하고 세부 사항이 필요할 경우 단계를 적당히 늘리며 긴 부정적 프롬프트로 과도하게 제한하지 마세요. WanVideoDecode는 잠재를 다시 이미지로 변환하고, 워크플로우는 미리보기를 연결한 후 VHS_VideoCombine이 MP4로 작성합니다 (기본 16 fps, yuv420p). 출력 파일 이름 접두사는 편의를 위해 설정됩니다.
FantasyPortraitModelLoader (#138)FantasyPortrait 가중치를 로드합니다. 새 Fantasy-AMAP 릴리스를 테스트 중일 경우 여기서 교체하세요. 조정은 필요하지 않지만 Wan 모델과 VAE와의 정밀도를 일관되게 유지하세요.
FantasyPortraitFaceDetector (#142)크기 조정된 이미지에서 초상화 임베딩을 추출합니다. 좋은 결과는 조명이 잘된 정면 사진에서 얻을 수 있습니다. 모션이 이상해 보이면 입력 크롭을 확인하고 더 깨끗한 소스 이미지를 시도하세요.
WanVideoImageToVideoEncode (#151)CLIP 이미지 기능, 시작 이미지 및 지속 시간을 사용하여 Wan의 I2V 조건을 구축합니다. width, height, num_frames를 조정하여 렌더링 범위와 길이를 제어합니다. 더 긴 시퀀스는 더 많은 VRAM과 시간이 필요합니다.
WanVideoAddFantasyPortrait (#150)I2V 컨디셔너에 판타지 초상화 아이덴티티/표현을 융합합니다. 프레임 전반에 걸쳐 주제를 인식 가능하게 유지하면서 미묘한 표현 변화를 가능하게 합니다. 일반적으로 조정할 매개변수가 필요하지 않습니다.
WanVideoSampler (#149)비디오 잠재를 생성합니다. 더 선명한 세부 사항을 원할 경우 단계를 적당히 늘리세요. 모션이 떠돌면 프롬프트 복잡성을 줄이거나 다른 LoRA를 시도하세요. 지침은 간결하게 유지하세요.
WanVideoTextEncodeCached (#155)UMT5-XXL로 긍정적/부정적 프롬프트를 인코딩합니다. 짧고 설명적인 구문을 사용하세요. 지나치게 강한 부정적 프롬프트는 표현을 억제할 수 있습니다.
이 워크플로우는 Fantasy-AMAP 팀의 판타지 초상화 모델을 활용하여 ComfyUI에 표현 증강 확산 변환기를 통합하여 완전 자동화되고 고품질의 초상화 애니메이션 파이프라인을 제공합니다.
kijai에게 Wan Video Wrapper node를 제작하고 통합하여 이미지-비디오 프레임워크에서 초상화 애니메이션을 원활하게 실행할 수 있도록 해주신 것에 특별히 감사드립니다.
또한 창의적 도구의 지속적인 기여에 대한 ComfyUI 커뮤니티에 감사드립니다.
링크:
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.