ComfyUI에서 ENTIRE AI WORLDS (Vace Wan 2.1) 생성

ComfyUI Generate ENTIRE AI WORLDS (Vace Wan 2.1) 워크플로우

Generate ENTIRE AI WORLDS (Vace Wan 2.1) in ComfyUI | Video World-Building

이 워크플로우를 실행하고 싶으신가요?

완전히 작동 가능한 워크플로우
누락된 노드 또는 모델 없음
수동 설정 불필요
멋진 시각 효과 제공

ComfyUI Generate ENTIRE AI WORLDS (Vace Wan 2.1) 예제

ENTIRE AI WORLDS (Vace Wan 2.1) 생성: 진정한 카메라 트래킹을 통한 시네마틱 비디오 월드빌딩#

ENTIRE AI WORLDS (Vace Wan 2.1)는 Mickmumpitz가 개발한 제작 준비 완료 ComfyUI 워크플로우로, 실사 영상을 새로운 환경으로 변환하면서 원본 카메라 모션을 유지합니다. 배경을 교체하고, 관점과 규모를 유지하며, 마스크된 배우를 텍스트와 참조 이미지를 통해 완전히 재생성된 세계에 합성합니다.

Wan 2.1 VACE 스택을 기반으로 한 이 워크플로우는 빠른 프리비즈나 완성된 샷이 필요한 영화 제작자, VFX 아티스트 및 창작자에게 이상적입니다. 장면을 프롬프트로 지시하고, 선택적 참조 이미지에서 시작하며, 고속 FP8 파이프라인 또는 저 VRAM GGUF 파이프라인 중 선택할 수 있습니다. 결과는 일관된 세계 구축을 가능하게 하며, 일상적인 플레이트에서 ENTIRE AI WORLDS (Vace Wan 2.1)를 진정으로 생성할 수 있게 합니다.

Comfyui에서 ENTIRE AI WORLDS (Vace Wan 2.1) 워크플로우의 주요 모델#

Wan 2.1 14B 텍스트‑투‑비디오 확산 모델. 새로운 세계를 시간적으로 일관된 방식으로 합성하기 위해 사용되는 핵심 생성기입니다. ComfyUI를 위해 재패키지된 가중치는 Hugging Face의 Comfy‑Org 릴리스에서 사용할 수 있습니다. Comfy‑Org/Wan_2.1_ComfyUI_repackaged
Wan 2.1 VACE 모듈 14B. 장면 구조에 생성이 결속되도록 하는 VACE 임베딩을 제공합니다. 정확한 배경 교체와 카메라 트래킹을 가능하게 합니다. Kijai/WanVideo_comfy
Wan 2.1 VAE. 비디오 프레임의 잠재 인코딩/디코딩을 처리합니다. Comfy‑Org/Wan_2.1_ComfyUI_repackaged (VAE split)
uMT5‑XXL 텍스트 인코더. Wan 2.1의 조건부 공간을 위한 프롬프트를 인코딩합니다. 이 워크플로우와 호환되는 패키지된 인코더가 Wan 2.1 분할과 함께 제공됩니다. Comfy‑Org/Wan_2.1_ComfyUI_repackaged (text_encoders)
Wan 2.1 14B VACE GGUF (양자화된 UNet). 전체 FP8 모델 없이 GGUF 경로를 구동하는 낮은 VRAM GPU를 위한 양자화된 대안입니다. QuantStack/Wan2.1_14B_VACE‑GGUF
FILM: 큰 모션을 위한 프레임 보간. 모션 부드러움을 높이기 위해 추가 프레임을 보간하는 선택적 후처리입니다. google‑research/frame‑interpolation
Wan 2.1을 위한 선택적 LightX 스텝‑디스틸 LoRA. 짧은 단계 수를 유지하면서 구조와 정체성을 유지하는 속도 지향 LoRA입니다. Kijai/WanVideo_comfy (LoRA)

Comfyui에서 ENTIRE AI WORLDS (Vace Wan 2.1) 워크플로우 사용 방법#

이 워크플로우는 두 단계 VACE 전략을 따릅니다: 먼저, 제어 이미지에서 장면 모션을 인코딩하여 카메라 움직임을 고정합니다; 두 번째로, 배우를 삽입하고 재생성된 환경에 혼합합니다. 최대 속도를 위해 FP8 경로를 실행하거나 저 VRAM을 위해 GGUF 경로를 실행할 수 있습니다. 아래 섹션은 그래프 그룹에 매핑되어 전체 ENTIRE AI WORLDS (Vace Wan 2.1) 파이프라인을 자신 있게 운영할 수 있습니다.

비디오 입력 및 크기 선택#

입력 영역에서는 작업 해상도와 기본 클립 제어를 선택할 수 있습니다. 해상도 스위치를 사용하여 프리셋(720p, 576p 또는 480p)을 선택하면 Set_width (#370) 및 Set_height (#369)에 피드되어 모든 단계가 동기화됩니다. 회전 시간을 빠르게 유지하려면 프레임 수를 제한하고, 시작점을 오프셋하려면 작은 스킵을 설정할 수 있습니다. 안정성과 메모리를 위해, 시퀀스를 권장 범위 내에 유지하십시오; 그래프 레이블은 대부분의 GPU에 대해 81 프레임이 합리적인 최대치임을 나타냅니다. 이러한 선택은 제어 이미지, VACE 인코딩 및 최종 렌더링에 전역적으로 적용됩니다.

참고: 입력 비디오는 다른 워크플로우, MASK_AND_TRACK를 통해서도 생성할 수 있습니다. 해당 워크플로우 파일은 여기에서 다운로드할 수 있습니다: workflow.json. 다운로드 후, 파일을 새로운 워크플로우 탭에 끌어다 놓고 실행하여 입력 비디오를 얻으십시오.

배경/참조 이미지 설정#

배경 플레이트와 선택적 참조 이미지는 시각적 스타일을 안내합니다. 배경 스틸을 로드한 후, 그래프가 작업 크기에 맞게 크기를 조정합니다. 하드 백플레이트 대신 스타일 앵커를 원한다면 선택기를 통해 reference_image를 활성화하십시오; 이 이미지는 색상, 구성 및 톤을 안내하지만 기하학을 지시하지 않습니다. 참조 경로는 특정 외형을 반영하는 ENTIRE AI WORLDS (Vace Wan 2.1)를 모델이 생성하도록 할 때 유용하며, 텍스트 프롬프트는 나머지를 처리합니다. 텍스트 전용 제어를 선호할 때는 이를 끄십시오.

시작 프레임 + 사람#

이 섹션을 사용하여 생성 시작을 결정하십시오. 준비된 배우 스틸로 Image Remove Background Rembg (mtb) (#1433)은 깨끗한 마스크를 얻고, ImageCompositeMasked (#1441)는 배우를 선택한 배경에 배치하여 시작 프레임을 형성합니다. Start Frame 스위치 (ImpactSwitch, #1760)는 세 가지 모드를 제공합니다: 합성 배우 및 배경, 배경만, 또는 시작 프레임 없음. 시작 프레임은 정체성과 레이아웃을 고정하는 데 도움이 되며; 배경만으로는 시간이 지남에 따라 캐릭터가 "입장"하게 하며; 시작 프레임이 없으면 모델이 텍스트와 참조로 주제와 세계를 모두 설정하도록 요청합니다. 라이브 미리보기 블록은 하위 스트림을 커밋하기 전에 시작이 어떻게 보이는지 보여줍니다.

제어 이미지#

제어 이미지는 카메라의 움직임을 고정하여 관점과 시차가 실제로 느껴지도록 합니다. 카메라 트랙 비디오를 그룹에 피드하십시오; 그래프는 OpenPose 및 Canny 레이어를 도출한 후 강한 구조 신호를 생성하기 위해 혼합할 수 있습니다. Control Image Nodes 스위치 (ImpactSwitch, #1032)는 트랙 전용, 트랙+포즈, Canny+포즈, 또는 외부에서 준비된 제어 비디오 중에서 선택할 수 있습니다. 실루엣과 가장자리가 명확하게 읽히는지 미리보기 결합으로 스택을 검토하십시오. 긴 시퀀스의 경우, 프롬프트나 마스크를 반복하면서 계속해서 ENTIRE AI WORLDS (Vace Wan 2.1)를 생성할 때 구조를 다시 계산하지 않도록 이 제어 비디오를 저장하고 나중에 다시 로드할 수 있습니다.

입력 CN 비디오#

이미 "제어 이미지" 비디오를 내보낸 경우, 여기에서 드롭하여 전처리를 우회하십시오. 제어 이미지 스위치에서 해당 옵션을 선택하여 나머지 파이프라인이 캐시된 구조를 사용하도록 하십시오. 이는 카메라 트래킹을 일관되게 유지하고 긴 테이크에서 반복 시간을 크게 줄입니다.

FP8 모델 로더#

FP8 분기는 전체 Wan 2.1 모델 스택을 로드합니다. WanVideoModelLoader (#4)는 T2V 14B 백본과 VACE 모듈, 그리고 빠르고 일관된 샘플링을 위한 선택적 LightX LoRA를 불러옵니다. WanVideoVAELoader (#26)는 VAE를 제공합니다, 그리고 WanVideoBlockSwap (#5)는 필요한 경우 블록을 장치 메모리로 교체하여 VRAM 절약 전략을 노출합니다. 이 분기는 VRAM 여유 공간이 있을 때 ENTIRE AI WORLDS (Vace Wan 2.1)를 생성하는 가장 빠른 방법입니다.

FP8 모델 샘플러#

프롬프트는 WanVideoTextEncodeSingle에 의해 긍정 및 부정 텍스트로 인코딩된 후 일관성을 유지하기 위해 WanVideoApplyNAG를 통해 정제됩니다. 첫 번째 패스, WanVideo VACE Encode (CN‑CameraTrack) (#948)은 제어 이미지를 읽어 모션 인식 임베딩을 생성합니다. 두 번째 패스, WanVideo VACE Encode (InsertPerson) (#1425)은 깨끗한 알파와 마스크를 사용하여 배우를 주입합니다. WanVideoSampler (#2)는 시퀀스를 렌더링하고, WanVideoDecode (#1)는 잠재를 프레임으로 변환하며, 간단한 스위치가 원본 프레임 속도와 FILM 보간 스트림 중에서 선택한 후 최종 비디오를 결합합니다.

GGUF 모델 로더#

GGUF 분기는 낮은 VRAM 워크플로우를 위해 설계되었습니다. UnetLoaderGGUF (#1677)는 양자화된 Wan 2.1 VACE UNet을 로드하고, CLIPLoader (#1680)는 텍스트 인코더를 제공합니다, 그리고 LoraLoader (#2420)를 사용하여 LoRA를 적용할 수 있습니다. 표준 ComfyUI VAELoader (#1676)는 디코드를 처리합니다. 이 경로는 속도를 희생하고 발자국을 줄이는 대신, 동일한 두 단계 VACE 논리를 유지하여 적은 하드웨어에서도 ENTIRE AI WORLDS (Vace Wan 2.1)를 생성할 수 있게 합니다.

GGUF 모델 샘플러#

양자화된 경로에서는 WanVaceToVideo (#1724)가 VACE 임베딩, 텍스트 조건부, 참조를 유도된 잠재로 변환합니다. WanVideoNAG와 WanVideoEnhanceAVideoKJ는 정체성과 로컬 디테일을 유지한 후 KSampler (#1726)가 최종 잠재 시퀀스를 생성합니다. VAEDecode (#1742)는 프레임을 생성하고, 선택적 FILM 단계는 시간적 부드러움을 추가하며, 비디오 결합은 결과를 디스크에 기록합니다. VRAM이 부족하거나 긴 안정적인 샷이 필요할 때 이 경로를 사용하십시오.

프롬프트#

프롬프트 패널은 두 개가 있습니다. FP8 측은 Wan T5 텍스트 인코더를 사용하고, GGUF 측은 CLIP 조건부 경로를 사용합니다; 두 측 모두 긍정 및 부정 텍스트를 수신합니다. 긍정 프롬프트는 생성하고자 하는 세계에 대해 시네마틱하고 구체적이어야 하며, 부정 프롬프트는 압축 아티팩트, 과포화, 원치 않는 전경 잡음을 위해 예약하십시오. 부드러운 참조 이미지를 사용하여 색상과 조명을 조정하면서도 모델이 ENTIRE AI WORLDS (Vace Wan 2.1)를 생성하도록 할 수 있습니다.

Comfyui에서 ENTIRE AI WORLDS (Vace Wan 2.1) 워크플로우의 주요 노드#

WanVideo VACE Encode (CN-CameraTrack) (#948) 제어 이미지를 분석하여 카메라 모션을 고정하는 첫 번째 단계 VACE 패스입니다. 선택한 작업 크기 및 클립 지속 시간과 일치하도록 너비, 높이 및 길이를 설정하여 임베딩이 하류 샘플링과 일치하도록 하십시오. 외부 제어 비디오에 의존하는 경우, 타이밍 드리프트를 피하기 위해 프레임 수를 일관되게 유지하십시오. 참조 구현 및 노드 동작은 WanVideo 래퍼를 따릅니다. 출처: kijai/ComfyUI‑WanVideoWrapper
WanVideo VACE Encode (InsertPerson) (#1425) 알파 매트와 정리된 마스크를 사용하여 배우를 주입하는 두 번째 단계 VACE 패스입니다. 희미한 가장자리가 보이면, 업스트림 마스크 축소/확장 (DilateErodeMask, #2391)을 조정하여 매트를 약간 당겨오십시오. 이 패스는 삽입을 장면 모션에 연결하여 규모와 시차를 자연스럽게 유지합니다. 출처: kijai/ComfyUI‑WanVideoWrapper
WanVaceToVideo (#1724 및 #1729) VACE 조건부를 샘플러로 브리지합니다. 출력 크기를 동일한 작업 크기로 설정하고, 제어 클립의 프레임 수를 사용하여 나중에 트림이 필요하지 않도록 하십시오. 하나의 참조 이미지를 사용하여 샷 전체에 일관된 외형을 원할 때 레이아웃을 과도하게 제한하지 않고 사용하십시오. 출처: kijai/ComfyUI‑WanVideoWrapper
WanVideoSampler (#2) Wan 2.1을 사용하여 최종 시퀀스를 렌더링하는 FP8 샘플러입니다. VRAM 절약 블록 교체를 지원하며, 저 단계 수에서 빠르고 정체성을 안전하게 유지하는 LightX 스텝‑디스틸 LoRA와 잘 작동합니다. 출처: kijai/ComfyUI‑WanVideoWrapper, Kijai/WanVideo_comfy (LoRA)
KSampler (#1726) GGUF 분기 샘플러입니다. 배우를 보존하고 과도한 선명화를 줄이기 위해 작은 단계 수로 시작하십시오; LightX LoRA는 이 체제를 위해 조율되었습니다. 디테일이 씻겨 나가면, 단계를 약간 늘리거나 Enhance A Video 블록을 활용하여 모션을 드리프트하지 않고 미세 질감을 회복하십시오. 출처: ComfyUI core
FILM VFI (#2019 및 #1757) 보간 스위치로 제어되는 선택적 프레임 보간입니다. 빠른 모션을 부드럽게 하거나 다시 렌더링하지 않고 지속 시간을 늘리는 데 사용하십시오.json Source: google‑research/frame‑interpolation

Optional extras#

클립 길이를 관리 가능한 수준으로 유지하십시오; 그래프의 가이던스는 보통의 GPU에서 안정성과 메모리를 균형 있게 유지하기 위해 실행당 약 81 프레임까지 권장합니다.
프롬프트를 반복하는 경우, "제어 이미지" 비디오를 한 번 저장하고 입력 CN 비디오 경로로 전환하여 구조를 다시 계산하지 않도록 하십시오.
주제 주위에 희미한 가장자리를 제거하려면 삽입 경로에서 DilateErodeMask를 사용하여 배우 마스크를 조정하여 후광을 없애십시오.
저 VRAM 또는 긴 테이크: GGUF 분기를 선택하십시오; 고 VRAM 및 빠른 반복: FP8 분기를 선택하십시오.
시작 프레임을 설정할 때는 나중에 주제가 들어오도록 하고 싶을 때 "배경만"을 사용하거나, 텍스트와 참조에서 장면을 완전히 설정하고 싶을 때 "시작 프레임 없음"을 사용하십시오.

이 단계들을 통해, 실사 카메라 모션에서도 견딜 수 있는 ENTIRE AI WORLDS (Vace Wan 2.1)를 자신 있게 실행할 수 있습니다.

감사의 글#

이 워크플로우는 @mickmumpitz 작업과 리소스를 구현하고 확장합니다. 우리는 Mickmumpitz의 워크플로우 튜토리얼에 대한 감사의 말씀을 전하며, 그의 기여와 유지 관리에 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.

리소스#

YouTube/워크플로우 튜토리얼
- Mickmumpitz의 YouTube에서 Docs / 릴리스 노트: 워크플로우 튜토리얼

참고: 참조된 모델, 데이터 세트 및 코드의 사용은 Mickmumpitz가 제공한 각각의 라이선스 및 조건에 따릅니다.

Want More ComfyUI Workflows?

Wan 2.2 | 오픈 소스 비디오 생성 리더

지금 이용 가능! 더 나은 정밀도 + 부드러운 모션.

Wan 2.2 + Lightx2v V2 | 초고속 I2V & T2V

듀얼 Light LoRA 설정, 4배 더 빠름.

Wan 2.2 FLF2V | 첫-마지막 프레임 비디오 생성

Wan 2.2 FLF2V를 사용하여 시작 및 종료 프레임에서 부드러운 비디오를 생성하십시오.

Wan 2.2 Lightning T2V I2V | 4단계 초고속

Wan 2.2가 이제 20배 더 빠릅니다! 4단계에서 T2V + I2V.

Wan 2.1 | 혁신적인 비디오 생성

혁신적인 AI를 통해 일상적인 CPU에서 텍스트 또는 이미지로부터 믿을 수 없는 비디오를 만드세요.

Z-Image De-Turbo LoRA 추론 | AI Toolkit ComfyUI

단일 RCZimageDeturbo 사용자 지정 노드를 사용하여 ComfyUI에서 AI Toolkit에서 훈련된 Z-Image De-Turbo LoRA를 훈련 일치 동작으로 실행합니다.

LTX 2.3 Sulphur 2 프롬프트 릴레이 워크플로우 | 시네마틱 비디오 메이커

정지 이미지를 시네마틱 모션 제어 비디오로 즉시 변환합니다.

LayerDiffuse + TripoSR | 이미지에서 3D로

이미지 투명도를 위해 LayerDiffuse를 사용하고 빠른 3D 객체 생성을 위해 TripoSR을 사용하세요

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

ENTIRE AI WORLDS 비디오 장면 빌더 생성