Wan 2.2 VBVR in ComfyUI: 추론 인식 이미지-비디오 생성
ComfyUI의 Wan 2.2 VBVR는 Wan 2.2 이미지-비디오로 비디오 기반 시각적 추론을 가져오는 생산 준비된 워크플로우입니다. 표준 Wan 2.2 전문가 혼합 파이프라인을 추론 조정 모델 경로와 선택적 VBVR LoRA 경로로 확장하여, 비디오가 강력한 시간 논리와 장면 일관성을 가지고 객체, 동작 및 인과적 사건을 추적할 수 있도록 합니다.
창의적 방향, 시뮬레이션 및 스토리 비트에 필요한 이 ComfyUI 워크플로우는 복잡한 프롬프트를 구조화된 모션 및 다중 객체 상호작용과 정렬합니다. 순수 VBVR 모델 경로를 선택하거나 Wan 2.2에 VBVR 및 모션 LoRAs를 레이어링하여 속도를 높인 후 편집 가능한 MP4로 내보낼 수 있습니다.
Comfyui Wan 2.2 VBVR 워크플로우의 주요 모델
- Wan2.2-I2V-A14B (MoE 백본). 고잡음 및 저잡음 단계에 특화된 두 전문가가 SNR에 따라 디노이징 중에 전환하여 추가 비용 없이 더 높은 용량을 제공합니다. 이 워크플로우가 확장하고 혼합하는 주요 생성기입니다. 모델 카드 • 기술 세부 사항
- VBVR-Wan2.2. Wan2.2-I2V-A14B를 대규모 비디오 추론 스위트에 맞춰 세분화하여 시간적, 인과적, 다중 객체 추론을 개선하면서 아키텍처는 변경하지 않습니다. 가장 강력한 추론 정렬이 필요할 때 사용하십시오. 모델 카드 • 논문
- Wan 2.x VAE. 480p-720p 워크플로우에 효율적으로 프레임을 재구성하는 고압축 비디오 오토인코더; Wan 2.2는 빠른 720p 생성을 가능하게 하는 압축 설계를 설명합니다. 개요
- uMT5-XXL 텍스트 인코더. Wan 2.2 텍스트 및 이미지-비디오 파이프라인을 위한 프롬프트 임베딩을 파생하는 데 사용되는 강력한 다국어 T5 계열 인코더입니다. 모델 카드
- Wan 2.2를 위한 모션 및 추론 LoRAs. 워크플로우는 추론 편향을 위한 VBVR LoRA와 강력한 모션 진폭 및 카메라 움직임을 위한 LightX2V 단계 증류된 LoRAs를 로드할 수 있습니다. VBVR LoRA 예시 • LightX2V 컬렉션
Comfyui Wan 2.2 VBVR 워크플로우 사용법
이 워크플로우는 세 가지 상호 보완적인 경로를 제공합니다. 각 경로는 프롬프트와 선택적 시작 이미지를 비디오 출력으로 독립적으로 포함하므로 세 가지 모두를 테스트하고 최상의 테이크를 유지할 수 있습니다.
- VBVR 모델 경로
- 목적. 가장 강력한 비디오 추론이 필요할 때 사용하십시오. VBVR로 보정된 Wan 2.2 모델의 고잡음 및 저잡음 쌍을 실행하여 디노이징 일정을 "레이아웃" 단계와 "디테일" 단계로 나눕니다.
- 작동 방식. 고잡음 단계는
WanVideoSampler(#173)에서 먼저 실행되고, 그런 다음 그 잠재적 요소가 모션 논리와 세부 사항을 정제하는 저잡음 단계WanVideoSampler(#172)로 흐릅니다. 전환은 샘플러의start_step및end_step에 의해 제어되며, Wan 2.2의 SNR 기반 전문가 핸드오프를 반영합니다. - 설정할 것.
LoadImage(#67)를 통해 원하는 경우 시작 이미지를 제공하고, 인코더에 피드되는WanVideoTextEncode(#170) 근처의Text노드에 프롬프트를 작성하십시오. 샘플러 옆의 작은 정수 노드(Int(#168))로 프레임 수를 조정하십시오. - 출력. 프레임은
WanVideoDecode(#164)에 의해 디코딩되고VHS_VideoCombine(#176)으로 MP4로 조립됩니다.
- Wan 2.2 + PainterI2V 경로
- 목적. 영화적 모션을 위한 빠르고 일반적인 경로입니다. 기본 Wan 2.2 I2V 모델을 유지하지만
PainterI2VforKJ로 이미지 컨디셔닝을 업그레이드하여 4-단계 LoRAs에서 일반적으로 발생하는 슬로우 모션 아티팩트를 수정합니다. - 작동 방식. 시작 이미지는 모델에 맞게 크기 조정되어
PainterI2VforKJ(#181)로 임베딩된 후WanVideoSampler(#129, #130)에 의해 샘플링됩니다. 이 경로는 VBVR과 유사한 고잡음 및 저잡음 핸드오프를 사용하지만 표준 Wan 2.2 가중치에 고정됩니다. - 설정할 것.
WanVideoTextEncode(#152)를 피드하는Text노드에 프롬프트를 공급하십시오. LightX2V LoRA를 연결하면 이 경로의 컨디셔닝이 모션을 더 의도적으로 느끼게 도와줍니다. 노드의 readme에서 디자인 목표를 참조하십시오. PainterI2VforKJ - 출력. 프레임은
WanVideoDecode(#142)에 의해 디코딩되고VHS_VideoCombine(#154)에 의해 저장됩니다.
- 목적. 영화적 모션을 위한 빠르고 일반적인 경로입니다. 기본 Wan 2.2 I2V 모델을 유지하지만
- Wan 2.2 + VBVR LoRA 경로
- 목적. 빠른 반복을 위한 하이브리드. 고잡음 Wan 2.2 모델에 VBVR LoRA를 레이어링하고 저잡음 모델에 모션 LoRA를 레이어링하여 초기에는 추론을 약간 밀어주고 나중에는 깔끔한 모션 폴리쉬를 제공합니다.
- 작동 방식. 고잡음 스트림은
WanVideoSampler(#27)를 통해 실행되고 저잡음 스트림은WanVideoSampler(#90)를 통해 실행됩니다; 둘 다WanVideoTextEncode(#16)로부터 텍스트 임베딩을 받고PainterI2VforKJ(#179)로부터 선택적 이미지 컨디셔닝을 받습니다. LoRAs는 전문가의 역할에 맞춰 각 단계에 적용됩니다. - 설정할 것.
WanVideoTextEncode(#16) 근처의Text노드에 프롬프트를 드롭하고 필요에 따라 "Split_step"으로 레이블된 인근 정수 위젯으로 단계 분할을 조정하십시오. VBVR 및 LightX2V LoRAs는 이 그룹의 LoRA 노드에서 선택 가능합니다. VBVR LoRA - 출력. 프레임은
WanVideoDecode(#28)를 통해 디코딩되고VHS_VideoCombine(#60)을 통해 내보내집니다.
Comfyui Wan 2.2 VBVR 워크플로우의 주요 노드
WanVideoModelLoader(#165, #162)- 초기 및 후기 디노이징 전문가에 매핑되는 VBVR로 보정된 고-SNR 및 저-SNR Wan 2.2 모델을 로드합니다. 쌍을 일관되게 유지하여 SNR 기반 핸드오프가 안정적으로 유지되도록 합니다. 문맥을 위해 Wan 2.2의 MoE 및 SNR 전환 설계를 참조하십시오. 세부 사항
WanVideoSampler(#173, #172, #129, #130, #27, #90)- 생성을 주도하고 전문가 분할을 제어합니다. 디테일과 속도 간 균형을 위해
steps를 조정하고, 초기 레이아웃 전문가와 후기 디테일 전문가 간의 작업을 전환하기 위해start_step또는end_step을 조정하십시오. 모션 자유를 위해cfg를 사용하여 준수를 거래하십시오. 래퍼의 샘플러 노드에 참조 구현이 있습니다. 래퍼 저장소
- 생성을 주도하고 전문가 분할을 제어합니다. 디테일과 속도 간 균형을 위해
PainterI2VforKJ(#178, #181, #179)- 4-단계 LightX2V LoRAs 사용 시 슬로우 모션을 수정하도록 설계된 모션 증폭 변형으로 기본 이미지-비디오 컨디셔닝을 대체합니다. 카메라 프롬프트와 액션 비트를 강화하면서 주제의 정체성을 유지합니다. 노드 readme
WanVideoTextEncode(#170, #152, #16)- uMT5-XXL 인코더를 통해 긍정적 및 부정적 프롬프트를 인코딩하여 샘플러가 풍부한 다국어 의미론을 받도록 합니다. 프롬프트 구조를 명확하게 유지하십시오; 장면, 주제, 동작 및 카메라 의도를 분리하면 일반적으로 정렬이 개선됩니다. uMT5
VHS_VideoCombine(#176, #154, #60)- 메타데이터와 함께 디코딩된 프레임을 MP4로 조립하여 재현 가능성을 제공합니다. 오디오를 전달하면 노드는 비디오와 함께 믹싱합니다. 이것은 VideoHelperSuite의 유틸리티 노드에서 나옵니다. VideoHelperSuite
선택적 추가 기능
- 각 경로를 선택할 시기
- VBVR 모델: 복잡한 상호작용, 원인-결과 장면 또는 다중 객체 안무.
- Wan 2.2 + PainterI2V: 동적 모션 또는 LightX2V LoRAs를 사용한 카메라 중심 스토리텔링.
- Wan 2.2 + VBVR LoRA: 디노이징 초기에 추론 편향의 이점을 얻는 빠른 미리보기.
- ComfyUI의 Wan 2.2 VBVR를 위한 프롬프트 팁
- [SCENE], [SUBJECT], [ACTION], [CAMERA], [LIGHTING]과 같은 짧은 섹션을 사용하십시오. 이는 텍스트 인코더가 의도를 분리하는 데 도움이 됩니다.
- 객체 상호작용을 위해 누가 누구에게 무엇을 어떻게 하는지 명확히 설명하십시오.
- LoRA 스태킹
- 프레임 크기 및 비율
- 입력 근처의
ImageResizeKJv2노드는 VAE의 깨끗한 나눔 가능성을 보장하고 아티팩트를 줄입니다. 시작 이미지 비율을 대상 비디오에 맞춰 매치하여 더 부드러운 모션 전파를 보장하십시오.
- 입력 근처의
감사
이 워크플로우는 다음 작업 및 리소스를 구현하고 확장합니다. 우리는 그들의 기여와 유지보수를 위해 Wan 2.2 VBVR in ComfyUI Source의 저자 @Ai Verse에게 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.
리소스
- YouTube/Wan 2.2 VBVR in ComfyUI Source
- 문서 / 릴리스 노트: Wan 2.2 VBVR in ComfyUI Source @Ai Verse
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 저자 및 유지보수자가 제공하는 각각의 라이선스 및 조건에 따라 다릅니다.

