Wan Alpha in ComfyUI | 알파 채널 비디오 워크플로우

Wan Alpha: 프로 합성을 위한 투명 텍스트-비디오

Wan Alpha는 Wan 2.1 패밀리를 사용하여 네이티브 알파 채널을 가진 비디오를 생성하는 목적지향 ComfyUI 워크플로우입니다. RGB와 알파를 함께 생성하여 키잉이나 로토스코핑 없이 캐릭터, 소품, 효과를 타임라인에 바로 배치할 수 있습니다. VFX, 모션 그래픽, 인터랙티브 앱을 위한 Wan Alpha는 깔끔한 가장자리, 반투명 효과, 프레임 정밀 마스크를 제공하여 제작 준비가 되어 있습니다.

Wan2.1‑T2V‑14B 및 알파 인식 VAE 쌍을 중심으로 구축된 Wan Alpha는 충실도와 속도의 균형을 유지합니다. 선택 사항인 LightX2V LoRA 가속은 디테일을 유지하면서 샘플링을 단축시킵니다. 워크플로우는 RGBA 프레임 시퀀스와 빠른 검토를 위한 애니메이션 WebP 미리보기를 내보냅니다.

Comfyui Wan Alpha 워크플로우의 주요 모델

Wan2.1‑T2V‑14B. 장면 구조, 모션 및 렌더링 품질을 주도하는 기본 텍스트-비디오 모델. 공식 가중치 및 코드는 GitHub의 Wan-Video 조직에서 유지됩니다. Wan-Video/Wan2.1
UMT5‑XXL 텍스트 인코더. Wan 모델을 위한 프롬프트를 토큰화하고 임베딩하는 데 사용되는 다국어 인코더입니다. 여러 언어로 풍부한 프롬프트 표현을 가능하게 합니다. google/umt5-xxl 및 UMT5 docs
Wan‑Alpha VAE 쌍. RGB와 알파를 함께 학습하여 디코딩된 알파가 RGB와 픽셀 단위로 정렬되도록 하여 세밀한 가장자리와 반투명성을 지원하는 VAE 설계입니다. Wan‑Alpha 기술 보고서에서 배경을 참조하세요. Wan‑Alpha (arXiv)
LightX2V LoRA. 빠른 텍스트-비디오를 위한 장기 샘플러를 몇 단계로 증류하여 인식 품질을 유지하면서 가속화하는 선택적 LoRA입니다. ModelTC/LightX2V

Comfyui Wan Alpha 워크플로우 사용 방법

이 ComfyUI 그래프는 프롬프트에서 RGBA 프레임으로 가는 간단한 경로를 따릅니다: 모델 로드, 텍스트 인코딩, 비디오 잠재 할당, 샘플링, RGB와 알파를 동기화하여 디코딩, 저장.

모델 및 LoRA 로딩

Load Wan 2.1 t2v 14B (#37)에서 기본 모델을 가져오세요. 가속 또는 스타일 세부 조정을 사용하는 경우 LoraLoaderModelOnly (#59) 및 LoraLoaderModelOnly (#65)를 순차적으로 적용하세요. 그런 다음 모델은 로드된 체크포인트와 호환되는 샘플러를 구성하는 ModelSamplingSD3 (#48)을 통과합니다. 이 스택은 Wan Alpha가 나중에 세부 조정할 모션 사전과 렌더링 스타일을 정의합니다.

프롬프트 인코딩

Load Text Encoder (#38)는 UMT5‑XXL 텍스트 인코더를 로드합니다. CLIP Text Encode (Positive Prompt) (#6)에 설명을 입력하세요; 주제, 액션, 카메라 프레이밍, "투명 배경"이라는 문구를 간결하게 유지합니다. 필요하면 CLIP Text Encode (Negative Prompt) Useless s (#7)를 사용하여 후광이나 배경 혼란을 방지하세요. 이러한 인코딩은 RGB와 알파 생성을 조건화하여 가장자리와 투명도 단서가 귀하의 의도에 따르도록 합니다.

비디오 캔버스 설정

EmptyHunyuanLatentVideo (#40)를 사용하여 잠재 비디오 캔버스를 정의합니다. width, height, frames, fps를 설정하여 촬영에 맞춥니다; 더 높은 해상도 또는 더 긴 클립은 더 많은 메모리가 필요합니다. 이 노드는 Wan Alpha가 모션과 외관을 채울 시간적으로 일관된 잠재 볼륨을 할당합니다. 나중에 다시 샘플링을 피하기 위해 편집에 맞춰 지속 시간과 프레임 속도를 일치시키는 것을 고려하십시오.

생성

KSampler (#3)은 모델 스택과 프롬프트 조건을 사용하여 비디오 잠재에 대한 확산을 수행합니다. 변형을 위해 seed를 조정하고, 속도와 디테일을 균형있게 조정할 sampler와 scheduler를 선택합니다. LightX2V LoRA가 활성화된 경우 더 빠른 렌더를 위해 더 적은 단계를 사용할 수 있으며, 안정성을 유지합니다. 출력은 다음 디코딩 단계에서 완벽한 RGBA 정렬을 보장하기 위해 공유되는 단일 잠재 스트림입니다.

RGB 및 알파 디코딩

RGB VAE Decode (#8)는 VAELoader (#39)와 함께 RGB 프레임을 재구성합니다. 동시에 Alpha VAE Decode (#52)는 VAELoader (#51)와 함께 알파 채널을 재구성합니다. 두 디코더는 동일한 잠재를 읽으므로 매트는 색상 픽셀과 정확히 정렬되며, 이는 일관된 투명성을 위한 Wan‑Alpha의 설계 핵심 아이디어입니다. 이 이중 경로 디코딩이 Wan Alpha를 직접 합성 준비 상태로 만드는 것입니다.

저장 및 미리보기

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)은 두 가지 전달물을 작성합니다: RGBA PNG 프레임의 zip 아카이브와 간단한 애니메이션 WebP 미리보기입니다. 프레임 시퀀스는 NLE 및 합성기에서 사용하기에 적합하며, 미리보기는 리뷰를 가속화합니다. 출력 세트를 이름짓고, 미리보기 길이 및 품질을 선택한 후 노드를 실행하여 결과를 패키징합니다.

Comfyui Wan Alpha 워크플로우의 주요 노드

EmptyHunyuanLatentVideo (#40)

역할: 생성된 클립의 공간 및 시간 해상도를 정의합니다. 배달에 맞춰 width, height, frames, fps를 조정합니다. 더 큰 캔버스와 긴 지속 시간은 VRAM 요구 사항을 증가시킵니다; 외관 개발을 위한 짧은 초안을 고려한 후 최종을 위해 확장하세요.

KSampler (#3)

역할: Wan Alpha의 주요 디노이저입니다. 탐색을 위해 seed를 조정하고, steps는 속도와 디테일을 교환하며, sampler와 scheduler는 안정성을 위해 조정하고, cfg는 프롬프트 준수와 자연스러운 모션을 균형 있게 합니다. LightX2V LoRA가 활성화된 경우, 품질을 유지하면서 steps를 크게 줄일 수 있습니다. 빠른 샘플링에 대한 컨텍스트는 LightX2V를 참조하세요. ModelTC/LightX2V

LoraLoaderModelOnly (#59)

역할: Wan2.1 샘플링을 가속화하는 LightX2V LoRA를 로드합니다. 오버샤프닝이나 템포 아티팩트를 볼 경우 strength 제어를 사용하여 효과를 혼합합니다. 이 LoRA를 체인의 기본 모델에 가장 가깝게 유지하여 다운스트림 LoRA가 속도 이점을 상속받을 수 있도록 합니다.

LoraLoaderModelOnly (#65)

역할: 스타일 또는 도메인 세부 조정을 위한 추가 LoRA를 로드합니다. 모션 일관성을 손상시키지 않도록 strength를 적당히 조정하고, 프롬프트와 결합하여 대체하지 마세요. 아티팩트가 나타나면 샘플러를 변경하기 전에 이 LoRA를 낮추세요.

VAELoader (#39) RGB

역할: RGB VAE Decode (#8)에서 사용되는 RGB VAE를 제공합니다. Wan‑Alpha 알파 VAE와 쌍을 이루어야 두 디코더가 잠재를 일관되게 해석할 수 있습니다. 관련 없는 VAE로 교체하면 가장자리가 잘못 정렬되거나 투명성이 부드러워질 수 있습니다. RGB-알파 공동 설계에 대한 배경은 Wan‑Alpha 보고서에 있습니다. Wan‑Alpha (arXiv)

VAELoader (#51) Alpha

역할: Alpha VAE Decode (#52)에서 사용되는 알파 VAE를 제공합니다. RGB와 동일한 잠재 공간에서 매트를 재구성하여 투명도가 모션 및 디테일과 일치하도록 합니다. VAE를 사용자 정의하는 경우, RGB와 알파가 여전히 머리카락과 같은 서브픽셀 가장자리에서 정렬되는지 테스트하세요.

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)

역할: 자산을 내보냅니다. 버전 관리를 위해 명확한 output_name을 설정하고, 생성된 클립을 반영하는 미리보기 품질과 프레임 속도를 선택하며, PNG 내보내기를 손실 없는 합성을 위한 마스터로 유지합니다. 디코드와 저장 사이에 크기를 조정하지 않아 가장자리 충실도를 유지하세요.

선택적 추가 항목

Wan Alpha에 대한 강력한 프롬프트는 주제, 액션, 카메라, 조명 및 "투명 배경"을 명확하게 설명합니다. "희미한 머리카락"이나 "유리"와 같은 미세한 재료를 추가하여 알파 디테일을 강화하세요.
빠른 반복을 위해 짧은 지속 시간이나 낮은 프레임 속도를 사용한 후, 외관과 모션이 잠기면 설정을 업스케일하세요.
후광이 보이면 "배경, 윤곽, 그린 스크린, 흰색 프린지"와 같은 부정적을 추가하고, 프롬프트에서 조명을 일관되게 유지하세요.
여러 LoRA를 결합할 때, 가속 LoRA를 먼저 배치하고 스타일리시 LoRA를 나중에 배치하며, 모션 현실성을 유지하기 위해 강도를 적당히 유지하세요.
RGBA PNG 시퀀스를 직접 합성기에 가져오세요; 애니메이션 WebP는 미리보기 용도로만 사용하고, 마스터로 사용하지 마세요.

Wan Alpha에서 사용된 리소스

Wan2.1 모델 패밀리 및 코드: Wan-Video/Wan2.1
UMT5 텍스트 인코더: google/umt5-xxl 및 UMT5 docs
Wan‑Alpha 방법 개요: Wan‑Alpha (arXiv)
LightX2V 가속: ModelTC/LightX2V

감사

이 워크플로우는 다음 작품과 리소스를 구현하고 발전시켰습니다. 우리는 그들의 기여와 유지 관리를 위해 WeChatCV에 감사드립니다. 권위 있는 세부 사항은 아래에 연결된 원본 문서와 저장소를 참조하십시오.

리소스

WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha

참고: 참조된 모델, 데이터셋 및 코드는 저자와 유지 관리자가 제공한 해당 라이선스 및 약관에 따릅니다.

Want More ComfyUI Workflows?

Wan 2.1 Control LoRA | 깊이 및 타일

경량의 깊이 및 타일 LoRA로 구조와 세부 사항을 개선하여 Wan 2.1 비디오 생성 발전.

Wan 2.1 비디오 리스타일 | 일관된 비디오 스타일 변환

Wan 2.1 비디오 리스타일 워크플로우를 사용하여 스타일화된 첫 프레임을 적용하여 비디오 스타일을 변환하세요.

Wan 2.1 LoRA

LoRA 모델로 Wan 2.1 비디오 생성을 강화하여 스타일과 사용자 정의를 개선하세요.

Wan 2.1 | 혁신적인 비디오 생성

혁신적인 AI를 통해 일상적인 CPU에서 텍스트 또는 이미지로부터 믿을 수 없는 비디오를 만드세요.

PuLID Flux II | 일관된 캐릭터 생성

예술적 스타일을 유지하면서 정밀한 캐릭터 제어로 이미지를 생성하세요.

ComfyUI Vid2Vid Dance Transfer

소스 동영상의 움직임과 스타일을 대상 이미지나 객체에 전송합니다.

Z 이미지 | 초고속 사진 실사 생성기

비교할 수 없는 실시간 세부사항으로 초고화질 비주얼을 빠르게 생성합니다.

SVD + IPAdapter V1 | 이미지에서 비디오로

정적 이미지 생성을 위해 IPAdapter를 활용하고 동적 비디오 생성을 위해 Stable Video Diffusion을 사용하세요.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

Wan Alpha | 투명 비디오 생성기