Wan Alpha в ComfyUI | Видеопроцесс с альфа-каналом

Wan Alpha: прозрачное текст-видео для профессионального композитинга

Wan Alpha — это специально разработанный процесс ComfyUI, который генерирует видео с нативным альфа-каналом, используя семейство Wan 2.1. Он совместно производит RGB и альфа, так что персонажи, реквизит и эффекты сразу попадают на временные шкалы без ключевой анимации или ротоскопирования. Для VFX, движущейся графики и интерактивных приложений Wan Alpha обеспечивает чистые края, полупрозрачные эффекты и маски с точностью до кадра, готовые к производству.

Основан на Wan2.1‑T2V‑14B и паре VAE, учитывающей альфа, Wan Alpha балансирует точность и скорость. Опциональное ускорение LightX2V LoRA сокращает время выборки, сохраняя детали, и процесс экспортирует последовательности кадров RGBA плюс анимированный WebP-превью для быстрого просмотра.

Ключевые модели в процессе Comfyui Wan Alpha

Wan2.1‑T2V‑14B. Базовая модель текст-видео, определяющая структуру сцены, движение и качество рендеринга. Официальные веса и код поддерживаются в организации Wan-Video на GitHub. Wan-Video/Wan2.1
UMT5‑XXL текстовый энкодер. Многоязычный энкодер, используемый для токенизации и встраивания подсказок для моделей Wan, обеспечивая богатые фразы подсказок на нескольких языках. google/umt5-xxl и UMT5 docs
Wan‑Alpha VAE пара. Дизайн VAE, который обучается RGB и альфа совместно, так что декодированная альфа совпадает с RGB пиксель в пиксель, поддерживая тонкие края и полупрозрачность. См. технический отчет Wan‑Alpha для получения дополнительной информации. Wan‑Alpha (arXiv)
LightX2V LoRA. Опциональная LoRA для ускорения, которая сокращает долгие выборки до нескольких шагов для более быстрого текст-видео, сохраняя при этом качество восприятия. ModelTC/LightX2V

Как использовать процесс Comfyui Wan Alpha

Этот граф ComfyUI следует простому пути от подсказки до кадров RGBA: загрузите модели, закодируйте текст, выделите латентное видео, выберите, декодируйте RGB и альфа синхронно, затем сохраните.

Загрузка моделей и LoRA

Начните с Load Wan 2.1 t2v 14B (#37), чтобы загрузить базовую модель. Если вы используете ускорение или стилистические изменения, примените их с помощью LoraLoaderModelOnly (#59) и LoraLoaderModelOnly (#65) последовательно. Затем модель проходит через ModelSamplingSD3 (#48), который настраивает выборщик, совместимый с загруженной контрольной точкой. Этот стек определяет движение и стиль рендеринга, которые Wan Alpha улучшит на следующих этапах.

Кодирование подсказок

Load Text Encoder (#38) загружает текстовый энкодер UMT5‑XXL. Введите ваше описание в CLIP Text Encode (Positive Prompt) (#6); держите ваш предмет, действие, кадрирование камеры и фразу "transparent background" краткими. Используйте CLIP Text Encode (Negative Prompt) Useless s (#7), чтобы избежать ореолов или загромождения фона, если это необходимо. Эти кодировки обусловливают как генерацию RGB, так и альфа, чтобы края и подсказки прозрачности следовали вашему намерению.

Настройка видеоканвы

Используйте EmptyHunyuanLatentVideo (#40), чтобы определить латентную видеоканву. Установите width, height, frames и fps, чтобы соответствовать вашему кадру; более высокие разрешения или более длинные клипы требуют больше памяти. Этот узел выделяет временно согласованное латентное пространство, которое Wan Alpha заполнит движением и внешним видом. Рассмотрите возможность согласования продолжительности и частоты кадров с вашим редактированием, чтобы избежать повторной выборки позже.

Генерация

KSampler (#3) выполняет диффузию на латентном видео, используя ваш стек моделей и условие подсказки. Настройте seed для вариаций и выберите sampler и scheduler, которые балансируют скорость и детали. Когда LightX2V LoRA активен, вы можете использовать меньше шагов для более быстрого рендеринга, сохраняя стабильность. Выход — это один латентный поток, общий для следующей стадии декодирования, чтобы гарантировать идеальное соответствие RGBA.

Декодирование RGB и альфа

RGB VAE Decode (#8) работает в паре с VAELoader (#39) для реконструкции RGB кадров. Параллельно Alpha VAE Decode (#52) работает в паре с VAELoader (#51) для реконструкции альфа-канала. Оба декодера читают один и тот же латент, так что мат совпадает точно с цветными пикселями, что является основной идеей в дизайне Wan‑Alpha для обеспечения согласованной прозрачности. Это двухпутевое декодирование делает Wan Alpha готовым к прямому композитингу.

Сохранение и предварительный просмотр

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73) записывает два результата: zip-архив кадров RGBA PNG и компактный анимированный WebP-превью. Последовательность кадров подходит для NLE и композиторов, а превью ускоряет обзоры. Назовите ваш набор выходных данных, выберите длину и качество превью и выполните узел, чтобы упаковать ваш результат.

Ключевые узлы в процессе Comfyui Wan Alpha

EmptyHunyuanLatentVideo (#40)

Роль: определяет пространственное и временное разрешение создаваемого клипа. Настройте width, height, frames и fps для соответствия доставке. Большие канвы и более длительные длительности увеличивают потребность в VRAM; рассмотрите возможность использования более коротких черновиков для разработки внешнего вида, затем увеличьте масштаб для окончательных версий.

KSampler (#3)

Роль: основной деноайзер для Wan Alpha. Настройте seed для исследований, steps для обмена скоростью на детали, sampler и scheduler для стабильности, и cfg для баланса приверженности подсказке с естественным движением. Когда LightX2V LoRA активен, вы можете значительно уменьшить steps, сохраняя качество благодаря дистилляции шагов. См. LightX2V для контекста по быстрому выбору. ModelTC/LightX2V

LoraLoaderModelOnly (#59)

Роль: загружает LightX2V LoRA, который ускоряет выборку Wan2.1. Используйте контроль strength, чтобы смешать его эффект, если вы видите переизбыточность или артефакты темпа. Держите эту LoRA ближе всего к базовой модели в цепочке, чтобы последующие LoRA наследовали её преимущества в скорости.

LoraLoaderModelOnly (#65)

Роль: загружает дополнительную LoRA для стилистического или доменного уточнения. Умерьте strength, чтобы избежать чрезмерного подавления координации движения; комбинируйте с вашей подсказкой, а не заменяйте её. Если появляются артефакты, уменьшите эту LoRA перед изменением выборщика.

VAELoader (#39) RGB

Роль: предоставляет RGB VAE, используемый RGB VAE Decode (#8). Держите это в паре с Wan‑Alpha альфа VAE, чтобы гарантировать, что оба декодера интерпретируют латенты согласованно. Замена на несвязанные VAE может нарушить края или смягчить прозрачность. Фон о совместном дизайне RGB–альфа представлен в отчете Wan‑Alpha. Wan‑Alpha (arXiv)

VAELoader (#51) Alpha

Роль: предоставляет альфа VAE, используемый Alpha VAE Decode (#52). Он реконструирует мат из того же латентного пространства, что и RGB, так что прозрачность совпадает с движением и деталями. Если вы настраиваете VAE, проверьте, что RGB и альфа всё ещё совпадают на субпиксельных краях, таких как волосы.

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)

Роль: экспортирует активы. Установите чёткое output_name для версионности, выберите качество и частоту кадров превью, которые отражают созданный клип, и сохраняйте PNG экспорт как ваш мастер для безубыточного композитинга. Избегайте изменения размера между декодированием и сохранением, чтобы сохранить точность краёв.

Дополнительные параметры

Сильные подсказки для Wan Alpha явно описывают предмет, действие, камеру, освещение и "transparent background". Добавьте тонкие материалы, такие как "wispy hair" или "glass", чтобы использовать детали альфа.
Для быстрой итерации используйте более короткие длительности или более низкие частоты кадров, затем увеличьте настройки, как только внешний вид и движение будут зафиксированы.
Если вы видите ореолы, добавьте отрицательные, такие как "background, outline, green screen, white fringe" и держите освещение в подсказке согласованным.
При объединении нескольких LoRA размещайте LoRA для ускорения раньше, а стилистические LoRA позже, и держите силы умеренными, чтобы сохранить реализм движения.
Импортируйте последовательность RGBA PNG непосредственно в ваш композитор; используйте анимированный WebP только для превью, а не как мастер.

Ресурсы, используемые в Wan Alpha

Семейство моделей Wan2.1 и код: Wan-Video/Wan2.1
Текстовый энкодер UMT5: google/umt5-xxl и UMT5 docs
Обзор метода Wan‑Alpha: Wan‑Alpha (arXiv)
Ускорение LightX2V: ModelTC/LightX2V

Благодарности

Этот процесс реализует и основывается на следующих работах и ресурсах. Мы благодарим WeChatCV за Wan-Alpha за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы

WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Wan Alpha | Генератор прозрачного видео

Wan Alpha: прозрачное текст-видео для профессионального композитинга

Ключевые модели в процессе Comfyui Wan Alpha

Как использовать процесс Comfyui Wan Alpha

Ключевые узлы в процессе Comfyui Wan Alpha

Дополнительные параметры

Благодарности

Ресурсы

Want More ComfyUI Workflows?

Wan 2.1 Control LoRA | Глубина и Плитка

Wan 2.1 Видео Перестиль | Единообразное Преобразование Стиля Видео

Wan 2.1 LoRA

Wan 2.1 | Революционное создание видео

PuLID Flux II | Постоянная генерация персонажей

Flux & 10 моделей In-Context LoRA

Анимация от одного ко всем | Создатель видео на основе поз

DiffuEraser | Видеозаливка