Wan Alpha — это специально разработанный процесс ComfyUI, который генерирует видео с нативным альфа-каналом, используя семейство Wan 2.1. Он совместно производит RGB и альфа, так что персонажи, реквизит и эффекты сразу попадают на временные шкалы без ключевой анимации или ротоскопирования. Для VFX, движущейся графики и интерактивных приложений Wan Alpha обеспечивает чистые края, полупрозрачные эффекты и маски с точностью до кадра, готовые к производству.
Основан на Wan2.1‑T2V‑14B и паре VAE, учитывающей альфа, Wan Alpha балансирует точность и скорость. Опциональное ускорение LightX2V LoRA сокращает время выборки, сохраняя детали, и процесс экспортирует последовательности кадров RGBA плюс анимированный WebP-превью для быстрого просмотра.
Этот граф ComfyUI следует простому пути от подсказки до кадров RGBA: загрузите модели, закодируйте текст, выделите латентное видео, выберите, декодируйте RGB и альфа синхронно, затем сохраните.
Загрузка моделей и LoRA
Load Wan 2.1 t2v 14B
(#37), чтобы загрузить базовую модель. Если вы используете ускорение или стилистические изменения, примените их с помощью LoraLoaderModelOnly
(#59) и LoraLoaderModelOnly
(#65) последовательно. Затем модель проходит через ModelSamplingSD3
(#48), который настраивает выборщик, совместимый с загруженной контрольной точкой. Этот стек определяет движение и стиль рендеринга, которые Wan Alpha улучшит на следующих этапах.Кодирование подсказок
Load Text Encoder
(#38) загружает текстовый энкодер UMT5‑XXL. Введите ваше описание в CLIP Text Encode (Positive Prompt)
(#6); держите ваш предмет, действие, кадрирование камеры и фразу "transparent background" краткими. Используйте CLIP Text Encode (Negative Prompt) Useless s
(#7), чтобы избежать ореолов или загромождения фона, если это необходимо. Эти кодировки обусловливают как генерацию RGB, так и альфа, чтобы края и подсказки прозрачности следовали вашему намерению.Настройка видеоканвы
EmptyHunyuanLatentVideo
(#40), чтобы определить латентную видеоканву. Установите width
, height
, frames
и fps
, чтобы соответствовать вашему кадру; более высокие разрешения или более длинные клипы требуют больше памяти. Этот узел выделяет временно согласованное латентное пространство, которое Wan Alpha заполнит движением и внешним видом. Рассмотрите возможность согласования продолжительности и частоты кадров с вашим редактированием, чтобы избежать повторной выборки позже.Генерация
KSampler
(#3) выполняет диффузию на латентном видео, используя ваш стек моделей и условие подсказки. Настройте seed
для вариаций и выберите sampler
и scheduler
, которые балансируют скорость и детали. Когда LightX2V LoRA активен, вы можете использовать меньше шагов для более быстрого рендеринга, сохраняя стабильность. Выход — это один латентный поток, общий для следующей стадии декодирования, чтобы гарантировать идеальное соответствие RGBA.Декодирование RGB и альфа
RGB VAE Decode
(#8) работает в паре с VAELoader
(#39) для реконструкции RGB кадров. Параллельно Alpha VAE Decode
(#52) работает в паре с VAELoader
(#51) для реконструкции альфа-канала. Оба декодера читают один и тот же латент, так что мат совпадает точно с цветными пикселями, что является основной идеей в дизайне Wan‑Alpha для обеспечения согласованной прозрачности. Это двухпутевое декодирование делает Wan Alpha готовым к прямому композитингу.Сохранение и предварительный просмотр
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP
(#73) записывает два результата: zip-архив кадров RGBA PNG и компактный анимированный WebP-превью. Последовательность кадров подходит для NLE и композиторов, а превью ускоряет обзоры. Назовите ваш набор выходных данных, выберите длину и качество превью и выполните узел, чтобы упаковать ваш результат.EmptyHunyuanLatentVideo
(#40)
width
, height
, frames
и fps
для соответствия доставке. Большие канвы и более длительные длительности увеличивают потребность в VRAM; рассмотрите возможность использования более коротких черновиков для разработки внешнего вида, затем увеличьте масштаб для окончательных версий.KSampler
(#3)
seed
для исследований, steps
для обмена скоростью на детали, sampler
и scheduler
для стабильности, и cfg
для баланса приверженности подсказке с естественным движением. Когда LightX2V LoRA активен, вы можете значительно уменьшить steps
, сохраняя качество благодаря дистилляции шагов. См. LightX2V для контекста по быстрому выбору. ModelTC/LightX2VLoraLoaderModelOnly
(#59)
strength
, чтобы смешать его эффект, если вы видите переизбыточность или артефакты темпа. Держите эту LoRA ближе всего к базовой модели в цепочке, чтобы последующие LoRA наследовали её преимущества в скорости.LoraLoaderModelOnly
(#65)
strength
, чтобы избежать чрезмерного подавления координации движения; комбинируйте с вашей подсказкой, а не заменяйте её. Если появляются артефакты, уменьшите эту LoRA перед изменением выборщика.VAELoader
(#39) RGB
RGB VAE Decode
(#8). Держите это в паре с Wan‑Alpha альфа VAE, чтобы гарантировать, что оба декодера интерпретируют латенты согласованно. Замена на несвязанные VAE может нарушить края или смягчить прозрачность. Фон о совместном дизайне RGB–альфа представлен в отчете Wan‑Alpha. Wan‑Alpha (arXiv)VAELoader
(#51) Alpha
Alpha VAE Decode
(#52). Он реконструирует мат из того же латентного пространства, что и RGB, так что прозрачность совпадает с движением и деталями. Если вы настраиваете VAE, проверьте, что RGB и альфа всё ещё совпадают на субпиксельных краях, таких как волосы.SavePNGZIP_and_Preview_RGBA_AnimatedWEBP
(#73)
output_name
для версионности, выберите качество и частоту кадров превью, которые отражают созданный клип, и сохраняйте PNG экспорт как ваш мастер для безубыточного композитинга. Избегайте изменения размера между декодированием и сохранением, чтобы сохранить точность краёв.Ресурсы, используемые в Wan Alpha
Этот процесс реализует и основывается на следующих работах и ресурсах. Мы благодарим WeChatCV за Wan-Alpha за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.