Wan Alpha — это специально разработанный процесс ComfyUI, который генерирует видео с нативным альфа-каналом, используя семейство Wan 2.1. Он совместно производит RGB и альфа, так что персонажи, реквизит и эффекты сразу попадают на временные шкалы без ключевой анимации или ротоскопирования. Для VFX, движущейся графики и интерактивных приложений Wan Alpha обеспечивает чистые края, полупрозрачные эффекты и маски с точностью до кадра, готовые к производству.
Основан на Wan2.1‑T2V‑14B и паре VAE, учитывающей альфа, Wan Alpha балансирует точность и скорость. Опциональное ускорение LightX2V LoRA сокращает время выборки, сохраняя детали, и процесс экспортирует последовательности кадров RGBA плюс анимированный WebP-превью для быстрого просмотра.
Этот граф ComfyUI следует простому пути от подсказки до кадров RGBA: загрузите модели, закодируйте текст, выделите латентное видео, выберите, декодируйте RGB и альфа синхронно, затем сохраните.
Загрузка моделей и LoRA
Load Wan 2.1 t2v 14B (#37), чтобы загрузить базовую модель. Если вы используете ускорение или стилистические изменения, примените их с помощью LoraLoaderModelOnly (#59) и LoraLoaderModelOnly (#65) последовательно. Затем модель проходит через ModelSamplingSD3 (#48), который настраивает выборщик, совместимый с загруженной контрольной точкой. Этот стек определяет движение и стиль рендеринга, которые Wan Alpha улучшит на следующих этапах.Кодирование подсказок
Load Text Encoder (#38) загружает текстовый энкодер UMT5‑XXL. Введите ваше описание в CLIP Text Encode (Positive Prompt) (#6); держите ваш предмет, действие, кадрирование камеры и фразу "transparent background" краткими. Используйте CLIP Text Encode (Negative Prompt) Useless s (#7), чтобы избежать ореолов или загромождения фона, если это необходимо. Эти кодировки обусловливают как генерацию RGB, так и альфа, чтобы края и подсказки прозрачности следовали вашему намерению.Настройка видеоканвы
EmptyHunyuanLatentVideo (#40), чтобы определить латентную видеоканву. Установите width, height, frames и fps, чтобы соответствовать вашему кадру; более высокие разрешения или более длинные клипы требуют больше памяти. Этот узел выделяет временно согласованное латентное пространство, которое Wan Alpha заполнит движением и внешним видом. Рассмотрите возможность согласования продолжительности и частоты кадров с вашим редактированием, чтобы избежать повторной выборки позже.Генерация
KSampler (#3) выполняет диффузию на латентном видео, используя ваш стек моделей и условие подсказки. Настройте seed для вариаций и выберите sampler и scheduler, которые балансируют скорость и детали. Когда LightX2V LoRA активен, вы можете использовать меньше шагов для более быстрого рендеринга, сохраняя стабильность. Выход — это один латентный поток, общий для следующей стадии декодирования, чтобы гарантировать идеальное соответствие RGBA.Декодирование RGB и альфа
RGB VAE Decode (#8) работает в паре с VAELoader (#39) для реконструкции RGB кадров. Параллельно Alpha VAE Decode (#52) работает в паре с VAELoader (#51) для реконструкции альфа-канала. Оба декодера читают один и тот же латент, так что мат совпадает точно с цветными пикселями, что является основной идеей в дизайне Wan‑Alpha для обеспечения согласованной прозрачности. Это двухпутевое декодирование делает Wan Alpha готовым к прямому композитингу.Сохранение и предварительный просмотр
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73) записывает два результата: zip-архив кадров RGBA PNG и компактный анимированный WebP-превью. Последовательность кадров подходит для NLE и композиторов, а превью ускоряет обзоры. Назовите ваш набор выходных данных, выберите длину и качество превью и выполните узел, чтобы упаковать ваш результат.EmptyHunyuanLatentVideo (#40)
width, height, frames и fps для соответствия доставке. Большие канвы и более длительные длительности увеличивают потребность в VRAM; рассмотрите возможность использования более коротких черновиков для разработки внешнего вида, затем увеличьте масштаб для окончательных версий.KSampler (#3)
seed для исследований, steps для обмена скоростью на детали, sampler и scheduler для стабильности, и cfg для баланса приверженности подсказке с естественным движением. Когда LightX2V LoRA активен, вы можете значительно уменьшить steps, сохраняя качество благодаря дистилляции шагов. См. LightX2V для контекста по быстрому выбору. ModelTC/LightX2VLoraLoaderModelOnly (#59)
strength, чтобы смешать его эффект, если вы видите переизбыточность или артефакты темпа. Держите эту LoRA ближе всего к базовой модели в цепочке, чтобы последующие LoRA наследовали её преимущества в скорости.LoraLoaderModelOnly (#65)
strength, чтобы избежать чрезмерного подавления координации движения; комбинируйте с вашей подсказкой, а не заменяйте её. Если появляются артефакты, уменьшите эту LoRA перед изменением выборщика.VAELoader (#39) RGB
RGB VAE Decode (#8). Держите это в паре с Wan‑Alpha альфа VAE, чтобы гарантировать, что оба декодера интерпретируют латенты согласованно. Замена на несвязанные VAE может нарушить края или смягчить прозрачность. Фон о совместном дизайне RGB–альфа представлен в отчете Wan‑Alpha. Wan‑Alpha (arXiv)VAELoader (#51) Alpha
Alpha VAE Decode (#52). Он реконструирует мат из того же латентного пространства, что и RGB, так что прозрачность совпадает с движением и деталями. Если вы настраиваете VAE, проверьте, что RGB и альфа всё ещё совпадают на субпиксельных краях, таких как волосы.SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)
output_name для версионности, выберите качество и частоту кадров превью, которые отражают созданный клип, и сохраняйте PNG экспорт как ваш мастер для безубыточного композитинга. Избегайте изменения размера между декодированием и сохранением, чтобы сохранить точность краёв.Ресурсы, используемые в Wan Alpha
Этот процесс реализует и основывается на следующих работах и ресурсах. Мы благодарим WeChatCV за Wan-Alpha за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.