Wan2.1 Stand In в ComfyUI | Видео с последовательными персонажами

Wan2.1 Stand In: генерация видео с последовательными персонажами из одного изображения для ComfyUI

Этот рабочий процесс превращает одно референсное изображение в короткое видео, где одно и то же лицо и стиль сохраняются на протяжении кадров. Основанный на семействе Wan 2.1 и специально разработанном Stand In LoRA, он предназначен для рассказчиков, аниматоров и создателей аватаров, которым нужна стабильная идентичность с минимальной настройкой. Пайплайн Wan2.1 Stand In обрабатывает очистку фона, обрезку, маскирование и встраивание, чтобы вы могли сосредоточиться на вашем запросе и движении.

Используйте рабочий процесс Wan2.1 Stand In, когда вам нужна надёжная непрерывность идентичности из одной фотографии, быстрая итерация и готовые к экспорту MP4, а также дополнительный вывод для сравнения.

Основные модели в рабочем процессе Comfyui Wan2.1 Stand In

Wan 2.1 Text‑to‑Video 14B. Основной генератор, отвечающий за временную согласованность и движение. Поддерживает генерацию 480p и 720p и интегрируется с LoRA для целенаправленного поведения и стилей. Model card
Wan‑VAE для Wan 2.1. Высокоэффективный пространственно-временной VAE, который кодирует и декодирует латенты видео, сохраняя подсказки движения. Он поддерживает стадии кодирования/декодирования изображений в этом рабочем процессе. См. ресурсы модели Wan 2.1 и примечания по интеграции Diffusers для использования VAE. Model hub • Diffusers docs
Stand In LoRA для Wan 2.1. Адаптер последовательности персонажей, обученный фиксировать идентичность из одного изображения; в этом графе он применяется при загрузке модели, чтобы сигнал идентичности был слит на фундаменте. Files
LightX2V Step‑Distill LoRA (опционально). Лёгкий адаптер, который может улучшить поведение и эффективность направляющей с Wan 2.1 14B. Model card
Модуль VACE для Wan 2.1 (опционально). Позволяет управлять движением и редактированием через видео-осведомлённое кондиционирование. Рабочий процесс включает путь встраивания, который вы можете активировать для управления VACE. Model hub
UMT5‑XXL текстовый энкодер. Обеспечивает надёжное многоканальное кодирование запросов для Wan 2.1 text‑to‑video. Model card

Как использовать рабочий процесс Comfyui Wan2.1 Stand In

Вкратце: загрузите чистое, фронтальное референсное изображение, рабочий процесс подготавливает маску, сфокусированную на лице, и композит, кодирует его в латент, объединяет эту идентичность в встраивания изображений Wan 2.1, затем выборочно создаёт видеокадры и экспортирует MP4. Сохраняются два вывода: основной рендер и сравнение рядом.

Обработка входных данных (группа)

Начните с хорошо освещённого, фронтального изображения на однотонном фоне. Пайплайн загружает ваше изображение в LoadImage (#58), стандартизирует размер с помощью ImageResizeKJv2 (#142) и создаёт маску, сфокусированную на лице, с использованием MediaPipe-FaceMeshPreprocessor (#144) и BinaryPreprocessor (#151). Фон удаляется в TransparentBGSession+ (#127) и ImageRemoveBackground+ (#128), затем субъект композируется на чистом холсте с помощью ImageCompositeMasked (#108), чтобы минимизировать прокрашивание. Наконец, ImagePadKJ (#129) и ImageResizeKJv2 (#68) выравнивают соотношение сторон для генерации; подготовленный кадр кодируется в латент через WanVideoEncode (#104).

Встраивания VACE (опциональная группа)

Если вы хотите контроля движения из существующего клипа, загрузите его с помощью VHS_LoadVideo (#161) и, по желанию, вторичный направляющий или альфа-видео с VHS_LoadVideo (#168). Кадры проходят через DWPreprocessor (#163) для подсказок позы и ImageResizeKJv2 (#169) для сопоставления формы; ImageToMask (#171) и ImageCompositeMasked (#174) позволяют точно смешивать управляющие изображения. WanVideoVACEEncode (#160) превращает их в встраивания VACE. Этот путь опционален; оставьте его нетронутым, если хотите движение, управляемое только текстом из Wan 2.1.

Модель, LoRA и текст

WanVideoModelLoader (#22) загружает базу Wan 2.1 14B плюс Stand In LoRA, чтобы идентичность была заложена с самого начала. Дружественные к VRAM функции скорости доступны через WanVideoBlockSwap (#39) и применяются с помощью WanVideoSetBlockSwap (#70). Вы можете подключить дополнительный адаптер, такой как LightX2V, через WanVideoSetLoRAs (#79). Запросы кодируются с помощью WanVideoTextEncodeCached (#159), используя UMT5‑XXL для многоканального контроля. Держите запросы краткими и описательными; акцентируйте внимание на одежде, угле и освещении субъекта, чтобы дополнить идентичность Stand In.

Встраивание идентичности и выборка

WanVideoEmptyEmbeds (#177) устанавливает целевую форму для встраиваний изображений, а WanVideoAddStandInLatent (#102) вводит ваш закодированный референсный латент для переноса идентичности во времени. Комбинированные встраивания изображений и текста подаются в WanVideoSampler (#27), который генерирует латентную видеопоследовательность с использованием настроенного планировщика и шагов. После выборки кадры декодируются с помощью WanVideoDecode (#28) и записываются в MP4 в VHS_VideoCombine (#180).

Просмотр сравнения и экспорт

Для мгновенного QA ImageConcatMulti (#122) складывает сгенерированные кадры рядом с изменённым референсом, чтобы вы могли оценить сходство кадр за кадром. VHS_VideoCombine (#74) сохраняет это как отдельный “Compare” MP4. Таким образом, рабочий процесс Wan2.1 Stand In создаёт чистое финальное видео плюс проверку бок о бок без дополнительных усилий.

Ключевые узлы в рабочем процессе Comfyui Wan2.1 Stand In

WanVideoModelLoader (#22). Загружает Wan 2.1 14B и применяет Stand In LoRA при инициализации модели. Держите адаптер Stand In подключённым здесь, а не позже в графе, чтобы идентичность была обеспечена на всём пути денойзинга. Соедините с WanVideoVAELoader (#38) для соответствующего Wan‑VAE.
WanVideoAddStandInLatent (#102). Сливает ваш закодированный референсный латент изображения в встраиваниях изображений. Если идентичность отклоняется, увеличьте её влияние; если движение кажется чрезмерно ограниченным, немного уменьшите его.
WanVideoSampler (#27). Основной генератор. Настройка шагов, выбор планировщика и стратегия направляющих здесь имеют наибольшее влияние на детализацию, богатство движения и временную стабильность. При повышении разрешения или длины рассмотрите возможность корректировки настроек выборщика перед изменением чего-либо выше по течению.
WanVideoSetBlockSwap (#70) с WanVideoBlockSwap (#39). Обменивает память GPU на скорость, меняя блоки внимания между устройствами. Если вы видите ошибки нехватки памяти, увеличьте выгрузку; если у вас есть запас, уменьшите выгрузку для более быстрой итерации.
ImageRemoveBackground+ (#128) и ImageCompositeMasked (#108). Эти узлы обеспечивают чистую изоляцию субъекта и размещение на нейтральном холсте, что снижает загрязнение цвета и улучшает фиксацию идентичности Stand In на протяжении кадров.
VHS_VideoCombine (#180). Управляет кодированием, частотой кадров и именованием файлов для основного вывода MP4. Используйте его, чтобы установить предпочитаемую частоту кадров и целевое качество для доставки.

Опциональные дополнения

Используйте фронтальное, равномерно освещённое референсное изображение на однотонном фоне для лучших результатов. Небольшие повороты или сильные перекрытия могут ослабить перенос идентичности.
Держите запросы краткими; опишите одежду, настроение и освещение, соответствующие вашему референсу. Избегайте противоречивых описаний лица, которые противоречат сигналу Wan2.1 Stand In.
Если VRAM ограничен, сначала увеличьте обмен блоками или уменьшите разрешение. Если у вас есть запас, попробуйте включить оптимизации компиляции в стеке загрузчика перед увеличением шагов.
Stand In LoRA нестандартен и должен быть подключён при загрузке модели; следуйте шаблону в этом графе, чтобы идентичность оставалась стабильной. Файлы LoRA: Stand‑In
Для расширенного управления активируйте путь VACE для управления движением с помощью направляющего клипа. Начните без него, если хотите движения, управляемого только текстом из Wan 2.1.

Ресурсы

Wan 2.1 14B T2V: Hugging Face
Wan 2.1 VACE: Hugging Face
Stand In LoRA: Hugging Face
LightX2V Step‑Distill LoRA: Hugging Face
UMT5‑XXL энкодер: Hugging Face
Узлы оболочки WanVideo: GitHub
Утилиты KJNodes, используемые для изменения размера, заполнения и маскирования: GitHub
Препроцессоры ControlNet Aux (MediaPipe Face Mesh, DWPose): GitHub

Благодарности

Этот рабочий процесс реализует и развивает работы и ресурсы ArtOfficial Labs. Мы благодарны ArtOfficial Labs и авторам Wan 2.1 за их вклад и поддержку Wan2.1 Demo. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы

Wan 2.1/Wan2.1 Demo
- Документация / Примечания к выпуску: Wan2.1 Demo

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Wan2.1 Stand In | Создатель видео с последовательными персонажами

Wan2.1 Stand In: генерация видео с последовательными персонажами из одного изображения для ComfyUI

Основные модели в рабочем процессе Comfyui Wan2.1 Stand In

Как использовать рабочий процесс Comfyui Wan2.1 Stand In

Обработка входных данных (группа)

Встраивания VACE (опциональная группа)

Модель, LoRA и текст

Встраивание идентичности и выборка

Просмотр сравнения и экспорт

Ключевые узлы в рабочем процессе Comfyui Wan2.1 Stand In

Опциональные дополнения

Благодарности

Ресурсы

Want More ComfyUI Workflows?

Создатель Постоянного Персонажа

Flux Consistent Characters | Input Image

IPAdapter V1 FaceID Plus | Последовательные персонажи

Stable Audio Open 1.0 | Инструмент Текст-в-Музыку

BAGEL AI | T2I + I2T + I2I

ACE++ Замена Лиц ｜ Редактирование Изображений

Создайте Связные Сцены | Генератор Согласованного Искусства Истории

LivePortrait | Анимируйте портреты | Img2Vid