Wan2.1 Stand In: генерация видео с последовательными персонажами из одного изображения для ComfyUI
Этот рабочий процесс превращает одно референсное изображение в короткое видео, где одно и то же лицо и стиль сохраняются на протяжении кадров. Основанный на семействе Wan 2.1 и специально разработанном Stand In LoRA, он предназначен для рассказчиков, аниматоров и создателей аватаров, которым нужна стабильная идентичность с минимальной настройкой. Пайплайн Wan2.1 Stand In обрабатывает очистку фона, обрезку, маскирование и встраивание, чтобы вы могли сосредоточиться на вашем запросе и движении.
Используйте рабочий процесс Wan2.1 Stand In, когда вам нужна надёжная непрерывность идентичности из одной фотографии, быстрая итерация и готовые к экспорту MP4, а также дополнительный вывод для сравнения.
Основные модели в рабочем процессе Comfyui Wan2.1 Stand In
- Wan 2.1 Text‑to‑Video 14B. Основной генератор, отвечающий за временную согласованность и движение. Поддерживает генерацию 480p и 720p и интегрируется с LoRA для целенаправленного поведения и стилей. Model card
- Wan‑VAE для Wan 2.1. Высокоэффективный пространственно-временной VAE, который кодирует и декодирует латенты видео, сохраняя подсказки движения. Он поддерживает стадии кодирования/декодирования изображений в этом рабочем процессе. См. ресурсы модели Wan 2.1 и примечания по интеграции Diffusers для использования VAE. Model hub • Diffusers docs
- Stand In LoRA для Wan 2.1. Адаптер последовательности персонажей, обученный фиксировать идентичность из одного изображения; в этом графе он применяется при загрузке модели, чтобы сигнал идентичности был слит на фундаменте. Files
- LightX2V Step‑Distill LoRA (опционально). Лёгкий адаптер, который может улучшить поведение и эффективность направляющей с Wan 2.1 14B. Model card
- Модуль VACE для Wan 2.1 (опционально). Позволяет управлять движением и редактированием через видео-осведомлённое кондиционирование. Рабочий процесс включает путь встраивания, который вы можете активировать для управления VACE. Model hub
- UMT5‑XXL текстовый энкодер. Обеспечивает надёжное многоканальное кодирование запросов для Wan 2.1 text‑to‑video. Model card
Как использовать рабочий процесс Comfyui Wan2.1 Stand In
Вкратце: загрузите чистое, фронтальное референсное изображение, рабочий процесс подготавливает маску, сфокусированную на лице, и композит, кодирует его в латент, объединяет эту идентичность в встраивания изображений Wan 2.1, затем выборочно создаёт видеокадры и экспортирует MP4. Сохраняются два вывода: основной рендер и сравнение рядом.
Обработка входных данных (группа)
Начните с хорошо освещённого, фронтального изображения на однотонном фоне. Пайплайн загружает ваше изображение в LoadImage (#58), стандартизирует размер с помощью ImageResizeKJv2 (#142) и создаёт маску, сфокусированную на лице, с использованием MediaPipe-FaceMeshPreprocessor (#144) и BinaryPreprocessor (#151). Фон удаляется в TransparentBGSession+ (#127) и ImageRemoveBackground+ (#128), затем субъект композируется на чистом холсте с помощью ImageCompositeMasked (#108), чтобы минимизировать прокрашивание. Наконец, ImagePadKJ (#129) и ImageResizeKJv2 (#68) выравнивают соотношение сторон для генерации; подготовленный кадр кодируется в латент через WanVideoEncode (#104).
Встраивания VACE (опциональная группа)
Если вы хотите контроля движения из существующего клипа, загрузите его с помощью VHS_LoadVideo (#161) и, по желанию, вторичный направляющий или альфа-видео с VHS_LoadVideo (#168). Кадры проходят через DWPreprocessor (#163) для подсказок позы и ImageResizeKJv2 (#169) для сопоставления формы; ImageToMask (#171) и ImageCompositeMasked (#174) позволяют точно смешивать управляющие изображения. WanVideoVACEEncode (#160) превращает их в встраивания VACE. Этот путь опционален; оставьте его нетронутым, если хотите движение, управляемое только текстом из Wan 2.1.
Модель, LoRA и текст
WanVideoModelLoader (#22) загружает базу Wan 2.1 14B плюс Stand In LoRA, чтобы идентичность была заложена с самого начала. Дружественные к VRAM функции скорости доступны через WanVideoBlockSwap (#39) и применяются с помощью WanVideoSetBlockSwap (#70). Вы можете подключить дополнительный адаптер, такой как LightX2V, через WanVideoSetLoRAs (#79). Запросы кодируются с помощью WanVideoTextEncodeCached (#159), используя UMT5‑XXL для многоканального контроля. Держите запросы краткими и описательными; акцентируйте внимание на одежде, угле и освещении субъекта, чтобы дополнить идентичность Stand In.
Встраивание идентичности и выборка
WanVideoEmptyEmbeds (#177) устанавливает целевую форму для встраиваний изображений, а WanVideoAddStandInLatent (#102) вводит ваш закодированный референсный латент для переноса идентичности во времени. Комбинированные встраивания изображений и текста подаются в WanVideoSampler (#27), который генерирует латентную видеопоследовательность с использованием настроенного планировщика и шагов. После выборки кадры декодируются с помощью WanVideoDecode (#28) и записываются в MP4 в VHS_VideoCombine (#180).
Просмотр сравнения и экспорт
Для мгновенного QA ImageConcatMulti (#122) складывает сгенерированные кадры рядом с изменённым референсом, чтобы вы могли оценить сходство кадр за кадром. VHS_VideoCombine (#74) сохраняет это как отдельный “Compare” MP4. Таким образом, рабочий процесс Wan2.1 Stand In создаёт чистое финальное видео плюс проверку бок о бок без дополнительных усилий.
Ключевые узлы в рабочем процессе Comfyui Wan2.1 Stand In
WanVideoModelLoader(#22). Загружает Wan 2.1 14B и применяет Stand In LoRA при инициализации модели. Держите адаптер Stand In подключённым здесь, а не позже в графе, чтобы идентичность была обеспечена на всём пути денойзинга. Соедините сWanVideoVAELoader(#38) для соответствующего Wan‑VAE.WanVideoAddStandInLatent(#102). Сливает ваш закодированный референсный латент изображения в встраиваниях изображений. Если идентичность отклоняется, увеличьте её влияние; если движение кажется чрезмерно ограниченным, немного уменьшите его.WanVideoSampler(#27). Основной генератор. Настройка шагов, выбор планировщика и стратегия направляющих здесь имеют наибольшее влияние на детализацию, богатство движения и временную стабильность. При повышении разрешения или длины рассмотрите возможность корректировки настроек выборщика перед изменением чего-либо выше по течению.WanVideoSetBlockSwap(#70) сWanVideoBlockSwap(#39). Обменивает память GPU на скорость, меняя блоки внимания между устройствами. Если вы видите ошибки нехватки памяти, увеличьте выгрузку; если у вас есть запас, уменьшите выгрузку для более быстрой итерации.ImageRemoveBackground+(#128) иImageCompositeMasked(#108). Эти узлы обеспечивают чистую изоляцию субъекта и размещение на нейтральном холсте, что снижает загрязнение цвета и улучшает фиксацию идентичности Stand In на протяжении кадров.VHS_VideoCombine(#180). Управляет кодированием, частотой кадров и именованием файлов для основного вывода MP4. Используйте его, чтобы установить предпочитаемую частоту кадров и целевое качество для доставки.
Опциональные дополнения
- Используйте фронтальное, равномерно освещённое референсное изображение на однотонном фоне для лучших результатов. Небольшие повороты или сильные перекрытия могут ослабить перенос идентичности.
- Держите запросы краткими; опишите одежду, настроение и освещение, соответствующие вашему референсу. Избегайте противоречивых описаний лица, которые противоречат сигналу Wan2.1 Stand In.
- Если VRAM ограничен, сначала увеличьте обмен блоками или уменьшите разрешение. Если у вас есть запас, попробуйте включить оптимизации компиляции в стеке загрузчика перед увеличением шагов.
- Stand In LoRA нестандартен и должен быть подключён при загрузке модели; следуйте шаблону в этом графе, чтобы идентичность оставалась стабильной. Файлы LoRA: Stand‑In
- Для расширенного управления активируйте путь VACE для управления движением с помощью направляющего клипа. Начните без него, если хотите движения, управляемого только текстом из Wan 2.1.
Ресурсы
- Wan 2.1 14B T2V: Hugging Face
- Wan 2.1 VACE: Hugging Face
- Stand In LoRA: Hugging Face
- LightX2V Step‑Distill LoRA: Hugging Face
- UMT5‑XXL энкодер: Hugging Face
- Узлы оболочки WanVideo: GitHub
- Утилиты KJNodes, используемые для изменения размера, заполнения и маскирования: GitHub
- Препроцессоры ControlNet Aux (MediaPipe Face Mesh, DWPose): GitHub
Благодарности
Этот рабочий процесс реализует и развивает работы и ресурсы ArtOfficial Labs. Мы благодарны ArtOfficial Labs и авторам Wan 2.1 за их вклад и поддержку Wan2.1 Demo. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- Wan 2.1/Wan2.1 Demo
- Документация / Примечания к выпуску: Wan2.1 Demo
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.



