Этот рабочий процесс превращает одно референсное изображение в короткое видео, где одно и то же лицо и стиль сохраняются на протяжении кадров. Основанный на семействе Wan 2.1 и специально разработанном Stand In LoRA, он предназначен для рассказчиков, аниматоров и создателей аватаров, которым нужна стабильная идентичность с минимальной настройкой. Пайплайн Wan2.1 Stand In обрабатывает очистку фона, обрезку, маскирование и встраивание, чтобы вы могли сосредоточиться на вашем запросе и движении.
Используйте рабочий процесс Wan2.1 Stand In, когда вам нужна надёжная непрерывность идентичности из одной фотографии, быстрая итерация и готовые к экспорту MP4, а также дополнительный вывод для сравнения.
Вкратце: загрузите чистое, фронтальное референсное изображение, рабочий процесс подготавливает маску, сфокусированную на лице, и композит, кодирует его в латент, объединяет эту идентичность в встраивания изображений Wan 2.1, затем выборочно создаёт видеокадры и экспортирует MP4. Сохраняются два вывода: основной рендер и сравнение рядом.
Начните с хорошо освещённого, фронтального изображения на однотонном фоне. Пайплайн загружает ваше изображение в LoadImage
(#58), стандартизирует размер с помощью ImageResizeKJv2
(#142) и создаёт маску, сфокусированную на лице, с использованием MediaPipe-FaceMeshPreprocessor
(#144) и BinaryPreprocessor
(#151). Фон удаляется в TransparentBGSession+
(#127) и ImageRemoveBackground+
(#128), затем субъект композируется на чистом холсте с помощью ImageCompositeMasked
(#108), чтобы минимизировать прокрашивание. Наконец, ImagePadKJ
(#129) и ImageResizeKJv2
(#68) выравнивают соотношение сторон для генерации; подготовленный кадр кодируется в латент через WanVideoEncode
(#104).
Если вы хотите контроля движения из существующего клипа, загрузите его с помощью VHS_LoadVideo
(#161) и, по желанию, вторичный направляющий или альфа-видео с VHS_LoadVideo
(#168). Кадры проходят через DWPreprocessor
(#163) для подсказок позы и ImageResizeKJv2
(#169) для сопоставления формы; ImageToMask
(#171) и ImageCompositeMasked
(#174) позволяют точно смешивать управляющие изображения. WanVideoVACEEncode
(#160) превращает их в встраивания VACE. Этот путь опционален; оставьте его нетронутым, если хотите движение, управляемое только текстом из Wan 2.1.
WanVideoModelLoader
(#22) загружает базу Wan 2.1 14B плюс Stand In LoRA, чтобы идентичность была заложена с самого начала. Дружественные к VRAM функции скорости доступны через WanVideoBlockSwap
(#39) и применяются с помощью WanVideoSetBlockSwap
(#70). Вы можете подключить дополнительный адаптер, такой как LightX2V, через WanVideoSetLoRAs
(#79). Запросы кодируются с помощью WanVideoTextEncodeCached
(#159), используя UMT5‑XXL для многоканального контроля. Держите запросы краткими и описательными; акцентируйте внимание на одежде, угле и освещении субъекта, чтобы дополнить идентичность Stand In.
WanVideoEmptyEmbeds
(#177) устанавливает целевую форму для встраиваний изображений, а WanVideoAddStandInLatent
(#102) вводит ваш закодированный референсный латент для переноса идентичности во времени. Комбинированные встраивания изображений и текста подаются в WanVideoSampler
(#27), который генерирует латентную видеопоследовательность с использованием настроенного планировщика и шагов. После выборки кадры декодируются с помощью WanVideoDecode
(#28) и записываются в MP4 в VHS_VideoCombine
(#180).
Для мгновенного QA ImageConcatMulti
(#122) складывает сгенерированные кадры рядом с изменённым референсом, чтобы вы могли оценить сходство кадр за кадром. VHS_VideoCombine
(#74) сохраняет это как отдельный “Compare” MP4. Таким образом, рабочий процесс Wan2.1 Stand In создаёт чистое финальное видео плюс проверку бок о бок без дополнительных усилий.
WanVideoModelLoader
(#22). Загружает Wan 2.1 14B и применяет Stand In LoRA при инициализации модели. Держите адаптер Stand In подключённым здесь, а не позже в графе, чтобы идентичность была обеспечена на всём пути денойзинга. Соедините с WanVideoVAELoader
(#38) для соответствующего Wan‑VAE.WanVideoAddStandInLatent
(#102). Сливает ваш закодированный референсный латент изображения в встраиваниях изображений. Если идентичность отклоняется, увеличьте её влияние; если движение кажется чрезмерно ограниченным, немного уменьшите его.WanVideoSampler
(#27). Основной генератор. Настройка шагов, выбор планировщика и стратегия направляющих здесь имеют наибольшее влияние на детализацию, богатство движения и временную стабильность. При повышении разрешения или длины рассмотрите возможность корректировки настроек выборщика перед изменением чего-либо выше по течению.WanVideoSetBlockSwap
(#70) с WanVideoBlockSwap
(#39). Обменивает память GPU на скорость, меняя блоки внимания между устройствами. Если вы видите ошибки нехватки памяти, увеличьте выгрузку; если у вас есть запас, уменьшите выгрузку для более быстрой итерации.ImageRemoveBackground+
(#128) и ImageCompositeMasked
(#108). Эти узлы обеспечивают чистую изоляцию субъекта и размещение на нейтральном холсте, что снижает загрязнение цвета и улучшает фиксацию идентичности Stand In на протяжении кадров.VHS_VideoCombine
(#180). Управляет кодированием, частотой кадров и именованием файлов для основного вывода MP4. Используйте его, чтобы установить предпочитаемую частоту кадров и целевое качество для доставки.Ресурсы
Этот рабочий процесс реализует и развивает работы и ресурсы ArtOfficial Labs. Мы благодарны ArtOfficial Labs и авторам Wan 2.1 за их вклад и поддержку Wan2.1 Demo. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.