Этот рабочий процесс превращает одно референсное изображение в короткое видео, где одно и то же лицо и стиль сохраняются на протяжении кадров. Основанный на семействе Wan 2.1 и специально разработанном Stand In LoRA, он предназначен для рассказчиков, аниматоров и создателей аватаров, которым нужна стабильная идентичность с минимальной настройкой. Пайплайн Wan2.1 Stand In обрабатывает очистку фона, обрезку, маскирование и встраивание, чтобы вы могли сосредоточиться на вашем запросе и движении.
Используйте рабочий процесс Wan2.1 Stand In, когда вам нужна надёжная непрерывность идентичности из одной фотографии, быстрая итерация и готовые к экспорту MP4, а также дополнительный вывод для сравнения.
Вкратце: загрузите чистое, фронтальное референсное изображение, рабочий процесс подготавливает маску, сфокусированную на лице, и композит, кодирует его в латент, объединяет эту идентичность в встраивания изображений Wan 2.1, затем выборочно создаёт видеокадры и экспортирует MP4. Сохраняются два вывода: основной рендер и сравнение рядом.
Начните с хорошо освещённого, фронтального изображения на однотонном фоне. Пайплайн загружает ваше изображение в LoadImage (#58), стандартизирует размер с помощью ImageResizeKJv2 (#142) и создаёт маску, сфокусированную на лице, с использованием MediaPipe-FaceMeshPreprocessor (#144) и BinaryPreprocessor (#151). Фон удаляется в TransparentBGSession+ (#127) и ImageRemoveBackground+ (#128), затем субъект композируется на чистом холсте с помощью ImageCompositeMasked (#108), чтобы минимизировать прокрашивание. Наконец, ImagePadKJ (#129) и ImageResizeKJv2 (#68) выравнивают соотношение сторон для генерации; подготовленный кадр кодируется в латент через WanVideoEncode (#104).
Если вы хотите контроля движения из существующего клипа, загрузите его с помощью VHS_LoadVideo (#161) и, по желанию, вторичный направляющий или альфа-видео с VHS_LoadVideo (#168). Кадры проходят через DWPreprocessor (#163) для подсказок позы и ImageResizeKJv2 (#169) для сопоставления формы; ImageToMask (#171) и ImageCompositeMasked (#174) позволяют точно смешивать управляющие изображения. WanVideoVACEEncode (#160) превращает их в встраивания VACE. Этот путь опционален; оставьте его нетронутым, если хотите движение, управляемое только текстом из Wan 2.1.
WanVideoModelLoader (#22) загружает базу Wan 2.1 14B плюс Stand In LoRA, чтобы идентичность была заложена с самого начала. Дружественные к VRAM функции скорости доступны через WanVideoBlockSwap (#39) и применяются с помощью WanVideoSetBlockSwap (#70). Вы можете подключить дополнительный адаптер, такой как LightX2V, через WanVideoSetLoRAs (#79). Запросы кодируются с помощью WanVideoTextEncodeCached (#159), используя UMT5‑XXL для многоканального контроля. Держите запросы краткими и описательными; акцентируйте внимание на одежде, угле и освещении субъекта, чтобы дополнить идентичность Stand In.
WanVideoEmptyEmbeds (#177) устанавливает целевую форму для встраиваний изображений, а WanVideoAddStandInLatent (#102) вводит ваш закодированный референсный латент для переноса идентичности во времени. Комбинированные встраивания изображений и текста подаются в WanVideoSampler (#27), который генерирует латентную видеопоследовательность с использованием настроенного планировщика и шагов. После выборки кадры декодируются с помощью WanVideoDecode (#28) и записываются в MP4 в VHS_VideoCombine (#180).
Для мгновенного QA ImageConcatMulti (#122) складывает сгенерированные кадры рядом с изменённым референсом, чтобы вы могли оценить сходство кадр за кадром. VHS_VideoCombine (#74) сохраняет это как отдельный “Compare” MP4. Таким образом, рабочий процесс Wan2.1 Stand In создаёт чистое финальное видео плюс проверку бок о бок без дополнительных усилий.
WanVideoModelLoader (#22). Загружает Wan 2.1 14B и применяет Stand In LoRA при инициализации модели. Держите адаптер Stand In подключённым здесь, а не позже в графе, чтобы идентичность была обеспечена на всём пути денойзинга. Соедините с WanVideoVAELoader (#38) для соответствующего Wan‑VAE.WanVideoAddStandInLatent (#102). Сливает ваш закодированный референсный латент изображения в встраиваниях изображений. Если идентичность отклоняется, увеличьте её влияние; если движение кажется чрезмерно ограниченным, немного уменьшите его.WanVideoSampler (#27). Основной генератор. Настройка шагов, выбор планировщика и стратегия направляющих здесь имеют наибольшее влияние на детализацию, богатство движения и временную стабильность. При повышении разрешения или длины рассмотрите возможность корректировки настроек выборщика перед изменением чего-либо выше по течению.WanVideoSetBlockSwap (#70) с WanVideoBlockSwap (#39). Обменивает память GPU на скорость, меняя блоки внимания между устройствами. Если вы видите ошибки нехватки памяти, увеличьте выгрузку; если у вас есть запас, уменьшите выгрузку для более быстрой итерации.ImageRemoveBackground+ (#128) и ImageCompositeMasked (#108). Эти узлы обеспечивают чистую изоляцию субъекта и размещение на нейтральном холсте, что снижает загрязнение цвета и улучшает фиксацию идентичности Stand In на протяжении кадров.VHS_VideoCombine (#180). Управляет кодированием, частотой кадров и именованием файлов для основного вывода MP4. Используйте его, чтобы установить предпочитаемую частоту кадров и целевое качество для доставки.Ресурсы
Этот рабочий процесс реализует и развивает работы и ресурсы ArtOfficial Labs. Мы благодарны ArtOfficial Labs и авторам Wan 2.1 за их вклад и поддержку Wan2.1 Demo. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.