Wan 2.2 Animate V2 - это рабочий процесс генерации видео, управляемой позами, который превращает одно эталонное изображение и управляющее видео с позами в реалистичную анимацию с сохранением идентичности. Он основывается на первой версии с более высокой точностью, более плавными движениями и лучшей временной согласованностью, следуя за движением всего тела и выражениями из исходного видео.
Этот рабочий процесс ComfyUI предназначен для создателей, которые хотят быстро получать надежные результаты для анимации персонажей, клипов с танцами и историй, основанных на выступлениях. Он сочетает в себе надежную предварительную обработку (поза, лицо и маскировка субъекта) с модельным семейством Wan 2.2 и опциональными LoRAs, чтобы вы могли уверенно настроить стиль, освещение и обработку фона.
На высоком уровне, конвейер извлекает подсказки позы и лица из управляющего видео, кодирует идентичность из одного эталонного изображения, по желанию изолирует субъект с помощью маски SAM 2, а затем синтезирует видео, которое соответствует движению, сохраняя идентичность. Рабочий процесс организован в четыре группы, которые сотрудничают для получения окончательного результата, и два удобных выхода для быстрой оценки качества (предварительные просмотры позы и маски).
Эта группа загружает ваш портрет или изображение всего тела, изменяет его размер до целевого разрешения и делает его доступным по всему графу. Измененное изображение сохраняется и используется в Get_reference_image и предварительном просмотре, чтобы вы могли быстро оценить кадрирование. Идентификационные особенности кодируются WanVideoClipVisionEncode (CLIP Vision) (#70), и то же изображение подается в WanVideoAnimateEmbeds (#62) как ref_images для более сильного сохранения идентичности. Предоставьте четкое, хорошо освещенное эталонное изображение, которое соответствует типу субъекта в управляющем видео для получения наилучших результатов. Пространство для головы и минимальные перекрытия помогают Wan 2.2 Animate V2 фиксировать структуру лица и одежду.
Управляющее видео загружается с помощью VHS_LoadVideo (#191), который открывает кадры, аудио, количество кадров и исходную частоту кадров для дальнейшего использования. Подсказки позы и лица извлекаются с помощью OnnxDetectionModelLoader (#178) и PoseAndFaceDetection (#172), затем визуализируются с помощью DrawViTPose (#173), чтобы вы могли подтвердить качество отслеживания. Изоляция субъекта выполняется с помощью Sam2Segmentation (#104), за которой следует GrowMaskWithBlur (#182) и BlockifyMask (#108) для создания чистой, стабильной маски; вспомогательный DrawMaskOnImage (#99) предварительно показывает мат. Группа также стандартизирует ширину, высоту и количество кадров из управляющего видео, чтобы Wan 2.2 Animate V2 мог соответствовать пространственным и временным настройкам без догадок. Быстрые проверки экспортируются как короткие видео: наложение позы и предварительный просмотр маски для нулевой валидации.
WanVideoVAELoader (#38) загружает Wan VAE и WanVideoModelLoader (#22) загружает основу Wan 2.2 Animate. Опциональные LoRAs выбираются в WanVideoLoraSelectMulti (#171) и применяются через WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) может быть включен через WanVideoSetBlockSwap (#50) для архитектурных изменений, влияющих на стиль и точность. Подсказки кодируются WanVideoTextEncodeCached (#65), в то время как WanVideoClipVisionEncode (#70) превращает эталонное изображение в надежные встраивания идентичности. WanVideoAnimateEmbeds (#62) объединяет функции CLIP, эталонное изображение, изображения поз, обрезки лица, опциональные фоновые кадры, маску SAM 2 и выбранное разрешение и количество кадров в одно встраивание анимации. Этот поток управляет WanVideoSampler (#27), который синтезирует латентное видео, согласованное с вашей подсказкой, идентичностью и подсказками движения, и WanVideoDecode (#28) преобразует латентные в RGB кадры.
Чтобы помочь сравнить выходные данные, рабочий процесс собирает простой бок о бок: сгенерированное видео рядом с вертикальной полосой, показывающей эталонное изображение, обрезки лица, наложение позы и кадр из управляющего видео. ImageConcatMulti (#77, #66) строит визуальный коллаж, затем VHS_VideoCombine (#30) рендерит "Сравнить" mp4. Окончательный чистый выходной файл рендерится VHS_VideoCombine (#189), который также переносит аудио из управляющего для быстрого просмотра. Эти экспорты упрощают оценку того, насколько хорошо Wan 2.2 Animate V2 следовал движению, сохранил идентичность и поддерживал предполагаемый фон.
VHS_LoadVideo (#191)
Загружает управляющее видео и открывает кадры, аудио и метаданные, используемые по всему графу. Держите субъект полностью видимым с минимальным размытием движения для более сильного отслеживания ключевых точек. Если вы хотите более короткие тесты, ограничьте количество загружаемых кадров; держите исходную частоту кадров согласованной вниз по потоку, чтобы избежать рассинхронизации аудио в окончательной компоновке.
PoseAndFaceDetection (#172)
Запускает YOLO и ViTPose для создания ключевых точек всего тела и обрезков лица, которые непосредственно управляют переносом движения. Подайте ему изображения из загрузчика и стандартизированную ширину и высоту; опциональный вход retarget_image позволяет адаптировать позы к другому кадрированию, когда это необходимо. Если наложение позы выглядит шумным, рассмотрите более качественную модель ViTPose и убедитесь, что субъект не сильно перекрыт. Ссылка: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Создает маску субъекта, которая может сохранить фон или локализовать пересвет в Wan 2.2 Animate V2. Вы можете использовать обнаруженные ограничивающие боксы из PoseAndFaceDetection или нарисовать быстрые положительные точки, если необходимо, чтобы уточнить мат. Сочетайте с GrowMaskWithBlur для более чистых краев на быстром движении и просмотрите результат с экспортом предварительного просмотра маски. Ссылка: Segment Anything 2.
WanVideoClipVisionEncode (#70)
Кодирует эталонное изображение с помощью CLIP Vision для захвата идентификационных подсказок, таких как структура лица, волосы и одежда. Вы можете усреднить несколько эталонных изображений для стабилизации идентичности или использовать негативное изображение для подавления нежелательных черт. Центрированные обрезки с согласованным освещением помогают создать более сильные встраивания.
WanVideoAnimateEmbeds (#62)
Объединяет идентификационные особенности, изображения поз, обрезки лица, опциональные фоновые кадры и маску SAM 2 в одно встраивание анимации. Согласуйте width, height и num_frames с вашим управляющим видео для уменьшения артефактов. Если вы видите дрейф фона, предоставьте чистые фоновые кадры и надежную маску; если лицо дрейфует, убедитесь, что обрезки лица присутствуют и хорошо освещены.
WanVideoSampler (#27)
Создает фактические латенты видео, направляемые вашей подсказкой, LoRAs и встраиванием анимации. Для длинных клипов выберите между стратегией скользящего окна или контекстными опциями модели; сопоставьте оконное отображение с длиной клипа, чтобы сбалансировать резкость движения и долговременную согласованность. Отрегулируйте планировщик и силу направляющей, чтобы сбалансировать точность, соответствие стилю и плавность движения, и рассмотрите возможность включения блока обмена, если ваш стек LoRA от этого выигрывает.
Полезные ресурсы, использованные в этом рабочем процессе:
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем рабочий процесс Benji’s AI Playground и команду Wan за модель Wan 2.2 Animate V2 за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.