Wan 2.2 Animate V2 — это рабочий процесс генерации видео на основе поз, который превращает одно референсное изображение и управляющее видео с позами в реалистичную анимацию с сохранением идентичности. Он основывается на первой версии с более высоким качеством, более плавным движением и лучшей временной согласованностью, при этом тщательно следуя движениям всего тела и выражениям из исходного видео.
Этот рабочий процесс ComfyUI предназначен для создателей, которые хотят получить быстрые и надежные результаты для анимации персонажей, клипов танца и повествований на основе выступлений. Он сочетает в себе надежную предварительную обработку (позы, лица и маскирование объектов) с модельным семейством Wan 2.2 и необязательными LoRAs, чтобы вы могли с уверенностью настраивать стиль, освещение и обработку фона.
На высоком уровне конвейер извлекает подсказки поз и лиц из управляющего видео, кодирует идентичность из одного референсного изображения, по желанию изолирует объект с помощью маски SAM 2, а затем синтезирует видео, которое соответствует движению, сохраняя идентичность. Рабочий процесс организован в четыре группы, которые сотрудничают для получения окончательного результата и двух удобных выходов для быстрой проверки качества (предварительные просмотры поз и масок).
Эта группа загружает ваш портрет или изображение полного тела, изменяет его размер до целевого разрешения и делает его доступным по всему графу. Измененное изображение сохраняется и повторно используется Get_reference_image
и предварительно просматривается, чтобы вы могли быстро оценить кадрирование. Идентификационные признаки кодируются WanVideoClipVisionEncode
(CLIP Vision
) (#70), и то же изображение подается в WanVideoAnimateEmbeds
(#62) как ref_images
для более сильного сохранения идентичности. Предоставьте четкий, хорошо освещенный референс, который соответствует типу объекта в управляющем видео для достижения наилучших результатов. Свободное пространство и минимальные перекрытия помогают Wan 2.2 Animate V2 зафиксировать структуру лица и одежду.
Управляющее видео загружается с помощью VHS_LoadVideo
(#191), который открывает кадры, аудио, количество кадров и исходное fps для последующего использования. Подсказки поз и лиц извлекаются с помощью OnnxDetectionModelLoader
(#178) и PoseAndFaceDetection
(#172), затем визуализируются с помощью DrawViTPose
(#173), чтобы вы могли подтвердить качество отслеживания. Изоляция объекта осуществляется Sam2Segmentation
(#104), затем GrowMaskWithBlur
(#182) и BlockifyMask
(#108) для получения чистой, стабильной маски; вспомогательный DrawMaskOnImage
(#99) предварительно просматривает матовую. Группа также стандартизирует ширину, высоту и количество кадров из управляющего видео, чтобы Wan 2.2 Animate V2 мог соответствовать пространственным и временным настройкам без догадок. Быстрые проверки экспортируются в виде коротких видео: наложение позы и предварительный просмотр маски для проверки без обучения.
WanVideoVAELoader
(#38) загружает Wan VAE и WanVideoModelLoader
(#22) загружает основу Wan 2.2 Animate. Необязательные LoRAs выбираются в WanVideoLoraSelectMulti
(#171) и применяются через WanVideoSetLoRAs
(#48); WanVideoBlockSwap
(#51) может быть включен через WanVideoSetBlockSwap
(#50) для архитектурных изменений, которые влияют на стиль и качество. Подсказки кодируются WanVideoTextEncodeCached
(#65), а WanVideoClipVisionEncode
(#70) превращает референсное изображение в надежные встраивания идентичности. WanVideoAnimateEmbeds
(#62) объединяет признаки CLIP, референсное изображение, изображения поз, обрезки лица, необязательные фоновые кадры, маску SAM 2 и выбранное разрешение и количество кадров в одно встраивание анимации. Этот поток управляет WanVideoSampler
(#27), который синтезирует латентное видео, согласованное с вашей подсказкой, идентичностью и подсказками движения, а WanVideoDecode
(#28) преобразует латенты обратно в RGB кадры.
Чтобы помочь сравнить выходы, рабочий процесс собирает простой коллаж: сгенерированное видео рядом с вертикальной полосой, показывающей референсное изображение, обрезки лица, наложение позы и кадр из управляющего видео. ImageConcatMulti
(#77, #66) создает визуальный коллаж, затем VHS_VideoCombine
(#30) рендерит mp4 "Compare". Окончательный чистый выход рендерится VHS_VideoCombine
(#189), который также переносит аудио из управляющего для быстрого просмотра. Эти экспорты облегчают оценку того, насколько хорошо Wan 2.2 Animate V2 следовал движению, сохранял идентичность и поддерживал предполагаемый фон.
VHS_LoadVideo
(#191)
Загружает управляющее видео и открывает кадры, аудио и метаданные, используемые по всему графу. Держите объект полностью видимым с минимальной размытой движением для более сильного отслеживания ключевых точек. Если вы хотите более короткие тесты, ограничьте количество загружаемых кадров; держите исходное fps согласованным вниз по потоку, чтобы избежать рассинхронизации аудио в конечной комбинированной версии.
PoseAndFaceDetection
(#172)
Запускает YOLO и ViTPose для создания ключевых точек всего тела и обрезок лица, которые непосредственно управляют переносом движения. Подайте ему изображения из загрузчика и стандартизированную ширину и высоту; необязательный вход retarget_image
позволяет адаптировать позы к другой компоновке, когда это необходимо. Если наложение позы выглядит шумным, рассмотрите более качественную модель ViTPose и убедитесь, что объект не сильно перекрыт. Ссылка: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation
(#104)
Генерирует маску объекта, которая может сохранить фон или локализовать повторное освещение в Wan 2.2 Animate V2. Вы можете использовать обнаруженные рамки из PoseAndFaceDetection
или нарисовать быстрые положительные точки, если необходимо, чтобы уточнить матовую. Соедините это с GrowMaskWithBlur
для более чистых краев на быстром движении и просмотрите результат с экспортом предварительного просмотра маски. Ссылка: Segment Anything 2.
WanVideoClipVisionEncode
(#70)
Кодирует референсное изображение с помощью CLIP Vision, чтобы захватить подсказки идентичности, такие как структура лица, волосы и одежда. Вы можете усреднить несколько референсных изображений, чтобы стабилизировать идентичность, или использовать негативное изображение, чтобы подавить нежелательные черты. Центральные обрезки с согласованным освещением помогают создать более сильные встраивания.
WanVideoAnimateEmbeds
(#62)
Объединяет признаки идентичности, изображения поз, обрезки лица, необязательные фоновые кадры и маску SAM 2 в одно встраивание анимации. Совместите ширину
, высоту
и количество_кадров
с вашим управляющим видео для меньшего количества артефактов. Если вы видите дрейф фона, предоставьте чистые фоновые кадры и надежную маску; если дрейфует лицо, убедитесь, что обрезки лица присутствуют и хорошо освещены.
WanVideoSampler
(#27)
Создает фактические латенты видео, направляемые вашей подсказкой, LoRAs и анимационным встраиванием. Для длинных клипов выберите между стратегией скользящего окна или контекстными опциями модели; соответствуйте оконный режим длине клипа, чтобы сбалансировать резкость движения и долгосрочную согласованность. Настройте планировщик и силу направляющих, чтобы сбалансировать качество, соответствие стилю и плавность движения, и рассмотрите возможность включения обмена блоками, если ваша стека LoRA выиграет от этого.
Полезные ресурсы, использованные в этом рабочем процессе:
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем рабочий процесс Benji’s AI Playground и команду Wan за модель Wan 2.2 Animate V2 за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.
Примечание: Использование ссылочных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.