Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи

Этот рабочий процесс был создан в сотрудничестве с MDMZ. Для детального обзора и творческих советов, посетите YouTube канал MDMZ!

ComfyUI Wan 2.2 Animate: Swap Characters & Lip-Sync Workflow

Wan 2.2 Animate: Swap Characters & Lip-Sync Workflow | ComfyUI

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan 2.2 Animate: Swap Characters & Lip-Sync Examples

Учебник по Рабочему Процессу#

Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи#

Замените любого спикера в кадре своим собственным персонажем, сохраняя движения, выражения и формы рта, выровненные с оригинальным аудио. Этот рабочий процесс ComfyUI, построенный на основе Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи, определяет позу тела и кадры лица из входного видео, перенаправляет их на одно эталонное изображение и создает согласованный, синхронизированный с речью результат.

Рабочий процесс подходит для редакторов, создателей и исследователей, которые хотят надежной замены персонажей для интервью, роликов, VTubing, слайдов или дубляжных короткометражек. Предоставьте исходный клип и одно чистое эталонное изображение; конвейер воссоздает позу и артикуляцию губ на новом персонаже и объединяет оригинальный саундтрек в финальный экспорт.

Ключевые модели в рабочем процессе Comfyui Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи#

Wan 2.2 Animate 14B (FP8 scaled): основной генератор видео, который синтезирует перенаправленного персонажа через кадры, используя сигналы позы, лица и контекста. Model hub
Wan 2.1 VAE (bf16): кодирует/декодирует латенты видео, используемые Wan во время выборки и вывода. Weights
UMT5‑XXL Text Encoder (bf16): создает текстовые эмбеддинги для легкого запроса или описаний кадров. Weights
CLIP Vision H: извлекает надежные признаки изображения из эталонного портрета для сохранения идентичности. Weights
Lightx2v I2V 14B LoRA: улучшает стабильность и достоверность изображения-видео при управлении эталонными кадрами. LoRA
Wan22 Relight LoRA: помогает сохранить консистентность освещения и перезасветки на протяжении кадра. LoRA
YOLOv10m (ONNX): быстрая детекция человека/лица, используемая перед оценкой позы. Model
ViTPose WholeBody Large (ONNX): высококачественные ключевые точки скелета для передачи движения всего тела. Model
Segment Anything 2.1: сегментация для чистых масок переднего плана, которые направляют замену. Repo

Как использовать рабочий процесс Comfyui Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи#

График проходит через семь групп: загрузка входных данных, создание эталона, предварительная обработка позы/лица и масок, загрузка моделей генерации, выполнение замены персонажей, предварительный просмотр диагностики, затем экспорт с аудио.

Загрузка видео#

Импортируйте свой исходный клип с помощью VHS_LoadVideo (#63). Узел предоставляет опциональную ширину/высоту для изменения размера и выводит кадры видео, аудио и количество кадров для дальнейшего использования. Обрежьте клип ближе к говорящей части, если хотите ускорить обработку. Аудио передается экспортеру, чтобы финальное видео оставалось синхронизированным с оригинальным саундтреком.

Эталонное изображение#

Предоставьте одно, чистое портретное изображение целевого персонажа. Изображение изменяется с помощью ImageResizeKJv2 (#64) для соответствия вашему рабочему разрешению и сохраняется как канонический эталон, используемый CLIP Vision и генератором. Предпочтение отдается четкому, фронтально направленному изображению при освещении, похожем на ваш исходный кадр, чтобы уменьшить цветовой и теневой дрейф.

Предварительная обработка#

OnnxDetectionModelLoader (#178) загружает YOLO и ViTPose, затем PoseAndFaceDetection (#172) анализирует каждый кадр для получения ключевых точек всего тела и обрезок лица по кадрам. Sam2Segmentation (#104) создает маску переднего плана, используя либо обнаруженные ограничивающие рамки, либо ключевые точки; если один из намеков не удается, переключитесь на другой для лучшего разделения. Маска уточняется с помощью GrowMaskWithBlur (#182) и блокируется с помощью BlockifyMask (#108), чтобы дать генератору стабильную, однозначную область субъекта. Опциональные наложения (DrawViTPose (#173) и DrawMaskOnImage (#99)) помогают визуально проверить покрытие позы и качество маски перед генерацией.

Модели#

WanVideoModelLoader (#22) загружает Wan 2.2 Animate 14B, а WanVideoVAELoader (#38) предоставляет VAE. Функции идентичности из эталонного портрета кодируются с помощью CLIPVisionLoader (#71) и WanVideoClipVisionEncode (#70). Стиль и стабильность настраиваются с помощью WanVideoLoraSelectMulti (#171), в то время как WanVideoSetLoRAs (#48) и WanVideoSetBlockSwap (#50) применяют LoRA и настройки блок-свапа к модели; эти инструменты берутся из библиотеки обертки Wan. См. ComfyUI‑WanVideoWrapper для деталей реализации.

Замена персонажей#

WanVideoTextEncodeCached (#65) принимает короткий описательный запрос, если вы хотите подправить внешний вид или настроение кадра. WanVideoAnimateEmbeds (#62) объединяет эталонное изображение, позы по кадрам, обрезки лица, фон и маску в эмбеддинги изображения, которые сохраняют идентичность, одновременно соответствуя движению и формам рта. WanVideoSampler (#27) затем рендерит кадры; его планировщик и шаги контролируют компромисс между резкостью и движением. Декодированные кадры из WanVideoDecode (#28) передаются инспекторам размера/количества, чтобы вы могли подтвердить размеры перед экспортом.

Коллаж результатов#

Для быстрой проверки качества рабочий процесс объединяет ключевые входные данные с ImageConcatMulti (#77, #66), чтобы сформировать простую полосу сравнения эталона, обрезок лица, визуализации позы и необработанного кадра. Используйте его для проверки идентификационных подсказок и форм рта сразу после тестового прогона.

Вывод#

VHS_VideoCombine (#30) создает финальное видео и объединяет оригинальное аудио для идеального синхронизирования. Дополнительные экспортеры включены, чтобы вы могли сохранить промежуточные диагностики или альтернативные версии, если это необходимо. Для получения лучших результатов на более длинных клипах сначала экспортируйте короткий тест, затем экспериментируйте с миксами LoRA и масками перед тем, как приступать к полному рендеру.

Ключевые узлы в рабочем процессе Comfyui Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи#

VHS_LoadVideo (#63) Загружает кадры и оригинальное аудио за один шаг. Используйте его, чтобы установить рабочее разрешение, которое соответствует вашему бюджету GPU, и подтвердить количество кадров, которое будут использовать последующие узлы. Из ComfyUI‑VideoHelperSuite.

PoseAndFaceDetection (#172) Запускает YOLO и ViTPose для извлечения рамок людей, ключевых точек всего тела и обрезок лица по кадрам. Хорошие ключевые точки являются основой достоверной передачи движения и напрямую используются для артикуляции губ. Из ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104) Создает маску переднего плана вокруг объекта, используя либо ограничивающие рамки, либо ключевые точки. Если волосы или руки пропущены, переключите тип подсказки или расширьте настройки размытия/роста перед блокированием. Из ComfyUI‑segment‑anything‑2.

WanVideoLoraSelectMulti (#171) Позволяет вам смешивать LoRA, такие как Lightx2v и Wan22 Relight, чтобы сбалансировать стабильность движения, консистентность освещения и силу идентичности. Увеличьте вес LoRA для большего влияния, но следите за переусложнением на лицах. Из ComfyUI‑WanVideoWrapper.

WanVideoAnimateEmbeds (#62) Объединяет эталонный портрет, изображения поз, обрезки лица, фоновые кадры и маску в компактное представление, которое обусловливает Wan 2.2 Animate. Убедитесь, что width, height и num_frames соответствуют вашему предполагаемому экспорту, чтобы избежать артефактов пересэмплирования. Из ComfyUI‑WanVideoWrapper.

WanVideoSampler (#27) Создает финальные кадры. Используйте более высокие шаги и более устойчивый планировщик, когда вам нужны более четкие детали, или более легкий график для быстрых предварительных просмотров. Для очень длинных клипов вы можете опционально ввести контекстные окна управления, подключив WanVideoContextOptions (#110), чтобы поддерживать временную согласованность между окнами.

VHS_VideoCombine (#30) Экспортирует готовое видео и объединяет оригинальное аудио, чтобы движения губ оставались синхронизированными. Опция обрезки до аудио поддерживает длительность, выровненную с саундтреком. Из ComfyUI‑VideoHelperSuite.

Опциональные дополнения#

Используйте четкий, фронтально направленный эталон с нейтральными губами для самого чистого переноса идентичности; избегайте тяжелого макияжа или преград.
Если сегментация пропускает волосы или аксессуары, попробуйте переключить подсказки Sam2Segmentation между ограничивающими рамками и ключевыми точками, затем слегка увеличьте маску перед блокированием.
Lightx2v LoRA улучшает стабильность I2V; Wan22 Relight LoRA помогает сопоставить несоответствующее освещение. Небольшие изменения веса могут устранить мерцание без переусложнения внешнего вида.
Блок-свап может уменьшить дрейф идентичности на длинных кадрах; если лица смягчаются со временем, включите его в WanVideoSetBlockSwap (#50) и проведите повторное тестирование.
Держите рабочее разрешение пропорциональным исходному, чтобы избежать искажения аспектов; увеличивайте размер только тогда, когда эталонное изображение достаточно детализировано, чтобы это поддержать.
Для производительных сред, включение компиляции torch и эффективного внимания в узлах обертки может ускорить выборку; см. ComfyUI‑WanVideoWrapper для руководства.

Этот рабочий процесс Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи обеспечивает стабильную передачу движения и синхронизацию форм рта с минимальной настройкой, делая качественную замену персонажей быстрой и повторяемой внутри ComfyUI.

Благодарности#

Этот рабочий процесс реализует и строится на основе следующих работ и ресурсов. Мы искренне благодарим @MDMZ за создание всего рабочего процесса, Kijai за WAN 2.2 Animate и связанные узлы ComfyUI, Wan-AI за активы Wan2.2-Animate, включая детекцию YOLOv10m, и Comfy-Org за модель Wan 2.1 Clip Vision за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Учебник по Рабочему Процессу
- Youtube: ComfyUI-Tutorial от @MDMZ

Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.

Want More ComfyUI Workflows?

Wan 2.2 Lightning T2V I2V | 4-шаговая ультрабыстрая

Wan 2.2 теперь в 20 раз быстрее! T2V + I2V в 4 шага.

Wan 2.2 + Lightx2v V2 | Сверхбыстрое I2V & T2V

Двойная настройка Light LoRA, в 4 раза быстрее.

Wan 2.2 FLF2V | Генерация видео из первого и последнего кадров

Создавайте плавные видео из начального и конечного кадра с помощью Wan 2.2 FLF2V.

Wan 2.2 | Лидер в открытой генерации видео

Доступно сейчас! Лучшая точность + более плавное движение.

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

Wan 2.2 Low Vram | Обёртка Kijai

Низкая видеопамять. Больше никакого ожидания. Обёртка Kijai включена.

LTX Video | Изображение+Текст в Видео

Создает видео из подсказок изображение+текст.

Изображение Nunchaku Qwen | Редактор для нескольких изображений

Смешивайте и стилизуйте несколько изображений с контролем следующего уровня.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Wan 2.2 Анимация | Замена Персонажей и Синхронизация Речи