Учебник по Рабочему Процессу
Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи
Замените любого спикера в кадре своим собственным персонажем, сохраняя движения, выражения и формы рта, выровненные с оригинальным аудио. Этот рабочий процесс ComfyUI, построенный на основе Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи, определяет позу тела и кадры лица из входного видео, перенаправляет их на одно эталонное изображение и создает согласованный, синхронизированный с речью результат.
Рабочий процесс подходит для редакторов, создателей и исследователей, которые хотят надежной замены персонажей для интервью, роликов, VTubing, слайдов или дубляжных короткометражек. Предоставьте исходный клип и одно чистое эталонное изображение; конвейер воссоздает позу и артикуляцию губ на новом персонаже и объединяет оригинальный саундтрек в финальный экспорт.
Ключевые модели в рабочем процессе Comfyui Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи
- Wan 2.2 Animate 14B (FP8 scaled): основной генератор видео, который синтезирует перенаправленного персонажа через кадры, используя сигналы позы, лица и контекста. Model hub
- Wan 2.1 VAE (bf16): кодирует/декодирует латенты видео, используемые Wan во время выборки и вывода. Weights
- UMT5‑XXL Text Encoder (bf16): создает текстовые эмбеддинги для легкого запроса или описаний кадров. Weights
- CLIP Vision H: извлекает надежные признаки изображения из эталонного портрета для сохранения идентичности. Weights
- Lightx2v I2V 14B LoRA: улучшает стабильность и достоверность изображения-видео при управлении эталонными кадрами. LoRA
- Wan22 Relight LoRA: помогает сохранить консистентность освещения и перезасветки на протяжении кадра. LoRA
- YOLOv10m (ONNX): быстрая детекция человека/лица, используемая перед оценкой позы. Model
- ViTPose WholeBody Large (ONNX): высококачественные ключевые точки скелета для передачи движения всего тела. Model
- Segment Anything 2.1: сегментация для чистых масок переднего плана, которые направляют замену. Repo
Как использовать рабочий процесс Comfyui Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи
График проходит через семь групп: загрузка входных данных, создание эталона, предварительная обработка позы/лица и масок, загрузка моделей генерации, выполнение замены персонажей, предварительный просмотр диагностики, затем экспорт с аудио.
Загрузка видео
Импортируйте свой исходный клип с помощью VHS_LoadVideo (#63). Узел предоставляет опциональную ширину/высоту для изменения размера и выводит кадры видео, аудио и количество кадров для дальнейшего использования. Обрежьте клип ближе к говорящей части, если хотите ускорить обработку. Аудио передается экспортеру, чтобы финальное видео оставалось синхронизированным с оригинальным саундтреком.
Эталонное изображение
Предоставьте одно, чистое портретное изображение целевого персонажа. Изображение изменяется с помощью ImageResizeKJv2 (#64) для соответствия вашему рабочему разрешению и сохраняется как канонический эталон, используемый CLIP Vision и генератором. Предпочтение отдается четкому, фронтально направленному изображению при освещении, похожем на ваш исходный кадр, чтобы уменьшить цветовой и теневой дрейф.
Предварительная обработка
OnnxDetectionModelLoader (#178) загружает YOLO и ViTPose, затем PoseAndFaceDetection (#172) анализирует каждый кадр для получения ключевых точек всего тела и обрезок лица по кадрам. Sam2Segmentation (#104) создает маску переднего плана, используя либо обнаруженные ограничивающие рамки, либо ключевые точки; если один из намеков не удается, переключитесь на другой для лучшего разделения. Маска уточняется с помощью GrowMaskWithBlur (#182) и блокируется с помощью BlockifyMask (#108), чтобы дать генератору стабильную, однозначную область субъекта. Опциональные наложения (DrawViTPose (#173) и DrawMaskOnImage (#99)) помогают визуально проверить покрытие позы и качество маски перед генерацией.
Модели
WanVideoModelLoader (#22) загружает Wan 2.2 Animate 14B, а WanVideoVAELoader (#38) предоставляет VAE. Функции идентичности из эталонного портрета кодируются с помощью CLIPVisionLoader (#71) и WanVideoClipVisionEncode (#70). Стиль и стабильность настраиваются с помощью WanVideoLoraSelectMulti (#171), в то время как WanVideoSetLoRAs (#48) и WanVideoSetBlockSwap (#50) применяют LoRA и настройки блок-свапа к модели; эти инструменты берутся из библиотеки обертки Wan. См. ComfyUI‑WanVideoWrapper для деталей реализации.
Замена персонажей
WanVideoTextEncodeCached (#65) принимает короткий описательный запрос, если вы хотите подправить внешний вид или настроение кадра. WanVideoAnimateEmbeds (#62) объединяет эталонное изображение, позы по кадрам, обрезки лица, фон и маску в эмбеддинги изображения, которые сохраняют идентичность, одновременно соответствуя движению и формам рта. WanVideoSampler (#27) затем рендерит кадры; его планировщик и шаги контролируют компромисс между резкостью и движением. Декодированные кадры из WanVideoDecode (#28) передаются инспекторам размера/количества, чтобы вы могли подтвердить размеры перед экспортом.
Коллаж результатов
Для быстрой проверки качества рабочий процесс объединяет ключевые входные данные с ImageConcatMulti (#77, #66), чтобы сформировать простую полосу сравнения эталона, обрезок лица, визуализации позы и необработанного кадра. Используйте его для проверки идентификационных подсказок и форм рта сразу после тестового прогона.
Вывод
VHS_VideoCombine (#30) создает финальное видео и объединяет оригинальное аудио для идеального синхронизирования. Дополнительные экспортеры включены, чтобы вы могли сохранить промежуточные диагностики или альтернативные версии, если это необходимо. Для получения лучших результатов на более длинных клипах сначала экспортируйте короткий тест, затем экспериментируйте с миксами LoRA и масками перед тем, как приступать к полному рендеру.
Ключевые узлы в рабочем процессе Comfyui Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи
VHS_LoadVideo (#63) Загружает кадры и оригинальное аудио за один шаг. Используйте его, чтобы установить рабочее разрешение, которое соответствует вашему бюджету GPU, и подтвердить количество кадров, которое будут использовать последующие узлы. Из ComfyUI‑VideoHelperSuite.
PoseAndFaceDetection (#172) Запускает YOLO и ViTPose для извлечения рамок людей, ключевых точек всего тела и обрезок лица по кадрам. Хорошие ключевые точки являются основой достоверной передачи движения и напрямую используются для артикуляции губ. Из ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104) Создает маску переднего плана вокруг объекта, используя либо ограничивающие рамки, либо ключевые точки. Если волосы или руки пропущены, переключите тип подсказки или расширьте настройки размытия/роста перед блокированием. Из ComfyUI‑segment‑anything‑2.
WanVideoLoraSelectMulti (#171) Позволяет вам смешивать LoRA, такие как Lightx2v и Wan22 Relight, чтобы сбалансировать стабильность движения, консистентность освещения и силу идентичности. Увеличьте вес LoRA для большего влияния, но следите за переусложнением на лицах. Из ComfyUI‑WanVideoWrapper.
WanVideoAnimateEmbeds (#62) Объединяет эталонный портрет, изображения поз, обрезки лица, фоновые кадры и маску в компактное представление, которое обусловливает Wan 2.2 Animate. Убедитесь, что width, height и num_frames соответствуют вашему предполагаемому экспорту, чтобы избежать артефактов пересэмплирования. Из ComfyUI‑WanVideoWrapper.
WanVideoSampler (#27) Создает финальные кадры. Используйте более высокие шаги и более устойчивый планировщик, когда вам нужны более четкие детали, или более легкий график для быстрых предварительных просмотров. Для очень длинных клипов вы можете опционально ввести контекстные окна управления, подключив WanVideoContextOptions (#110), чтобы поддерживать временную согласованность между окнами.
VHS_VideoCombine (#30) Экспортирует готовое видео и объединяет оригинальное аудио, чтобы движения губ оставались синхронизированными. Опция обрезки до аудио поддерживает длительность, выровненную с саундтреком. Из ComfyUI‑VideoHelperSuite.
Опциональные дополнения
- Используйте четкий, фронтально направленный эталон с нейтральными губами для самого чистого переноса идентичности; избегайте тяжелого макияжа или преград.
- Если сегментация пропускает волосы или аксессуары, попробуйте переключить подсказки
Sam2Segmentationмежду ограничивающими рамками и ключевыми точками, затем слегка увеличьте маску перед блокированием. - Lightx2v LoRA улучшает стабильность I2V; Wan22 Relight LoRA помогает сопоставить несоответствующее освещение. Небольшие изменения веса могут устранить мерцание без переусложнения внешнего вида.
- Блок-свап может уменьшить дрейф идентичности на длинных кадрах; если лица смягчаются со временем, включите его в
WanVideoSetBlockSwap(#50) и проведите повторное тестирование. - Держите рабочее разрешение пропорциональным исходному, чтобы избежать искажения аспектов; увеличивайте размер только тогда, когда эталонное изображение достаточно детализировано, чтобы это поддержать.
- Для производительных сред, включение компиляции torch и эффективного внимания в узлах обертки может ускорить выборку; см. ComfyUI‑WanVideoWrapper для руководства.
Этот рабочий процесс Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи обеспечивает стабильную передачу движения и синхронизацию форм рта с минимальной настройкой, делая качественную замену персонажей быстрой и повторяемой внутри ComfyUI.
Благодарности
Этот рабочий процесс реализует и строится на основе следующих работ и ресурсов. Мы искренне благодарим @MDMZ за создание всего рабочего процесса, Kijai за WAN 2.2 Animate и связанные узлы ComfyUI, Wan-AI за активы Wan2.2-Animate, включая детекцию YOLOv10m, и Comfy-Org за модель Wan 2.1 Clip Vision за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- Учебник по Рабочему Процессу
- Youtube: ComfyUI-Tutorial от @MDMZ
Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.
