Замените любого спикера в кадре своим собственным персонажем, сохраняя движения, выражения и формы рта, выровненные с оригинальным аудио. Этот рабочий процесс ComfyUI, построенный на основе Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи, определяет позу тела и кадры лица из входного видео, перенаправляет их на одно эталонное изображение и создает согласованный, синхронизированный с речью результат.
Рабочий процесс подходит для редакторов, создателей и исследователей, которые хотят надежной замены персонажей для интервью, роликов, VTubing, слайдов или дубляжных короткометражек. Предоставьте исходный клип и одно чистое эталонное изображение; конвейер воссоздает позу и артикуляцию губ на новом персонаже и объединяет оригинальный саундтрек в финальный экспорт.
График проходит через семь групп: загрузка входных данных, создание эталона, предварительная обработка позы/лица и масок, загрузка моделей генерации, выполнение замены персонажей, предварительный просмотр диагностики, затем экспорт с аудио.
Импортируйте свой исходный клип с помощью VHS_LoadVideo (#63). Узел предоставляет опциональную ширину/высоту для изменения размера и выводит кадры видео, аудио и количество кадров для дальнейшего использования. Обрежьте клип ближе к говорящей части, если хотите ускорить обработку. Аудио передается экспортеру, чтобы финальное видео оставалось синхронизированным с оригинальным саундтреком.
Предоставьте одно, чистое портретное изображение целевого персонажа. Изображение изменяется с помощью ImageResizeKJv2 (#64) для соответствия вашему рабочему разрешению и сохраняется как канонический эталон, используемый CLIP Vision и генератором. Предпочтение отдается четкому, фронтально направленному изображению при освещении, похожем на ваш исходный кадр, чтобы уменьшить цветовой и теневой дрейф.
OnnxDetectionModelLoader (#178) загружает YOLO и ViTPose, затем PoseAndFaceDetection (#172) анализирует каждый кадр для получения ключевых точек всего тела и обрезок лица по кадрам. Sam2Segmentation (#104) создает маску переднего плана, используя либо обнаруженные ограничивающие рамки, либо ключевые точки; если один из намеков не удается, переключитесь на другой для лучшего разделения. Маска уточняется с помощью GrowMaskWithBlur (#182) и блокируется с помощью BlockifyMask (#108), чтобы дать генератору стабильную, однозначную область субъекта. Опциональные наложения (DrawViTPose (#173) и DrawMaskOnImage (#99)) помогают визуально проверить покрытие позы и качество маски перед генерацией.
WanVideoModelLoader (#22) загружает Wan 2.2 Animate 14B, а WanVideoVAELoader (#38) предоставляет VAE. Функции идентичности из эталонного портрета кодируются с помощью CLIPVisionLoader (#71) и WanVideoClipVisionEncode (#70). Стиль и стабильность настраиваются с помощью WanVideoLoraSelectMulti (#171), в то время как WanVideoSetLoRAs (#48) и WanVideoSetBlockSwap (#50) применяют LoRA и настройки блок-свапа к модели; эти инструменты берутся из библиотеки обертки Wan. См. ComfyUI‑WanVideoWrapper для деталей реализации.
WanVideoTextEncodeCached (#65) принимает короткий описательный запрос, если вы хотите подправить внешний вид или настроение кадра. WanVideoAnimateEmbeds (#62) объединяет эталонное изображение, позы по кадрам, обрезки лица, фон и маску в эмбеддинги изображения, которые сохраняют идентичность, одновременно соответствуя движению и формам рта. WanVideoSampler (#27) затем рендерит кадры; его планировщик и шаги контролируют компромисс между резкостью и движением. Декодированные кадры из WanVideoDecode (#28) передаются инспекторам размера/количества, чтобы вы могли подтвердить размеры перед экспортом.
Для быстрой проверки качества рабочий процесс объединяет ключевые входные данные с ImageConcatMulti (#77, #66), чтобы сформировать простую полосу сравнения эталона, обрезок лица, визуализации позы и необработанного кадра. Используйте его для проверки идентификационных подсказок и форм рта сразу после тестового прогона.
VHS_VideoCombine (#30) создает финальное видео и объединяет оригинальное аудио для идеального синхронизирования. Дополнительные экспортеры включены, чтобы вы могли сохранить промежуточные диагностики или альтернативные версии, если это необходимо. Для получения лучших результатов на более длинных клипах сначала экспортируйте короткий тест, затем экспериментируйте с миксами LoRA и масками перед тем, как приступать к полному рендеру.
VHS_LoadVideo (#63)
Загружает кадры и оригинальное аудио за один шаг. Используйте его, чтобы установить рабочее разрешение, которое соответствует вашему бюджету GPU, и подтвердить количество кадров, которое будут использовать последующие узлы. Из ComfyUI‑VideoHelperSuite.
PoseAndFaceDetection (#172)
Запускает YOLO и ViTPose для извлечения рамок людей, ключевых точек всего тела и обрезок лица по кадрам. Хорошие ключевые точки являются основой достоверной передачи движения и напрямую используются для артикуляции губ. Из ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Создает маску переднего плана вокруг объекта, используя либо ограничивающие рамки, либо ключевые точки. Если волосы или руки пропущены, переключите тип подсказки или расширьте настройки размытия/роста перед блокированием. Из ComfyUI‑segment‑anything‑2.
WanVideoLoraSelectMulti (#171)
Позволяет вам смешивать LoRA, такие как Lightx2v и Wan22 Relight, чтобы сбалансировать стабильность движения, консистентность освещения и силу идентичности. Увеличьте вес LoRA для большего влияния, но следите за переусложнением на лицах. Из ComfyUI‑WanVideoWrapper.
WanVideoAnimateEmbeds (#62)
Объединяет эталонный портрет, изображения поз, обрезки лица, фоновые кадры и маску в компактное представление, которое обусловливает Wan 2.2 Animate. Убедитесь, что width, height и num_frames соответствуют вашему предполагаемому экспорту, чтобы избежать артефактов пересэмплирования. Из ComfyUI‑WanVideoWrapper.
WanVideoSampler (#27)
Создает финальные кадры. Используйте более высокие шаги и более устойчивый планировщик, когда вам нужны более четкие детали, или более легкий график для быстрых предварительных просмотров. Для очень длинных клипов вы можете опционально ввести контекстные окна управления, подключив WanVideoContextOptions (#110), чтобы поддерживать временную согласованность между окнами.
VHS_VideoCombine (#30)
Экспортирует готовое видео и объединяет оригинальное аудио, чтобы движения губ оставались синхронизированными. Опция обрезки до аудио поддерживает длительность, выровненную с саундтреком. Из ComfyUI‑VideoHelperSuite.
Sam2Segmentation между ограничивающими рамками и ключевыми точками, затем слегка увеличьте маску перед блокированием.WanVideoSetBlockSwap (#50) и проведите повторное тестирование.Этот рабочий процесс Wan 2.2 Анимация: Замена Персонажей и Синхронизация Речи обеспечивает стабильную передачу движения и синхронизацию форм рта с минимальной настройкой, делая качественную замену персонажей быстрой и повторяемой внутри ComfyUI.
Этот рабочий процесс реализует и строится на основе следующих работ и ресурсов. Мы искренне благодарим @MDMZ за создание всего рабочего процесса, Kijai за WAN 2.2 Animate и связанные узлы ComfyUI, Wan-AI за активы Wan2.2-Animate, включая детекцию YOLOv10m, и Comfy-Org за модель Wan 2.1 Clip Vision за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.