Этот рабочий процесс предоставляет полный цикл замены персонажей в видео (MoCha): замените исполнителя в реальном видео на нового персонажа, сохраняя движение, освещение, перспективу камеры и непрерывность сцены. Построен на основе предварительного просмотра Wan 2.1 MoCha 14B, он выравнивает эталонную идентичность с исходным исполнением, затем синтезирует согласованный, отредактированный клип и дополнительное сравнение бок о бок. Он разработан для кинематографистов, художников VFX и создателей ИИ, которым нужны точные, высококачественные замены персонажей с минимальной ручной доработкой.
Конвейер сочетает в себе надежное маскирование первого кадра с Segment Anything 2 (SAM 2), осведомленные о движении встраивания изображений MoCha, выборку/декодирование WanVideo и дополнительную помощь в портретах, которая улучшает сохранение лица. Вы предоставляете исходное видео и одно или два эталонных изображения; рабочий процесс создает готовое видео с заменой плюс сравнение A/B, что делает итеративную оценку замены персонажей в видео (MoCha) быстрой и практичной.
Wan 2.1 MoCha 14B preview. Основной генератор видео для замены персонажей; обеспечивает временно согласованный синтез из встраиваний изображений MoCha и текстовых подсказок. Вес модели распространяется в формате WanVideo Comfy от Kijai, включая масштабированные варианты fp8 для эффективности. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Метод кондиционирования идентичности/движения и эталонная реализация, вдохновившая этап встраивания, используемый здесь; полезно для понимания выбора эталона и выравнивания позы для замены персонажей в видео (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Высококачественная сегментация, управляемая точками, для изоляции актера в первом кадре; чистые маски имеют решающее значение для стабильных, без артефактов замен. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Дополнительная помощь для одного изображения, которая генерирует чистый, крупный портрет для использования в качестве второго эталона, улучшая сохранение идентичности лица в сложных кадрах. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. Видео VAE, используемая этапами выборки/декодирования Wan для эффективной обработки латентов. Hugging Face: Kijai/WanVideo_comfy
Общая логика
Исходное видео
Маска первого кадра
ref1
ref2 (необязательно)
Шаг 1 - Загрузка моделей
Шаг 2 - Загрузите изображение для редактирования
Шаг 4 - Подсказка
Сцена 2 - Выборка
Mocha
MochaEmbeds кодирует исходное видео, маску первого кадра и ваши эталонные изображения в встраивания изображений MoCha. Встраивания захватывают идентичность, текстуру и локальные признаки внешности, уважая оригинальную траекторию движения. Если ref2 существует, он используется для усиления деталей лица; в противном случае, только ref1 несет идентичность.Модель Wan
Выборка Wan
MochaEmbeds (#302). Кодирует исходный клип, маску первого кадра и эталонные изображения в встраивания изображений MoCha, которые управляют идентичностью и внешностью. Предпочтите позу ref1, которая соответствует первому кадру, и включите ref2 для чистого лица, если вы видите дрейф. Если края мерцают, немного увеличьте маску перед встраиванием, чтобы избежать утечки фона.
Sam2Segmentation (#326). Преобразует ваши положительные/отрицательные клики в маску первого кадра. Приоритетом являются чистые края вокруг волос и плеч; добавьте несколько отрицательных точек, чтобы исключить близлежащие реквизиты. Увеличение маски на небольшое количество после сегментации помогает стабильности, когда актер движется.
WanVideoSampler (#314). Выполняет основную работу по замене персонажей в видео (MoCha), удаляя шум из латентов в кадры. Больше шагов улучшает детализацию и временную стабильность; меньше шагов ускоряет итерацию. Держите планировщик последовательным между запусками, когда вы сравниваете изменения эталонов или масок.
WanVideoSetBlockSwap (#344). Когда VRAM ограничен, включите более глубокую замену блоков, чтобы разместить путь Wan 2.1 MoCha 14B на меньших GPU. Ожидайте некоторой потери скорости; взамен вы можете сохранить разрешение и длину последовательности.
VHS_VideoCombine (#355). Записывает окончательный MP4 и встраивает метаданные рабочего процесса. Используйте ту же частоту кадров, что и у источника (уже подключена), и вывод yuv420p для широкой совместимости с проигрывателями.
Советы для чистых замен
Полезные ссылки
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим "Benji’s AI Playground" за их вклад и поддержку замены персонажей в видео (MoCha). Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.
Примечание: использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.