Этот рабочий процесс применяет Wan 2.1 Ditto для переработки любого входного видео, сохраняя структуру сцены и движение. Он предназначен для редакторов и создателей, которые хотят получить кинематографические, художественные или экспериментальные образы с сильной временной согласованностью. Вы загружаете клип, описываете целевой образ, и Wan 2.1 Ditto создает чистый стилизованный рендеринг плюс необязательное сравнение "до и после" для быстрого обзора.
График объединяет текст-видео основу Wan 2.1 с переносом стиля Ditto на уровне модели, чтобы изменения происходили согласованно по кадрам, а не как фильтры покадрово. Общие случаи использования включают преобразования в аниме, пиксельное искусство, клеймейшн, акварель, стимпанк или редактирование симуляции в реальность. Если вы уже создаете контент с Wan, этот рабочий процесс Wan 2.1 Ditto легко интегрируется в ваш конвейер для надежной, без мерцания стилизации видео.
Рабочий процесс выполняется в четыре этапа: загрузка моделей, подготовка входного видео, кодирование текста и визуалов, затем сэмплирование и экспорт. Группы работают последовательно, чтобы создать как стилизованный рендеринг, так и необязательное сравнение "до и после".
Эта группа готовит все, что нужно Wan 2.1 Ditto. Базовая основа загружается с помощью WanVideoModelLoader (#130) и соединяется с WanVideoVAELoader (#60) и LoadWanVideoT5TextEncoder (#80). Компонент Ditto выбирается с помощью WanVideoVACEModelSelect (#128), который указывает основу на выделенные веса стилизации Ditto. Если вам нужна более сильная трансформация, вы можете подключить LoRA с помощью WanVideoLoraSelect (#122). WanVideoBlockSwap (#68) доступен для управления памятью, чтобы более крупные модели могли работать плавно на ограниченном VRAM.
Загрузите ваш исходный клип с помощью VHS_LoadVideo (#101). Затем кадры изменяются для согласованной геометрии с использованием LayerUtility: ImageScaleByAspectRatio V2 (#76), который сохраняет аспект при нацеливании на разрешение длинной стороны, контролируемое простым целым числом JWInteger (#89). GetImageSizeAndCount (#65) считывает подготовленные кадры и передает ширину, высоту и количество кадров в нижестоящие узлы, чтобы Wan 2.1 Ditto сэмплировал правильный пространственный размер и продолжительность. Включен небольшой помощник подсказок CR Text (#104), если вы предпочитаете создавать подсказку в собственном поле. Группа под названием "Maximum Variation Limit" напоминает вам держать целевую длину пикселя в практическом диапазоне для согласованных результатов и стабильного использования памяти.
Кондиционирование происходит в двух параллельных линиях. WanVideoTextEncode (#111) превращает вашу подсказку в текстовые встраивания, определяющие намерение и стиль. WanVideoVACEEncode (#126) кодирует подготовленное видео в визуальные встраивания, которые сохраняют структуру и движение для редактирования. Необязательный модуль руководства WanVideoSLG (#129) контролирует, как модель балансирует стиль и содержание через траекторию удаления шума. WanVideoSampler (#119) затем объединяет основу Wan 2.1 с Ditto, текстовыми встраиваниями и визуальными встраиваниями для создания стилизованных латентов. Наконец, WanVideoDecode (#87) восстанавливает кадры из латентов, чтобы создать стилизованную последовательность с временной согласованностью, известной Wan 2.1 Ditto.
Основной экспорт использует VHS_VideoCombine (#95) для сохранения рендеринга Wan 2.1 Ditto на выбранной вами частоте кадров. Для быстрого обзора график объединяет оригинальные и стилизованные кадры с помощью ImageConcatMulti (#94), изменяет размер сравнения с помощью ImageScaleToTotalPixels (#133) и записывает фильм "до и после" через VHS_VideoCombine (#100). Обычно вы получаете два видео в выходной папке: чистый стилизованный рендеринг и клип сравнения, который помогает заинтересованным сторонам быстрее утверждать или итеративно работать.
Вы можете начать с коротких, четких подсказок и итеративно работать. Примеры, которые хорошо работают с Wan 2.1 Ditto:
WanVideoVACEModelSelect (#128)
Выберите, какие веса Ditto использовать для стилизации. Модель глобальной Ditto по умолчанию является сбалансированным выбором для большинства кадров. Если ваша цель — преобразование из аниме в реальность, выберите вариант sim‑to‑real Ditto, упомянутый в примечании к узлу. Переключение вариантов Ditto изменяет характер переработки, не затрагивая другие настройки.
WanVideoVACEEncode (#126)
Создает визуальное кондиционирование из ваших входных кадров. Основные элементы управления — это width, height и num_frames, которые должны соответствовать подготовленному видео для наилучших результатов. Используйте strength, чтобы регулировать, насколько настойчиво стиль Ditto влияет на редактирование, и vace_start_percent и vace_end_percent, чтобы ограничить, когда кондиционирование применяется в течение траектории диффузии. Включите tiled_vae на очень больших разрешениях, чтобы уменьшить нагрузку на память.
WanVideoTextEncode (#111)
Кодирует положительные и отрицательные подсказки через энкодер mT5‑XXL для управления стилем и содержанием. Держите положительные подсказки краткими и описательными, а отрицательные используйте для подавления таких артефактов, как мерцание или перенасыщенность. Опции force_offload и device позволяют обменивать скорость на память, если вы запускаете большие модели.
WanVideoSampler (#119)
Запускает основу Wan 2.1 с стилизацией Ditto для генерации окончательных латентов. Наиболее значимые настройки — это steps, cfg, scheduler и seed. Используйте denoise_strength, когда хотите сохранить больше оригинальной структуры, и держите slg_args подключенными, чтобы сбалансировать точность содержания с силой стиля. Увеличение шагов или руководства может улучшить детали за счет времени.
ImageScaleByAspectRatio V2 (#76)
Устанавливает стабильный целевой размер для всех кадров перед кондиционированием. Управляйте целевой длиной стороны с помощью отдельного целого числа, чтобы вы могли тестировать небольшие, быстрые предварительные просмотры, а затем увеличивать разрешение для окончательных рендеров. Держите масштаб постоянным между итерациями, чтобы сделать сравнения A/B значимыми.
VHS_LoadVideo (#101) и VHS_VideoCombine (#95, #100)
Эти узлы обрабатывают декодирование и кодирование. Сопоставляйте частоту кадров с исходной, когда вам важно время. Писатель сравнения полезен во время исследования и может быть отключен для окончательных экспортов, если вы хотите только стилизованный результат.
WanVideoVACEModelSelect перед сэмплированием.Этот рабочий процесс Wan 2.1 Ditto делает высококачественную переработку видео предсказуемой и быстрой, с чистыми подсказками, согласованным движением и выходами, готовыми для немедленного обзора или доставки.
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарны EzioBy за Wan 2.1 Ditto Source за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, связанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.