Этот рабочий процесс применяет Wan 2.1 Ditto для переработки любого входного видео, сохраняя структуру сцены и движение. Он предназначен для редакторов и создателей, которые хотят получить кинематографические, художественные или экспериментальные образы с сильной временной согласованностью. Вы загружаете клип, описываете целевой образ, и Wan 2.1 Ditto создает чистый стилизованный рендеринг плюс необязательное сравнение "до и после" для быстрого обзора.
График объединяет текст-видео основу Wan 2.1 с переносом стиля Ditto на уровне модели, чтобы изменения происходили согласованно по кадрам, а не как фильтры покадрово. Общие случаи использования включают преобразования в аниме, пиксельное искусство, клеймейшн, акварель, стимпанк или редактирование симуляции в реальность. Если вы уже создаете контент с Wan, этот рабочий процесс Wan 2.1 Ditto легко интегрируется в ваш конвейер для надежной, без мерцания стилизации видео.
Рабочий процесс выполняется в четыре этапа: загрузка моделей, подготовка входного видео, кодирование текста и визуалов, затем сэмплирование и экспорт. Группы работают последовательно, чтобы создать как стилизованный рендеринг, так и необязательное сравнение "до и после".
Эта группа готовит все, что нужно Wan 2.1 Ditto. Базовая основа загружается с помощью WanVideoModelLoader
(#130) и соединяется с WanVideoVAELoader
(#60) и LoadWanVideoT5TextEncoder
(#80). Компонент Ditto выбирается с помощью WanVideoVACEModelSelect
(#128), который указывает основу на выделенные веса стилизации Ditto. Если вам нужна более сильная трансформация, вы можете подключить LoRA с помощью WanVideoLoraSelect
(#122). WanVideoBlockSwap
(#68) доступен для управления памятью, чтобы более крупные модели могли работать плавно на ограниченном VRAM.
Загрузите ваш исходный клип с помощью VHS_LoadVideo
(#101). Затем кадры изменяются для согласованной геометрии с использованием LayerUtility: ImageScaleByAspectRatio V2
(#76), который сохраняет аспект при нацеливании на разрешение длинной стороны, контролируемое простым целым числом JWInteger
(#89). GetImageSizeAndCount
(#65) считывает подготовленные кадры и передает ширину, высоту и количество кадров в нижестоящие узлы, чтобы Wan 2.1 Ditto сэмплировал правильный пространственный размер и продолжительность. Включен небольшой помощник подсказок CR Text
(#104), если вы предпочитаете создавать подсказку в собственном поле. Группа под названием "Maximum Variation Limit" напоминает вам держать целевую длину пикселя в практическом диапазоне для согласованных результатов и стабильного использования памяти.
Кондиционирование происходит в двух параллельных линиях. WanVideoTextEncode
(#111) превращает вашу подсказку в текстовые встраивания, определяющие намерение и стиль. WanVideoVACEEncode
(#126) кодирует подготовленное видео в визуальные встраивания, которые сохраняют структуру и движение для редактирования. Необязательный модуль руководства WanVideoSLG
(#129) контролирует, как модель балансирует стиль и содержание через траекторию удаления шума. WanVideoSampler
(#119) затем объединяет основу Wan 2.1 с Ditto, текстовыми встраиваниями и визуальными встраиваниями для создания стилизованных латентов. Наконец, WanVideoDecode
(#87) восстанавливает кадры из латентов, чтобы создать стилизованную последовательность с временной согласованностью, известной Wan 2.1 Ditto.
Основной экспорт использует VHS_VideoCombine
(#95) для сохранения рендеринга Wan 2.1 Ditto на выбранной вами частоте кадров. Для быстрого обзора график объединяет оригинальные и стилизованные кадры с помощью ImageConcatMulti
(#94), изменяет размер сравнения с помощью ImageScaleToTotalPixels
(#133) и записывает фильм "до и после" через VHS_VideoCombine
(#100). Обычно вы получаете два видео в выходной папке: чистый стилизованный рендеринг и клип сравнения, который помогает заинтересованным сторонам быстрее утверждать или итеративно работать.
Вы можете начать с коротких, четких подсказок и итеративно работать. Примеры, которые хорошо работают с Wan 2.1 Ditto:
WanVideoVACEModelSelect
(#128)
Выберите, какие веса Ditto использовать для стилизации. Модель глобальной Ditto по умолчанию является сбалансированным выбором для большинства кадров. Если ваша цель — преобразование из аниме в реальность, выберите вариант sim‑to‑real Ditto, упомянутый в примечании к узлу. Переключение вариантов Ditto изменяет характер переработки, не затрагивая другие настройки.
WanVideoVACEEncode
(#126)
Создает визуальное кондиционирование из ваших входных кадров. Основные элементы управления — это width
, height
и num_frames
, которые должны соответствовать подготовленному видео для наилучших результатов. Используйте strength
, чтобы регулировать, насколько настойчиво стиль Ditto влияет на редактирование, и vace_start_percent
и vace_end_percent
, чтобы ограничить, когда кондиционирование применяется в течение траектории диффузии. Включите tiled_vae
на очень больших разрешениях, чтобы уменьшить нагрузку на память.
WanVideoTextEncode
(#111)
Кодирует положительные и отрицательные подсказки через энкодер mT5‑XXL для управления стилем и содержанием. Держите положительные подсказки краткими и описательными, а отрицательные используйте для подавления таких артефактов, как мерцание или перенасыщенность. Опции force_offload
и device
позволяют обменивать скорость на память, если вы запускаете большие модели.
WanVideoSampler
(#119)
Запускает основу Wan 2.1 с стилизацией Ditto для генерации окончательных латентов. Наиболее значимые настройки — это steps
, cfg
, scheduler
и seed
. Используйте denoise_strength
, когда хотите сохранить больше оригинальной структуры, и держите slg_args
подключенными, чтобы сбалансировать точность содержания с силой стиля. Увеличение шагов или руководства может улучшить детали за счет времени.
ImageScaleByAspectRatio V2
(#76)
Устанавливает стабильный целевой размер для всех кадров перед кондиционированием. Управляйте целевой длиной стороны с помощью отдельного целого числа, чтобы вы могли тестировать небольшие, быстрые предварительные просмотры, а затем увеличивать разрешение для окончательных рендеров. Держите масштаб постоянным между итерациями, чтобы сделать сравнения A/B значимыми.
VHS_LoadVideo
(#101) и VHS_VideoCombine
(#95, #100)
Эти узлы обрабатывают декодирование и кодирование. Сопоставляйте частоту кадров с исходной, когда вам важно время. Писатель сравнения полезен во время исследования и может быть отключен для окончательных экспортов, если вы хотите только стилизованный результат.
WanVideoVACEModelSelect
перед сэмплированием.Этот рабочий процесс Wan 2.1 Ditto делает высококачественную переработку видео предсказуемой и быстрой, с чистыми подсказками, согласованным движением и выходами, готовыми для немедленного обзора или доставки.
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарны EzioBy за Wan 2.1 Ditto Source за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, связанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.