Рабочий процесс переработки видео Wan 2.1 Ditto для ComfyUI
Этот рабочий процесс применяет Wan 2.1 Ditto для переработки любого входного видео, сохраняя структуру сцены и движение. Он предназначен для редакторов и создателей, которые хотят получить кинематографические, художественные или экспериментальные образы с сильной временной согласованностью. Вы загружаете клип, описываете целевой образ, и Wan 2.1 Ditto создает чистый стилизованный рендеринг плюс необязательное сравнение "до и после" для быстрого обзора.
График объединяет текст-видео основу Wan 2.1 с переносом стиля Ditto на уровне модели, чтобы изменения происходили согласованно по кадрам, а не как фильтры покадрово. Общие случаи использования включают преобразования в аниме, пиксельное искусство, клеймейшн, акварель, стимпанк или редактирование симуляции в реальность. Если вы уже создаете контент с Wan, этот рабочий процесс Wan 2.1 Ditto легко интегрируется в ваш конвейер для надежной, без мерцания стилизации видео.
Основные модели в рабочем процессе Comfyui Wan 2.1 Ditto
- Wan2.1‑T2V‑14B текст-видео модель. Служит как генеративная основа, которая синтезирует временно согласованное движение, учитывая текст и визуальное кондиционирование.
- Wan 2.1 VAE. Кодирует и декодирует видео латенты, чтобы сэмплер мог работать в компактном пространстве, а затем надежно восстанавливать кадры в полном разрешении.
- mT5‑XXL текстовый энкодер. Преобразует подсказки в богатые языковые встраивания, которые управляют содержанием и стилем сцены. Для справочной информации о mT5 см. статью Xue et al. mT5: A Massively Multilingual Pre‑trained Text‑to‑Text Transformer.
- Модель стилизации Ditto для Wan 2.1. Обеспечивает надежную, глобальную переработку с сильной временной согласованностью. Подход Ditto и файлы модели документированы здесь: EzioBy/Ditto.
- Необязательная LoRA для Wan 2.1 14B. Добавляет легкие изменения стиля или поведения без повторного обучения базовой модели, следуя методу LoRA, описанному в Hu et al., 2021.
Как использовать рабочий процесс Comfyui Wan 2.1 Ditto
Рабочий процесс выполняется в четыре этапа: загрузка моделей, подготовка входного видео, кодирование текста и визуалов, затем сэмплирование и экспорт. Группы работают последовательно, чтобы создать как стилизованный рендеринг, так и необязательное сравнение "до и после".
Модели
Эта группа готовит все, что нужно Wan 2.1 Ditto. Базовая основа загружается с помощью WanVideoModelLoader (#130) и соединяется с WanVideoVAELoader (#60) и LoadWanVideoT5TextEncoder (#80). Компонент Ditto выбирается с помощью WanVideoVACEModelSelect (#128), который указывает основу на выделенные веса стилизации Ditto. Если вам нужна более сильная трансформация, вы можете подключить LoRA с помощью WanVideoLoraSelect (#122). WanVideoBlockSwap (#68) доступен для управления памятью, чтобы более крупные модели могли работать плавно на ограниченном VRAM.
Входные параметры
Загрузите ваш исходный клип с помощью VHS_LoadVideo (#101). Затем кадры изменяются для согласованной геометрии с использованием LayerUtility: ImageScaleByAspectRatio V2 (#76), который сохраняет аспект при нацеливании на разрешение длинной стороны, контролируемое простым целым числом JWInteger (#89). GetImageSizeAndCount (#65) считывает подготовленные кадры и передает ширину, высоту и количество кадров в нижестоящие узлы, чтобы Wan 2.1 Ditto сэмплировал правильный пространственный размер и продолжительность. Включен небольшой помощник подсказок CR Text (#104), если вы предпочитаете создавать подсказку в собственном поле. Группа под названием "Maximum Variation Limit" напоминает вам держать целевую длину пикселя в практическом диапазоне для согласованных результатов и стабильного использования памяти.
Сэмплирование
Кондиционирование происходит в двух параллельных линиях. WanVideoTextEncode (#111) превращает вашу подсказку в текстовые встраивания, определяющие намерение и стиль. WanVideoVACEEncode (#126) кодирует подготовленное видео в визуальные встраивания, которые сохраняют структуру и движение для редактирования. Необязательный модуль руководства WanVideoSLG (#129) контролирует, как модель балансирует стиль и содержание через траекторию удаления шума. WanVideoSampler (#119) затем объединяет основу Wan 2.1 с Ditto, текстовыми встраиваниями и визуальными встраиваниями для создания стилизованных латентов. Наконец, WanVideoDecode (#87) восстанавливает кадры из латентов, чтобы создать стилизованную последовательность с временной согласованностью, известной Wan 2.1 Ditto.
Выходы и сравнения
Основной экспорт использует VHS_VideoCombine (#95) для сохранения рендеринга Wan 2.1 Ditto на выбранной вами частоте кадров. Для быстрого обзора график объединяет оригинальные и стилизованные кадры с помощью ImageConcatMulti (#94), изменяет размер сравнения с помощью ImageScaleToTotalPixels (#133) и записывает фильм "до и после" через VHS_VideoCombine (#100). Обычно вы получаете два видео в выходной папке: чистый стилизованный рендеринг и клип сравнения, который помогает заинтересованным сторонам быстрее утверждать или итеративно работать.
Идеи подсказок
Вы можете начать с коротких, четких подсказок и итеративно работать. Примеры, которые хорошо работают с Wan 2.1 Ditto:
- Сделайте это в стиле японского аниме, видео с затенением ячеек.
- Сделайте это видео в стиле Pixel Art.
- Сделайте это видео в стиле карандашного рисунка.
- Сделайте это видео в стиле клеймейшна.
- Сделайте это видео в стиле акварели.
- Сделайте это в стиле стимпанк с шестеренками, трубами и латунными деталями.
- Сделайте это в стиле киберпанк с неоном и футуристическими имплантами.
- Сделайте это видео в стиле укиё-э.
- Сделайте это видео в стиле искусства Ренессанса.
- Сделайте это рисунком Ван Гога.
- Преобразуйте это в стиль LEGO.
- Преобразуйте это в стиль Ghibli.
- Преобразуйте это в стиль 3D Чиби.
- Преобразуйте это в стиль бумажной вырезки.
Ключевые узлы в рабочем процессе Comfyui Wan 2.1 Ditto
WanVideoVACEModelSelect (#128) Выберите, какие веса Ditto использовать для стилизации. Модель глобальной Ditto по умолчанию является сбалансированным выбором для большинства кадров. Если ваша цель — преобразование из аниме в реальность, выберите вариант sim‑to‑real Ditto, упомянутый в примечании к узлу. Переключение вариантов Ditto изменяет характер переработки, не затрагивая другие настройки.
WanVideoVACEEncode (#126) Создает визуальное кондиционирование из ваших входных кадров. Основные элементы управления — это width, height и num_frames, которые должны соответствовать подготовленному видео для наилучших результатов. Используйте strength, чтобы регулировать, насколько настойчиво стиль Ditto влияет на редактирование, и vace_start_percent и vace_end_percent, чтобы ограничить, когда кондиционирование применяется в течение траектории диффузии. Включите tiled_vae на очень больших разрешениях, чтобы уменьшить нагрузку на память.
WanVideoTextEncode (#111) Кодирует положительные и отрицательные подсказки через энкодер mT5‑XXL для управления стилем и содержанием. Держите положительные подсказки краткими и описательными, а отрицательные используйте для подавления таких артефактов, как мерцание или перенасыщенность. Опции force_offload и device позволяют обменивать скорость на память, если вы запускаете большие модели.
WanVideoSampler (#119) Запускает основу Wan 2.1 с стилизацией Ditto для генерации окончательных латентов. Наиболее значимые настройки — это steps, cfg, scheduler и seed. Используйте denoise_strength, когда хотите сохранить больше оригинальной структуры, и держите slg_args подключенными, чтобы сбалансировать точность содержания с силой стиля. Увеличение шагов или руководства может улучшить детали за счет времени.
ImageScaleByAspectRatio V2 (#76) Устанавливает стабильный целевой размер для всех кадров перед кондиционированием. Управляйте целевой длиной стороны с помощью отдельного целого числа, чтобы вы могли тестировать небольшие, быстрые предварительные просмотры, а затем увеличивать разрешение для окончательных рендеров. Держите масштаб постоянным между итерациями, чтобы сделать сравнения A/B значимыми.
VHS_LoadVideo (#101) и VHS_VideoCombine (#95, #100) Эти узлы обрабатывают декодирование и кодирование. Сопоставляйте частоту кадров с исходной, когда вам важно время. Писатель сравнения полезен во время исследования и может быть отключен для окончательных экспортов, если вы хотите только стилизованный результат.
Необязательные дополнения
- Для редактирования из аниме в реальность выберите вариант sim‑to‑real Ditto в
WanVideoVACEModelSelectперед сэмплированием. - Начните с коротких подсказок, таких как "Сделайте это в стиле акварельного рисунка", и уточняйте с 1 или 2 дескрипторами. Длинные списки склонны разбавлять силу стиля.
- Используйте отрицательные подсказки для уменьшения мерцания, артефактов сжатия и чрезмерно ярких бликов при достижении сильных образов.
- Держите разрешение длинной стороны постоянным на протяжении итераций, чтобы стабилизировать результаты и сделать семена воспроизводимыми.
- Когда VRAM ограничен, включите выгрузку моделей и варианты плиток, или предварительно просматривайте при меньшем значении длинной стороны перед рендерингом в полном размере.
Этот рабочий процесс Wan 2.1 Ditto делает высококачественную переработку видео предсказуемой и быстрой, с чистыми подсказками, согласованным движением и выходами, готовыми для немедленного обзора или доставки.
Благодарности
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарны EzioBy за Wan 2.1 Ditto Source за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, связанным ниже.
Ресурсы
- EzioBy/Wan 2.1 Ditto Source
- GitHub: EzioBy/Ditto
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.

