Wan 2.2 VBVR в ComfyUI: создание изображений с учетом рассуждений
Wan 2.2 VBVR в ComfyUI — это готовый к производству рабочий процесс, который приносит Video-Based Visual Reasoning в Wan 2.2 image-to-video. Он дополняет стандартный Wan 2.2 Mixture-of-Experts pipeline моделью, настроенной на рассуждения, и необязательным VBVR LoRA, чтобы ваши видео отслеживали объекты, действия и причинные события с более сильной временной логикой и согласованностью сцены.
Разработан для творческого направления, симуляции и сюжетных точек, которые требуют большего, чем просто красивые кадры, этот рабочий процесс ComfyUI выравнивает сложные подсказки с структурированным движением и взаимодействием нескольких объектов. Вы можете выбрать между чистым маршрутом модели VBVR или наложить VBVR и motion LoRAs на Wan 2.2 для скорости, затем экспортировать готовые к редактированию MP4.
Ключевые модели в рабочем процессе Comfyui Wan 2.2 VBVR
- Wan2.2-I2V-A14B (MoE основа). Два эксперта специализируются на фазах высокого шума и низкого шума и переключаются по SNR во время удаления шума, обеспечивая большую емкость без дополнительных затрат на каждый шаг. Это основной генератор, который рабочий процесс расширяет и смешивает. Model card • Technical details
- VBVR-Wan2.2. Тонкая настройка Wan2.2-I2V-A14B на крупном наборе данных для видео-рассуждений, чтобы улучшить временные, причинные и многопредметные рассуждения, сохраняя архитектуру неизменной. Используйте это, когда вам нужно самое сильное выравнивание рассуждений. Model card • Paper
- Wan 2.x VAE. Высококомпрессионный видеокодек, который эффективно восстанавливает кадры для рабочих процессов 480p–720p; Wan 2.2 описывает дизайн сжатия, который позволяет быструю генерацию 720p. Overview
- uMT5-XXL текстовый энкодер. Надежный многоязычный энкодер семейства T5, используемый для извлечения встраиваний подсказок для текстовых и изображений-to-video каналов Wan 2.2. Model card
- Motion и reasoning LoRAs для Wan 2.2. Рабочий процесс может загружать VBVR LoRA для предвзятости рассуждений и LightX2V step-distilled LoRAs для более сильной амплитуды движения и движений камеры. VBVR LoRA example • LightX2V collection
Как использовать рабочий процесс Comfyui Wan 2.2 VBVR
Этот рабочий процесс предлагает три дополняющих маршрута. Каждый маршрут автономен от подсказок и необязательного начального изображения до вывода видео, так что вы можете протестировать все три и сохранить лучший дубль.
- Маршрут модели VBVR
- Цель. Используйте это, когда вам нужно самое сильное видеорассуждение. Он запускает пару моделей Wan 2.2, откалиброванных по VBVR, с высоким SNR и низким SNR, разделяя график удаления шума между стадией "макет" и стадией "детали".
- Как это работает. Сначала запускается стадия высокого шума в
WanVideoSampler(#173), затем ее латенты переходят в стадию низкого шумаWanVideoSampler(#172), которая уточняет логику движения и детали. Переключение контролируетсяstart_stepиend_stepсемплеров, отражая передачу эксперта по SNR в Wan 2.2. - Что вы устанавливаете. При необходимости предоставьте начальное изображение через
LoadImage(#67) и напишите свою подсказку в узлеTextрядом с энкодером, который питаетWanVideoTextEncode(#170). Настройте количество кадров с помощью небольшого узла целых чисел рядом с семплерами (Int(#168)). - Вывод. Кадры декодируются
WanVideoDecode(#164) и собираются в MP4 с помощьюVHS_VideoCombine(#176).
- Маршрут Wan 2.2 + PainterI2V
- Цель. Быстрый, общий путь для кинематографического движения. Он сохраняет стандартные модели Wan 2.2 I2V, но обновляет условие изображения с помощью
PainterI2VforKJ, чтобы исправить артефакты медленного движения, характерные для 4-шаговых LoRAs. - Как это работает. Ваше начальное изображение изменяется для модели, встраивается с помощью
PainterI2VforKJ(#181), затем семплируетсяWanVideoSampler(#129, #130). Маршрут использует передачу от высокого шума к низкому шуму, аналогичную VBVR, но придерживается стандартных весов Wan 2.2. - Что вы устанавливаете. Укажите свою подсказку в узле
Text, который питаетWanVideoTextEncode(#152). Если вы соединяете LightX2V LoRA, это условие маршрута помогает сделать движение более намеренным. См. руководство по узлу для его целевой задачи. PainterI2VforKJ - Вывод. Кадры декодируются
WanVideoDecode(#142) и сохраняются с помощьюVHS_VideoCombine(#154).
- Цель. Быстрый, общий путь для кинематографического движения. Он сохраняет стандартные модели Wan 2.2 I2V, но обновляет условие изображения с помощью
- Маршрут Wan 2.2 + VBVR LoRA
- Цель. Гибрид для быстрых итераций. Он накладывает VBVR LoRA на модель Wan 2.2 с высоким уровнем шума и motion LoRA на модель с низким уровнем шума, предоставляя вам подсказку для рассуждений на раннем этапе и чистую полировку движения на позднем этапе.
- Как это работает. Поток высокого шума проходит через
WanVideoSampler(#27), а поток низкого шума черезWanVideoSampler(#90); оба получают текстовые встраивания изWanVideoTextEncode(#16) и необязательное условие изображения изPainterI2VforKJ(#179). LoRAs применяются на каждом этапе, чтобы соответствовать роли эксперта. - Что вы устанавливаете. Вставьте свою подсказку в узел
Textрядом сWanVideoTextEncode(#16) и, если необходимо, отрегулируйте разделение этапов с помощью близлежащих виджетов целых чисел, обозначенных как "Split_step". VBVR и LightX2V LoRAs можно выбрать из узлов LoRA в этой группе. VBVR LoRA - Вывод. Кадры декодируются через
WanVideoDecode(#28) и экспортируются черезVHS_VideoCombine(#60).
Ключевые узлы в рабочем процессе Comfyui Wan 2.2 VBVR
WanVideoModelLoader(#165, #162)- Загружает модели Wan 2.2, откалиброванные по VBVR, с высоким SNR и низким SNR, которые соответствуют ранним и поздним экспертам по удалению шума. Держите пару согласованной, чтобы передача по SNR оставалась стабильной. См. дизайн MoE и SNR переключателя Wan 2.2 для контекста. Details
WanVideoSampler(#173, #172, #129, #130, #27, #90)- Управляет генерацией и контролирует разделение эксперта. Регулируйте
steps, чтобы сбалансировать детали и скорость, и настраивайтеstart_stepилиend_step, чтобы перемещать работу между ранним экспертом по макету и поздним экспертом по деталям. Используйтеcfg, чтобы обменять соблюдение на свободу движения. Ссылка на реализацию находится в узлах семплера обертки. Wrapper repo
- Управляет генерацией и контролирует разделение эксперта. Регулируйте
PainterI2VforKJ(#178, #181, #179)- Заменяет стандартное условие изображение-видео на вариант с усилением движения, предназначенный для исправления медленного движения при использовании 4-шаговых LightX2V LoRAs. Он усиливает подсказки камеры и акцентирует действия, сохраняя идентичность субъекта. Node readme
WanVideoTextEncode(#170, #152, #16)- Кодирует положительные и отрицательные подсказки через uMT5-XXL энкодер, чтобы семплеры получали богатую, многоязычную семантику. Держите структуру подсказки ясной; разделение сцены, субъекта, действия и намерения камеры обычно улучшает выравнивание. uMT5
VHS_VideoCombine(#176, #154, #60)- Собирает декодированные кадры в MP4 с метаданными для воспроизводимости. Если вы передаете аудио, узел объединяет его с видео. Это исходит из утилитных узлов VideoHelperSuite. VideoHelperSuite
Дополнительные опции
- Когда выбрать каждый маршрут
- Модель VBVR: сложные взаимодействия, сцены причина-следствие или хореография нескольких объектов.
- Wan 2.2 + PainterI2V: динамическое движение или повествование, ориентированное на камеру, с LightX2V LoRAs.
- Wan 2.2 + VBVR LoRA: быстрые предварительные просмотры, которые все еще выигрывают от предвзятости рассуждений на раннем этапе удаления шума.
- Советы по созданию подсказок для Wan 2.2 VBVR в ComfyUI
- Используйте короткие секции, такие как [SCENE], [SUBJECT], [ACTION], [CAMERA], [LIGHTING]. Это помогает текстовому энкодеру разделить намерение.
- Для взаимодействий объектов укажите, кто что делает кому и в каком порядке.
- Стек LoRA
- Размер и соотношение сторон кадра
- Узлы
ImageResizeKJv2рядом с входами обеспечивают чистую делимость для VAE и уменьшают артефакты. Соответствуйте аспекту начального изображения целевому видео для более плавного распространения движения.
- Узлы
Благодарности
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим @Ai Verse, автора Wan 2.2 VBVR в ComfyUI Source за их вклад и поддержку. Для получения авторитетных сведений, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- YouTube/Wan 2.2 VBVR в ComfyUI Source
- Документы / Примечания к выпуску: Wan 2.2 VBVR в ComfyUI Source @Ai Verse
Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.
