Рабочий процесс Stable Video Infinity 2.0 ComfyUI для длинных, согласованных изображений в видео на Wan 2.2
Этот рабочий процесс превращает одно изображение в длинное, сюжетно-направленное видео, сохраняя идентичность, поток движения и согласованность сцен. Он сочетает модель Wan 2.2 I2V A14B с Stable Video Infinity 2.0 LoRA для расширения временной непрерывности далеко за пределы коротких клипов. Процесс организован в пять проходов, которые передают латенты движения от одного участка к другому, с наложением для сглаживания переходов и финальным рендером, который соединяет все вместе.
Создатели, которым нужны расширенные анимации, нарративные акценты или кинематографические AI-видео, обнаружат, что Stable Video Infinity сохраняет стабильность персонажей и стиля по мере развития сцены. Вы получаете промежуточные видео проходов для быстрой проверки и финальный мастер-рендер, все создано напрямую из графика ComfyUI.
Основные модели в рабочем процессе Comfyui Stable Video Infinity
- Пара Wan 2.2 I2V A14B UNet (HighNoise и LowNoise), квантованные варианты GGUF. Они генерируют движение из латентов изображения и чередуются для балансировки исследования и уточнения деталей. Источник: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
- Stable Video Infinity 2.0 LoRA для Wan 2.2 I2V A14B, предоставляется в вариантах HIGH и LOW для соответствия двум UNet. Она расширяет временную согласованность для длинных последовательностей. Источник: Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0.
- Текстовый энкодер Wan UMT5 XXL. Кодирует подсказки для каждого прохода в условия для генератора видео. Источник: Comfy-Org/Wan_2.1_ComfyUI_repackaged.
- Wan 2.1 VAE. Кодирует начальное изображение в латентное пространство и декодирует кадры обратно в изображения для каждого прохода. Источник: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE.
- Необязательный набор Wan 2.2 LightX2V LoRA (HighNoise и LowNoise). Эти вспомогательные LoRA дополняют Stable Video Infinity во время выборки. Источник: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras.
Как использовать рабочий процесс Comfyui Stable Video Infinity
Рабочий процесс берет одно эталонное изображение, подготавливает его в вашем выбранном разрешении, затем выполняет пять последовательных проходов. Каждый проход использует Stable Video Infinity для генерации сегмента, смешивает несколько кадров наложения с предыдущим сегментом и передает его латент движения следующему проходу. Вы можете предварительно просмотреть каждый проход в формате MP4 и также создать финальный сшитый рендер.
Группа: Модели
Эта группа загружает пару Wan 2.2 I2V A14B UNet, Wan VAE и UMT5 XXL текстовый энкодер. Затем применяет набор LightX2V LoRA и Stable Video Infinity 2.0 LoRA к обеим ветвям HighNoise и LowNoise, чтобы все проходы обладали одинаковыми возможностями. Если вы регулируете силу LoRA, держите обе ветви HighNoise и LowNoise сбалансированными, чтобы избежать отклонений в стиле или поведении движения.
Группа: Подсказки
Подсказки создаются для каждого прохода, чтобы создать нарративные акценты. Положительные подсказки находятся в пяти узлах CLIPTextEncode, таких как CLIPTextEncode (#93, #152, #284, #297, #310). Отрицательные подсказки заполнены общими фильтрами качества и могут быть отредактированы в CLIPTextEncode (#89, #157, #279, #293, #306). Поддерживайте постоянные дескрипторы субъектов на протяжении всех проходов и изменяйте только глаголы действия или подсказки камеры, чтобы сохранить идентичность, развивая сцену.
Входное изображение и разрешение
Загрузите одно эталонное изображение с помощью LoadImage (#97), затем масштабируйте его с помощью Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398)) для соответствия вашей целевой пропорции. Изображение кодируется в латенты с помощью VAEEncode (#135), который также устанавливает якорный латент, используемый для поддержания стабильности идентичности на протяжении всего запуска. Если вы изменяете входные данные или соотношение сторон, перекодируйте перед запуском проходов.
Проход 1 - Установление сцены
WanImageToVideoSVIPro (#134) использует вашу подсказку для первого прохода и якорный латент для генерации движения. Два семплера, KSamplerAdvanced (#277 для HighNoise, #278 для LowNoise), сотрудничают для исследования движения, а затем уточнения деталей. Результат декодируется с помощью VAEDecode (#87) и предварительно просматривается через VHS_VideoCombine (#126) в формате MP4. Используйте этот проход, чтобы задать объект, освещение и общий стиль, который Stable Video Infinity будет поддерживать.
Проход 2 - Продолжение действия
WanImageToVideoSVIPro (#160) получает prev_samples от Прохода 1, чтобы продолжить движение без визуального скачка. Та же двухступенчатая схема выборки проходит через KSamplerAdvanced (#276 HighNoise, #275 LowNoise), и кадры декодируются с помощью VAEDecode (#162). ImageBatchExtendWithOverlap (#168) смешивает короткое наложение с концом Прохода 1, чтобы скрыть швы, и VHS_VideoCombine (#167) записывает предварительный просмотр сегмента.
Проход 3 - Расширение в середине последовательности
WanImageToVideoSVIPro (#290) продолжает с латентов Прохода 2 и следует той же схеме двух семплеров с KSamplerAdvanced (#291, #287). После декодирования в VAEDecode (#282), ImageBatchExtendWithOverlap (#292) добавляет новые кадры к временной шкале. Обновите подсказку, чтобы развивать микро-действие, сохраняя идентичность терминов субъекта.
Проход 4 - Построение к кульминации
WanImageToVideoSVIPro (#305) принимает эстафету от Прохода 3 и снова использует семплеры HighNoise и LowNoise KSamplerAdvanced (#303, #300). VAEDecode (#295) и ImageBatchExtendWithOverlap (#304) создают непрерывную последовательность, которую вы можете предварительно просмотреть через VHS_VideoCombine (#296). Используйте этот проход для добавления движения камеры или вторичных действий, сохраняя постоянные дескрипторы для сохранения идентичности.
Проход 5 - Разрешение и рендеринг
WanImageToVideoSVIPro (#318) завершает историю и передает кадры для уточнения в KSamplerAdvanced (#316, #313). После декодирования с помощью VAEDecode (#308), кадры добавляются с помощью ImageBatchExtendWithOverlap (#317). VHS_VideoCombine (#319) создает финальный сшитый MP4; настройте его frame_rate и filename_prefix в соответствии с целями доставки.
Основные узлы в рабочем процессе Comfyui Stable Video Infinity
WanImageToVideoSVIPro (#134)
Этот узел преобразует якорный латент и вашу подсказку в латенты движения и может принимать prev_samples, чтобы продолжать с предыдущего прохода. Используйте length, чтобы определить, сколько кадров генерирует проход, и motion_latent_count, чтобы контролировать, сколько новой энергии движения вводится. Связывание проходов путем передачи prev_samples позволяет Stable Video Infinity строить длинные последовательности без скачков.
KSamplerAdvanced (#276)
Каждый проход сочетает семплер HighNoise с семплером LowNoise для исследования, а затем консолидации деталей. Рабочий процесс открывает steps и вторичный разделительный контроль, чтобы вы могли решить, как разделить бюджет прохода между двумя. Держите разделение постоянным на протяжении всех проходов, чтобы избежать мерцания на стыках.
ImageBatchExtendWithOverlap (#168)
Этот утилита смешивает небольшое количество конечных кадров из предыдущего прохода с началом нового. Настройте overlap и оставьте режим на плавное смешивание, чтобы скрыть швы, сохраняя направление движения. Это ключ к тому, чтобы сегменты Stable Video Infinity казались одним непрерывным дублем.
VHS_VideoCombine (#319)
Собирает декодированные кадры в MP4 для предварительных просмотров и финального рендера. Настройте frame_rate, format и crf для вашей цели доставки и размера файла. Используйте различные значения filename_prefix, чтобы держать предварительные просмотры отдельно от финального результата.
LoraLoaderModelOnly (#141, #142)
Применяет варианты Stable Video Infinity 2.0 LoRA к паре Wan 2.2 UNet. Управление strength_model позволяет вам точно настроить, насколько сильно LoRA направляет движение и согласованность. Держите ветви HIGH и LOW выровненными, чтобы оба семплера интерпретировали подсказки одинаково.
Необязательные дополнения
- Держите дескрипторы субъектов постоянными на протяжении всех пяти подсказок и изменяйте только глаголы или подсказки камеры, чтобы сохранить идентичность.
- Если движение кажется слишком робким, слегка увеличьте
motion_latent_countна следующем проходе, а не переписывайте подсказки кардинально. - Если детали колеблются между проходами, уменьшите долю
stepsдля HighNoise или снизьте силу LoRA равномерно на обеих ветвях. - Используйте короткое наложение для быстрого действия и длинное наложение для медленных, тонких сцен, чтобы сбалансировать скрытие швов и время выполнения.
- Для быстрого сокращения, рендерите только предварительные просмотры Прохода 1 и Прохода 3, чтобы подтвердить идентичность и движение перед полным запуском.
Благодарности
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность Kijai за Stable-Video-Infinity v2.0 (SVI 2.0) за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source
Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
