Создание Связных Сцен (Qwen Image Edit & Wan 2.2)
Создание Связных Сцен (Qwen Image Edit & Wan 2.2) — это готовый к производству рабочий процесс ComfyUI для создания видео с несколькими кадрами, в которых персонажи, освещение и композиция остаются согласованными от кадра к кадру. Он сочетает Qwen Image Edit для точных, ориентированных на ссылки статичных изображений с Wan 2.2 image-to-video для кинематографического движения, затем позволяет вам сшивать сцены, сглаживать движение с помощью интерполяции кадров и добавлять сгенерированный фоновый звук для завершения. Идеально для нарративного искусства, анимации, предварительной визуализации и концептуальных роликов, рабочий процесс помогает перейти от одного ключевого кадра к единой последовательности с минимальной ручной доработкой.
Пайплайн организован на три части: Часть 1 создает и редактирует согласованные ключевые кадры, Часть 2 анимирует каждый кадр с использованием Wan 2.2 и объединяет их в один монтаж, а Часть 3 создает звуковое оформление, осведомленное о сцене. Везде, где вы видите Создание Связных Сцен (Qwen Image Edit & Wan 2.2) в этом README, это относится к полному, сквозному процессу.
Ключевые модели в рабочем процессе Comfyui Создание Связных Сцен (Qwen Image Edit & Wan 2.2)
- Wan 2.2 Image-to-Video 14B (варианты с высоким и низким уровнем шума). Основной генератор видео, используемый для анимации ваших изображений сцены при сохранении пространственной компоновки и стиля. Упакован для ComfyUI с текстовым энкодером и VAE активами. Ссылка: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
- Qwen-Image-Edit 2509 + Qwen 2.5 VL текстовый энкодер + Qwen Image VAE. Семантическое, ориентированное на ссылки редактирование изображений, используемое для создания ключевых кадров следующей сцены, которые соответствуют вашему повествованию при сохранении согласованности персонажей и сцены. Ссылки: Comfy-Org/Qwen-Image-Edit_ComfyUI и Comfy-Org/Qwen-Image_ComfyUI.
- FLUX.1 dev (text-to-image). Необязательная основная модель для самого первого установочного ключевого кадра перед редактированием. Ссылка: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.
- RIFE Video Frame Interpolation. Используется для увеличения частоты кадров и сглаживания движения на объединенном монтаже. Ссылка: hzwer/Practical-RIFE.
- HunyuanVideo-Foley. Генеративная аудиомодель, которая создает синхронизированный фоновый звук из изображений или видео плюс короткий текстовый сигнал; используется для добавления диетического звука на сцену или для окончательного монтажа. Ссылка: phazei/HunyuanVideo-Foley.
- Необязательные помощники. MiniCPM-V 4.5 может автоматически создавать аудиоподсказки из вашего монтажа, чтобы ускорить идеацию фонов: OpenBMB/MiniCPM-V.
Как использовать рабочий процесс Comfyui Создание Связных Сцен (Qwen Image Edit & Wan 2.2)
Общая логика
- Часть 1 создает установочный ключевой кадр, а затем использует Qwen Image Edit для генерации статичных изображений "следующей сцены", которые остаются стилистически согласованными.
- Часть 2 анимирует каждое изображение сцены в короткий клип с помощью Wan 2.2, затем объединяет все клипы в один монтаж и, при необходимости, интерполирует кадры для более плавного движения.
- Часть 3, при необходимости, генерирует фоновый звук для каждой сцены или для объединенного монтажа и смешивает его в окончательное видео.
Загрузчик моделей
- Область модели загружает варианты Wan 2.2 с высоким и низким уровнем шума и их VAE/CLIP однажды, с возможностью ускорения через torch compile. Вы также увидите маршрут с низким VRAM с использованием квантизированных GGUF UNETs и заменой блоков, чтобы вы могли выполнять тот же процесс Создание Связных Сцен (Qwen Image Edit & Wan 2.2) на меньших GPU.
- LoRAs для Wan 2.2 и Qwen Image Edit Lightning LoRA подключены заранее для влияния на стиль движения и скорость редактирования без усложнения графа.
- Если вы меняете модели, сохраняйте семьи текстового энкодера/UNET/VAE последовательными, чтобы избежать несоответствий в скрытом пространстве.
Настройки
- Глобальные элементы управления устанавливают рабочую ширину, высоту, семя и длину сцены, чтобы каждая сцена наследовала идентичную геометрию холста и временную каденцию. Это один из ключей к согласованности Создание Связных Сцен (Qwen Image Edit & Wan 2.2).
- Предоставлена комплексная негативная подсказка и направлена глобально; вы можете переопределить её в любое время, чтобы соответствовать вашему художественному направлению.
Часть 1 — Text-to-Image установочный ключевой кадр
- Начните с описания вашего начального кадра. Подсказка подает базовый текстовый сэмплер для изображения, который выводит "Start_" кадр для проекта.
- Это изображение кэшируется и становится ссылкой для следующей сцены в треке Qwen. Рабочий процесс масштабирует изображение до разрешения, удобного для редактирования, и кодирует его в скрытые переменные.
Часть 1 — Qwen Image Edit ключевые кадры следующей сцены
- Для каждого последующего кадра напишите короткую инструкцию "Следующая Сцена". Редактор основывается на изображении предыдущей сцены, чтобы идентичность персонажа, гардероб, освещение и палитра оставались согласованными.
- Отредактированный результат декодируется, предварительно просматривается и сохраняется как "Scene_1_…", "Scene_2_…" и т. д. Это ваши согласованные статичные изображения. Они также сохраняются в общих слотах изображений, чтобы позже подсказки могли ссылаться на них.
Входы сцены (1–6)
- Если у вас уже есть концептуальные кадры, поместите их в шесть узлов "LoadImage". В противном случае используйте статичные изображения, сгенерированные Qwen из Части 1, как ваши начальные изображения.
- Для каждой сцены добавьте короткую текстовую подсказку через промаркированный узел подсказки. Рассматривайте их как заметки по кинематографии, которые направляют стиль движения, а не переописывают всю среду.
Образцы сцены (1–6)
- Каждая сцена проходит преобразование изображения в видео с помощью Wan 2.2, чтобы превратить стартовое изображение в скрытый клип. Затем путь трехступенчатого сэмплера уточняет скрытую последовательность, используя путь с высоким уровнем шума, путь с низким уровнем шума и путь без LoRA, организованный для стабильности.
- Декодированные кадры подают на видеопишущий узел для каждой сцены, который сохраняет MP4 для быстрого просмотра. Узлы очистки памяти после каждого рендера освобождают VRAM перед началом следующей сцены.
- Поскольку все сцены используют одно и то же семя, размер и длину, каденция движения и композиция остаются согласованными, помогая Создание Связных Сцен (Qwen Image Edit & Wan 2.2) ощущаться как единое целое.
Объединение сцен
- Шесть отрендеренных последовательностей изображений объединяются в порядке, создавая "Combined" монтаж. Вы можете переупорядочивать или исключать сцены, изменяя проводку узла партии, который собирает их.
Необязательная интерполяция кадров
- Проход интерполяции увеличивает видимую частоту кадров с использованием RIFE. Это создает "Interpolated" экспорт для более плавного движения камеры и объектов при сохранении того же вида.
Часть 3 — Видео в аудио фоновый звук
- Загрузите объединенный монтаж или любую отдельную сцену в аудиораздел. Встроенный помощник по визуальному языку может автоматически черновой текстовой описания сцены; отредактируйте его по вкусу, чтобы отразить ритм, настроение и ключевые действия.
- Модель фонов синтезирует синхронизированный аудио, и узел смешивателя объединяет его с вашими кадрами в MP4 с аудио. Для лучших результатов, генерируйте аудио для каждой сцены, а затем сшивайте.
Ключевые узлы в рабочем процессе Comfyui Создание Связных Сцен (Qwen Image Edit & Wan 2.2)
-
WanImageToVideo (#111)
Преобразует один ссылочный кадр в согласованное скрытое видео, при этом учитывая положительный и отрицательный текст. Используйте его для установки длительности каждого кадра и размера холста и для подачи стартового изображения, которое вы хотите анимировать. Поддержан моделями Wan 2.2 I2V 14B, упакованными здесь: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
-
TextEncodeQwenImageEditPlus (#360)
Кодирует инструкции "Следующая Сцена" вместе с ссылочным изображением, чтобы редактирования следовали сюжету, но соответствовали идентичности и освещению. Сохраняйте существительные и стилистические теги последовательными через сцены для усиления непрерывности. Ссылки на модели: Comfy-Org/Qwen-Image-Edit_ComfyUI и Comfy-Org/Qwen-Image_ComfyUI.
-
KSamplerAdvanced (#159)
Основной денойзер для каждой анимированной сцены. Этот рабочий процесс связывает три сэмплера, которые нацелены на различные режимы шума и смеси LoRA для улучшения временной стабильности. Если вы изменяете шаги или семена, делайте это равномерно через связанные сэмплеры, чтобы сохранить предсказуемое поведение движения.
-
ImageBatchMulti (#308)
Собирает партии кадров сцены в одну длинную временную шкалу. Используйте его для переупорядочивания, удаления или замены сцен перед экспортом без изменения путей сэмплирования.
-
RIFE VFI (#94)
Выполняет интерполяцию кадров для увеличения воспринимаемой частоты кадров. Это особенно эффективно для медленных движений камеры и плавных движений объектов. Ссылка: hzwer/Practical-RIFE.
-
HunyuanFoleySampler (#331)
Генерирует синхронизированный фоновый звук из кадров плюс короткая текстовая подсказка, затем передает аудио в видеомиксер. Для деталей модели и файлов, см. phazei/HunyuanVideo-Foley.
Необязательные дополнения
- Для быстрой итерации используйте квантизированный маршрут GGUF Wan 2.2 с заменой блоков, когда VRAM ограничен; переключитесь обратно на полную точность для финальных рендеров.
- Сохраняйте ширину, высоту и длину сцены идентичными в течение всего проекта, чтобы усилить ритм и непрерывность кадра.
- В подсказках Qwen сохраняйте основные идентификаторы (имена, костюмы, реквизит) и термины освещения; изменяйте только действия и язык камеры между сценами.
- Используйте глобальное семя, чтобы зафиксировать общий "характер" проекта. Изменяйте его только тогда, когда хотите изменить характер движения во всех сценах.
- Интерполируйте только после того, как вы будете довольны таймингом, затем рендерите аудиоверсию для каждой сцены и объединяйте; фоновый звук для каждой сцены обычно звучит более естественно.
- FLUX.1 dev — отличная основа для самого первого ключевого кадра; как только он установлен, полагайтесь на редакции Qwen для продвижения истории, сохраняя вид: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.
Признания
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем создателей Qwen Image Edit за модель, разработчиков Wan 2.2 за модель и автора (@Benji’s AI Playground) "Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial" за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям по ссылкам ниже.
Ресурсы
- YouTube/Create Coherent Scenes (Qwen Image Edit & Wan 2.2)
Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.