Создание Связных Сцен (Qwen Image Edit & Wan 2.2) в ComfyUI | Рабочий процесс кинематографической связности

ComfyUI Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Workflow

Create Coherent Scenes (Qwen Image Edit & Wan 2.2) in ComfyUI | Cinematic Coherence Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Examples

Создание Связных Сцен (Qwen Image Edit & Wan 2.2)#

Создание Связных Сцен (Qwen Image Edit & Wan 2.2) — это готовый к производству рабочий процесс ComfyUI для создания видео с несколькими кадрами, в которых персонажи, освещение и композиция остаются согласованными от кадра к кадру. Он сочетает Qwen Image Edit для точных, ориентированных на ссылки статичных изображений с Wan 2.2 image-to-video для кинематографического движения, затем позволяет вам сшивать сцены, сглаживать движение с помощью интерполяции кадров и добавлять сгенерированный фоновый звук для завершения. Идеально для нарративного искусства, анимации, предварительной визуализации и концептуальных роликов, рабочий процесс помогает перейти от одного ключевого кадра к единой последовательности с минимальной ручной доработкой.

Пайплайн организован на три части: Часть 1 создает и редактирует согласованные ключевые кадры, Часть 2 анимирует каждый кадр с использованием Wan 2.2 и объединяет их в один монтаж, а Часть 3 создает звуковое оформление, осведомленное о сцене. Везде, где вы видите Создание Связных Сцен (Qwen Image Edit & Wan 2.2) в этом README, это относится к полному, сквозному процессу.

Ключевые модели в рабочем процессе Comfyui Создание Связных Сцен (Qwen Image Edit & Wan 2.2)#

Wan 2.2 Image-to-Video 14B (варианты с высоким и низким уровнем шума). Основной генератор видео, используемый для анимации ваших изображений сцены при сохранении пространственной компоновки и стиля. Упакован для ComfyUI с текстовым энкодером и VAE активами. Ссылка: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
Qwen-Image-Edit 2509 + Qwen 2.5 VL текстовый энкодер + Qwen Image VAE. Семантическое, ориентированное на ссылки редактирование изображений, используемое для создания ключевых кадров следующей сцены, которые соответствуют вашему повествованию при сохранении согласованности персонажей и сцены. Ссылки: Comfy-Org/Qwen-Image-Edit_ComfyUI и Comfy-Org/Qwen-Image_ComfyUI.
FLUX.1 dev (text-to-image). Необязательная основная модель для самого первого установочного ключевого кадра перед редактированием. Ссылка: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.
RIFE Video Frame Interpolation. Используется для увеличения частоты кадров и сглаживания движения на объединенном монтаже. Ссылка: hzwer/Practical-RIFE.
HunyuanVideo-Foley. Генеративная аудиомодель, которая создает синхронизированный фоновый звук из изображений или видео плюс короткий текстовый сигнал; используется для добавления диетического звука на сцену или для окончательного монтажа. Ссылка: phazei/HunyuanVideo-Foley.
Необязательные помощники. MiniCPM-V 4.5 может автоматически создавать аудиоподсказки из вашего монтажа, чтобы ускорить идеацию фонов: OpenBMB/MiniCPM-V.

Как использовать рабочий процесс Comfyui Создание Связных Сцен (Qwen Image Edit & Wan 2.2)#

Общая логика

Часть 1 создает установочный ключевой кадр, а затем использует Qwen Image Edit для генерации статичных изображений "следующей сцены", которые остаются стилистически согласованными.
Часть 2 анимирует каждое изображение сцены в короткий клип с помощью Wan 2.2, затем объединяет все клипы в один монтаж и, при необходимости, интерполирует кадры для более плавного движения.
Часть 3, при необходимости, генерирует фоновый звук для каждой сцены или для объединенного монтажа и смешивает его в окончательное видео.

Загрузчик моделей

Область модели загружает варианты Wan 2.2 с высоким и низким уровнем шума и их VAE/CLIP однажды, с возможностью ускорения через torch compile. Вы также увидите маршрут с низким VRAM с использованием квантизированных GGUF UNETs и заменой блоков, чтобы вы могли выполнять тот же процесс Создание Связных Сцен (Qwen Image Edit & Wan 2.2) на меньших GPU.
LoRAs для Wan 2.2 и Qwen Image Edit Lightning LoRA подключены заранее для влияния на стиль движения и скорость редактирования без усложнения графа.
Если вы меняете модели, сохраняйте семьи текстового энкодера/UNET/VAE последовательными, чтобы избежать несоответствий в скрытом пространстве.

Настройки

Глобальные элементы управления устанавливают рабочую ширину, высоту, семя и длину сцены, чтобы каждая сцена наследовала идентичную геометрию холста и временную каденцию. Это один из ключей к согласованности Создание Связных Сцен (Qwen Image Edit & Wan 2.2).
Предоставлена комплексная негативная подсказка и направлена глобально; вы можете переопределить её в любое время, чтобы соответствовать вашему художественному направлению.

Часть 1 — Text-to-Image установочный ключевой кадр

Начните с описания вашего начального кадра. Подсказка подает базовый текстовый сэмплер для изображения, который выводит "Start_" кадр для проекта.
Это изображение кэшируется и становится ссылкой для следующей сцены в треке Qwen. Рабочий процесс масштабирует изображение до разрешения, удобного для редактирования, и кодирует его в скрытые переменные.

Часть 1 — Qwen Image Edit ключевые кадры следующей сцены

Для каждого последующего кадра напишите короткую инструкцию "Следующая Сцена". Редактор основывается на изображении предыдущей сцены, чтобы идентичность персонажа, гардероб, освещение и палитра оставались согласованными.
Отредактированный результат декодируется, предварительно просматривается и сохраняется как "Scene_1_…", "Scene_2_…" и т. д. Это ваши согласованные статичные изображения. Они также сохраняются в общих слотах изображений, чтобы позже подсказки могли ссылаться на них.

Входы сцены (1–6)

Если у вас уже есть концептуальные кадры, поместите их в шесть узлов "LoadImage". В противном случае используйте статичные изображения, сгенерированные Qwen из Части 1, как ваши начальные изображения.
Для каждой сцены добавьте короткую текстовую подсказку через промаркированный узел подсказки. Рассматривайте их как заметки по кинематографии, которые направляют стиль движения, а не переописывают всю среду.

Образцы сцены (1–6)

Каждая сцена проходит преобразование изображения в видео с помощью Wan 2.2, чтобы превратить стартовое изображение в скрытый клип. Затем путь трехступенчатого сэмплера уточняет скрытую последовательность, используя путь с высоким уровнем шума, путь с низким уровнем шума и путь без LoRA, организованный для стабильности.
Декодированные кадры подают на видеопишущий узел для каждой сцены, который сохраняет MP4 для быстрого просмотра. Узлы очистки памяти после каждого рендера освобождают VRAM перед началом следующей сцены.
Поскольку все сцены используют одно и то же семя, размер и длину, каденция движения и композиция остаются согласованными, помогая Создание Связных Сцен (Qwen Image Edit & Wan 2.2) ощущаться как единое целое.

Объединение сцен

Шесть отрендеренных последовательностей изображений объединяются в порядке, создавая "Combined" монтаж. Вы можете переупорядочивать или исключать сцены, изменяя проводку узла партии, который собирает их.

Необязательная интерполяция кадров

Проход интерполяции увеличивает видимую частоту кадров с использованием RIFE. Это создает "Interpolated" экспорт для более плавного движения камеры и объектов при сохранении того же вида.

Часть 3 — Видео в аудио фоновый звук

Загрузите объединенный монтаж или любую отдельную сцену в аудиораздел. Встроенный помощник по визуальному языку может автоматически черновой текстовой описания сцены; отредактируйте его по вкусу, чтобы отразить ритм, настроение и ключевые действия.
Модель фонов синтезирует синхронизированный аудио, и узел смешивателя объединяет его с вашими кадрами в MP4 с аудио. Для лучших результатов, генерируйте аудио для каждой сцены, а затем сшивайте.

Ключевые узлы в рабочем процессе Comfyui Создание Связных Сцен (Qwen Image Edit & Wan 2.2)#

WanImageToVideo (#111) Преобразует один ссылочный кадр в согласованное скрытое видео, при этом учитывая положительный и отрицательный текст. Используйте его для установки длительности каждого кадра и размера холста и для подачи стартового изображения, которое вы хотите анимировать. Поддержан моделями Wan 2.2 I2V 14B, упакованными здесь: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
TextEncodeQwenImageEditPlus (#360) Кодирует инструкции "Следующая Сцена" вместе с ссылочным изображением, чтобы редактирования следовали сюжету, но соответствовали идентичности и освещению. Сохраняйте существительные и стилистические теги последовательными через сцены для усиления непрерывности. Ссылки на модели: Comfy-Org/Qwen-Image-Edit_ComfyUI и Comfy-Org/Qwen-Image_ComfyUI.
KSamplerAdvanced (#159) Основной денойзер для каждой анимированной сцены. Этот рабочий процесс связывает три сэмплера, которые нацелены на различные режимы шума и смеси LoRA для улучшения временной стабильности. Если вы изменяете шаги или семена, делайте это равномерно через связанные сэмплеры, чтобы сохранить предсказуемое поведение движения.
ImageBatchMulti (#308) Собирает партии кадров сцены в одну длинную временную шкалу. Используйте его для переупорядочивания, удаления или замены сцен перед экспортом без изменения путей сэмплирования.
RIFE VFI (#94) Выполняет интерполяцию кадров для увеличения воспринимаемой частоты кадров. Это особенно эффективно для медленных движений камеры и плавных движений объектов. Ссылка: hzwer/Practical-RIFE.
HunyuanFoleySampler (#331) Генерирует синхронизированный фоновый звук из кадров плюс короткая текстовая подсказка, затем передает аудио в видеомиксер. Для деталей модели и файлов, см. phazei/HunyuanVideo-Foley.

Необязательные дополнения#

Для быстрой итерации используйте квантизированный маршрут GGUF Wan 2.2 с заменой блоков, когда VRAM ограничен; переключитесь обратно на полную точность для финальных рендеров.
Сохраняйте ширину, высоту и длину сцены идентичными в течение всего проекта, чтобы усилить ритм и непрерывность кадра.
В подсказках Qwen сохраняйте основные идентификаторы (имена, костюмы, реквизит) и термины освещения; изменяйте только действия и язык камеры между сценами.
Используйте глобальное семя, чтобы зафиксировать общий "характер" проекта. Изменяйте его только тогда, когда хотите изменить характер движения во всех сценах.
Интерполируйте только после того, как вы будете довольны таймингом, затем рендерите аудиоверсию для каждой сцены и объединяйте; фоновый звук для каждой сцены обычно звучит более естественно.
FLUX.1 dev — отличная основа для самого первого ключевого кадра; как только он установлен, полагайтесь на редакции Qwen для продвижения истории, сохраняя вид: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.

Признания#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем создателей Qwen Image Edit за модель, разработчиков Wan 2.2 за модель и автора (@Benji’s AI Playground) "Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial" за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям по ссылкам ниже.

Ресурсы#

YouTube/Create Coherent Scenes (Qwen Image Edit & Wan 2.2)
- Документы / Примечания к выпуску @Benji’s AI Playground: Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial

Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

Wan 2.2 | Лидер в открытой генерации видео

Доступно сейчас! Лучшая точность + более плавное движение.

Wan 2.2 FLF2V | Генерация видео из первого и последнего кадров

Создавайте плавные видео из начального и конечного кадра с помощью Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Сверхбыстрое I2V & T2V

Двойная настройка Light LoRA, в 4 раза быстрее.

Wan 2.2 VACE | Генератор видео с управлением позой

Превратите неподвижные изображения в потрясающее движение с помощью управления на основе поз.

Wan 2.1 Ditto | Генератор кинематографической переработки видео

Преобразуйте видео в потрясающие художественные стили с идеальным потоком движения.

Janus-Pro | T2I + I2T Model

Janus-Pro: Продвинутая генерация Text-to-Image и Image-to-Text.

CogvideoX Fun | Модель видео-видео

CogVideoX Fun: Продвинутая модель видео-видео для генерации видео высокого качества.

Qwen Image Edit Plus 2509 LoRA Inference | AI Toolkit ComfyUI

Применяйте обученные AI Toolkit Qwen Image Edit Plus 2509 LoRA в ComfyUI с выравненными по превью правками, используя единственный пользовательский узел RCQwenImageEditPlus.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Создайте Связные Сцены | Генератор Согласованного Искусства Истории