SkyReels V3 ComfyUI Workflow | Image2Video + Lip-Sync Animation

SkyReels V3 ComfyUI: идентично‑верное создание изображений, видео и аудио в видео

SkyReels V3 ComfyUI — это готовый к производству рабочий процесс, который внедряет мультимодальную видеомодель SkyReels V3 в ComfyUI, чтобы вы могли анимировать неподвижные изображения, расширять существующие кадры и создавать аудио‑аватары с точным синхроном губ. Он разработан для создателей, которые хотят получить кинематографическое движение, сильную идентичность объекта и временную согласованность, оставаясь в гибкой схеме узлов.

Рабочий процесс включает четыре целенаправленных конвейера, которые можно запускать независимо или связывать: анимация персонажей из изображений в видео, продолжение видео в видео, говорящие аватары из аудио в видео и генерация следующего кадра для потока истории. Каждый путь включает чёткие точки ввода и разумные значения по умолчанию, чтобы вы могли быстро вставить свои активы и рендерить высококачественные результаты SkyReels V3.

Примечание для машин 2X Large и больше (R2V workflow): Установите Patch Sage Attention KJ (#240) sage_attention в disabled перед запуском. Если оставить включённым, это может вызвать ошибки SM90 kernel is not available.

Ключевые модели в рабочем процессе Comfyui SkyReels V3 ComfyUI

SkyReels V3 видео‑основы (R2V, V2V Shot, A2V) из пакета WanVideo FP8. Это основные генераторы, которые обрабатывают идентично‑осознающее движение, продолжение видео и аудио‑условленный синхрон губ. См. веса SkyReels V3 в пакете WanVideo на Hugging Face здесь.
OpenCLIP Vision ViT модели для руководства изображением и встраивания ссылок. Они предоставляют надёжные визуальные функции, которые помогают сохранить внешний вид и стиль на всех кадрах. Страница проекта: open_clip.
UMT5 текстовый кодировщик для понимания подсказок. Он обеспечивает богатое языковое кондиционирование для управления стилем, сценой и действиями. Репозиторий: umt5.
Функции речи Wav2Vec2 для синхрона губ и анализа аудио. Китайский базовый вариант поддерживается из коробки, а аналогичные английские варианты также работают. Карта модели: TencentGameMate/chinese-wav2vec2-base.
Qwen3‑ASR‑1.7B для преобразования речи в текст. Используется для транскрибирования эталонного аудио и начальной загрузки голосовых подсказок TTS. Карта модели: Qwen/Qwen3-ASR-1.7B.
MelBandRoFormer для разделения вокала. Полезно, когда вам нужны чистые речевые треки перед встраиванием синхрона губ. Карта модели: Kijai/MelBandRoFormer_comfy.
MiniCPM‑V для генерации подсказок с учётом кадра. Он анализирует предыдущие кадры и предлагает следующий кадр для непрерывности истории. Хаб модели: OpenBMB/MiniCPM-V.

Как использовать рабочий процесс Comfyui SkyReels V3 ComfyUI

Граф организован в четыре конвейера. Вы можете запустить любой из них отдельно или последовательно, чтобы создавать более длинные редактирования.

Анимация персонажа из изображения в видео

Модели. Загрузите UNet, CLIP и VAE в группу моделей с помощью UNETLoader (#241), CLIPLoader (#242) и VAELoader (#194). Узлы патча модели PathchSageAttentionKJ (#240) и ModelPatchTorchSettings (#239) оптимизируют настройки внимания и математики, в то время как LoraLoaderModelOnly (#250) позволяет вам опционально смешивать стиль или движение LoRA в модель SkyReels.
Загрузите эталонные изображения. Используйте три группы “Load reference images” для импорта 1–3 портретов или поз. Помощники по изменению размера ImageResizeKJv2 (#291, #298, #299, #304) выравнивают соотношение сторон и пакетируют их; более чистые фотографии идентичности дают более стабильные результаты.
Подсказка. Введите текст сцены и действия в группу Подсказок с CLIPTextEncode (#6) и опциональным отрицательным текстовым кодировщиком CLIPTextEncode (#7), чтобы отодвинуть нежелательные черты. Держите язык лаконичным и конкретным для движения и кадрирования.
Выборка и декодирование. WanPhantomSubjectToVideo (#249) объединяет ваши эталонные изображения и подсказки в идентично‑осознающий латент, который питает KSampler (#149) через ModelSamplingSD3 (#48). Декодированные кадры из VAEDecode (#264) упаковываются в фильм с VHS_VideoCombine (#280); установите целевую частоту кадров и формат файла там.

Продление цикла видео в видео

Входное видео и настройки. Принесите свой исходный клип с VHS_LoadVideo (#329). Установите, сколько дополнительных сегментов генерировать и сколько перекрытия между сегментами, используя целочисленные помощники “Number of Extend” (#342) и “Overlapping Frames” (#341). ImageResizeKJv2 (#327) стандартизирует разрешение для выборщика.
Цикл выборки продлевает видео. Пара цикла easy forLoopStart (#331) и easy forLoopEnd (#332) проходит по клипу в окнах, чтобы стабилизировать переходы. Каждое окно кодируется с помощью WanVideoEncode (#326), получает нейтральные или контрольные встраивания через WanVideoEmptyEmbeds (#328), и очищается с помощью WanVideoSampler (#320) из WanVideoModelLoader (#319). Кадры декодируются с помощью WanVideoDecode (#321) и предварительно просматриваются или сохраняются с помощью VHS_VideoCombine (#322, #335).
Помощники по производительности. WanVideoTorchCompileSettings (#323) и WanVideoBlockSwap (#325) позволяют использовать трюки компиляции и памяти для более длинных или более высоких разрешений.

Говорящий аватар из аудио в видео

1 – Создайте аудио. Вы можете сгенерировать голосовой трек с клонированным голосом с помощью FB_Qwen3TTSVoiceClonePrompt (#416) и FB_Qwen3TTSVoiceClone (#412), или загрузить любой предварительно записанный голос с помощью LoadAudio (#417). Qwen3ASRLoader (#414) плюс Qwen3ASRTranscribe (#413) помогают извлечь текст из эталонного клипа, чтобы засеять подсказку TTS, если это необходимо.
2 – Аудиофункции. DownloadAndLoadWav2VecModel (#348) подаёт MultiTalkWav2VecEmbeds (#350) для создания встраиваний движения губ из вашей речи; длина синхронизирована с аудио и предварительно просматривается с помощью PreviewAudio (#422). Используйте Any Switch (rgthree) (#435), чтобы выбрать выход TTS или ваш импортированный файл в качестве управляющего трека.
3 – Входное изображение. Загрузите говорящее лицо в группу “3 - Input image” и определите размер с помощью ImageResizeKJv2 (#370). Чистые, лицевые портреты с постоянным освещением работают лучше всего.
Генерация эталонного видео. Сначала создайте короткий визуальный якорь из неподвижного изображения с помощью WanVideoImageToVideoEncode (#392). Функции CLIP‑Vision из CLIPVisionLoader (#352) и WanVideoClipVisionEncode (#351) стабилизируют идентичность на следующем этапе; планировщик WanVideoSchedulerv2 (#385) подготовлен в группе Настройки выборки.
Генерация синхрона губ с аудио. WanVideoImageToVideoSkyreelsv3_audio (#383) сочетает начальное изображение, опциональные эталонные кадры и встраивания CLIP‑Vision в условие изображения. WanVideoSamplerv2 (#384) затем очищает с помощью модели SkyReels A2V, в то время как WanVideoSamplerExtraArgs (#386) вводит встраивания MultiTalk для точных форм рта. WanVideoPassImagesFromSamples (#381) передаёт декодированные кадры в VHS_VideoCombine (#346), где финальное видео соединяется с вашим аудио.

Генерация следующего кадра из видео в видео

Предварительная обработка кадров видео. Импортируйте предыдущий кадр с помощью VHS_LoadVideo (#443) и измените его размер с помощью ImageResizeKJv2 (#441). GetImageRangeFromBatch (#445) выбирает контекстный срез, который WanVideoEncode (#440) превращает в латенты; WanVideoEmptyEmbeds (#442) подготавливает окно условия.
Автоматическая видеоподсказка. CreateVideo (#450) собирает компактный прокси‑клип из контекстных кадров, которые AILab_MiniCPM_V_Advanced (#449) анализирует, чтобы составить черновик следующей подсказки. Проверьте или уточните черновик в ShowText|pysssss (#447) и внедрите его с помощью WanVideoTextEncodeCached (#444) перед выборкой.
Модели и выборка. Загрузите модель V2V Shot с помощью WanVideoModelLoader (#436) и WanVideoVAELoader (#438); опциональный WanVideoBlockSwap (#439) обрабатывает VRAM. WanVideoSampler (#451) генерирует продолжение, WanVideoDecode (#437) рендерит кадры, и VHS_VideoCombine (#446) выводит финальный кадр. Этот путь SkyReels V3 ComfyUI идеально подходит для раскадровок и предварительных визуализаций, где каждый новый кадр должен уважать предыдущий.

Ключевые узлы в рабочем процессе Comfyui SkyReels V3 ComfyUI

WanPhantomSubjectToVideo (#249). Создаёт идентично‑осознающий латент из ваших пакетированных эталонных изображений и текстовых подсказок, который затем управляет выборщиком. Настройте количество и разнообразие эталонов для балансировки фиксации сходства и креативного движения; держите узлы изменения размера, которые его питают, последовательными, чтобы избежать дрейфа. Ссылка: WanVideo Wrapper на GitHub содержит заметки по реализации и ожидаемые входы ComfyUI‑WanVideoWrapper.
WanVideoImageToVideoEncode (#392). Кодирует неподвижное изображение в стабильное семя кадра и опционально смешивает руководство CLIP‑Vision для позы и кадрирования. Используйте его для создания якорных кадров перед этапом, управляемым аудио, чтобы идентичность и установка камеры оставались последовательными через конвейеры. Документы обёртки: ComfyUI‑WanVideoWrapper.
WanVideoImageToVideoSkyreelsv3_audio (#383). Подготавливает встраивания изображений, адаптированные для выборщика A2V, и объединяет опциональные эталонные кадры видео. Убедитесь, что его ширина и высота соответствуют пути выборщика; соедините его с WanVideoSamplerv2 и MultiTalkWav2VecEmbeds для точного синхрона губ.
WanVideoSamplerv2 (#384, #387). Основной очиститель для SkyReels V3, который принимает встраивания изображений и текста плюс настройки планировщика. Узлы WanVideoSamplerExtraArgs (#386, #409) — это то место, где вводятся функции синхрона губ, цикла или контекста; держите их подключёнными при переключении между моделями A2V и I2V. Детали реализации: ComfyUI‑WanVideoWrapper.
MultiTalkWav2VecEmbeds (#350). Преобразует речь во временно выровненные встраивания, которые управляют движением рта. Соответствие запланированного бюджета кадров и обеспечение чистых вокалов значительно улучшает точность фонем. Справочная модель Wav2Vec: TencentGameMate/chinese-wav2vec2-base.
AILab_MiniCPM_V_Advanced (#449). Анализирует предыдущий кадр и составляет структурированную подсказку для персонажа, фона, действий, настроения и освещения. Используйте это, чтобы сохранить непрерывность повествования при использовании пути V2V следующего кадра; полученный текст передаётся в WanVideoTextEncodeCached. Семейство моделей: OpenBMB/MiniCPM-V.

Дополнительные возможности

Держите разрешения изображений, видео и выборщика последовательными на всех подключённых узлах, чтобы избежать искажений аспектов и мерцания идентичности.
Для более длинных расширений увеличьте перекрытие окон в цикле продления V2V, чтобы сгладить переходы между сегментами.
Если память GPU ограничена, оставьте узлы Reserved VRAM (ReservedVRAMSetter (#312, #448)) включёнными и используйте блоки настроек компиляции перед выборкой.
Когда говорящие аватары сбиваются с ритма, отдавайте приоритет чистой речи или разделяйте вокалы с помощью MelBandRoFormer перед созданием встраиваний MultiTalk.
Финальные настройки доставки, такие как частота кадров, формат пикселей и CRF, контролируются в выходных узлах VHS_VideoCombine; сопоставьте частоту кадров с вашим источником для бесшовного редактирования.

Этот README охватывает полный граф SkyReels V3 ComfyUI, чтобы вы могли выбрать путь, который подходит вашему проекту, комбинировать их при необходимости и рендерить последовательное, готовое к истории видео с минимальными пробами и ошибками.

Благодарности

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаём @Benji’s AI Playground и SkyReels за их вклад и поддержку в SkyReels V3 ComfyUI workflow. За авторитетной информацией обращайтесь к оригинальной документации и репозиториям, связанным ниже.

Ресурсы

SkyReels/V3 ComfyUI Source
- Документы / Примечания к выпуску: SkyReels V3 ComfyUI Source from @Benji’s AI Playground

Примечание: использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими сторонами.

SkyReels V3 ComfyUI | Генератор AI видео

SkyReels V3 ComfyUI: идентично‑верное создание изображений, видео и аудио в видео

Ключевые модели в рабочем процессе Comfyui SkyReels V3 ComfyUI

Как использовать рабочий процесс Comfyui SkyReels V3 ComfyUI

Анимация персонажа из изображения в видео

Продление цикла видео в видео

Говорящий аватар из аудио в видео

Генерация следующего кадра из видео в видео

Ключевые узлы в рабочем процессе Comfyui SkyReels V3 ComfyUI

Дополнительные возможности

Благодарности

Ресурсы

Want More ComfyUI Workflows?

SkyReels V1 | Создание видео с акцентом на человека

SkyReels-A2 | Генерация видео с несколькими элементами

LatentSync| Модель синхронизации губ

Sonic | Анимация портретов с синхронизацией речи

Управляемая анимация в AI Video | Инструмент управления движением

Era3D | ComfyUI 3D Pack

Последовательные и реалистичные персонажи

Trellis | Изображение в 3D