Wan2.2 S2V в ComfyUI Workflow | Аудио в Говорящее Видео

ComfyUI Wan2.2 S2V Workflow

Wan2.2 S2V in ComfyUI Workflow | Audio to Talking Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan2.2 S2V Examples

Wan2.2 S2V: Звук-в-Видео из Одного Изображения в ComfyUI#

Wan2.2 S2V – это рабочий процесс звук-в-видео, который превращает одно эталонное изображение и аудиоклип в синхронизированное видео. Он основан на семействе моделей Wan 2.2 и предназначен для создателей, которые хотят выразительное движение, синхронизацию губ и динамику сцены, следуя за звуком или речью. Используйте Wan2.2 S2V для говорящих аватаров, музыкальных петель и быстрых сцен без ручной анимации.

Этот граф ComfyUI сочетает аудиофункции с текстовыми подсказками и неподвижным изображением для создания короткого клипа, затем объединяет кадры с оригинальным аудио. Результат — компактный, надежный конвейер, который сохраняет вид вашего эталонного изображения, позволяя аудио управлять временем и выражением.

Ключевые модели в рабочем процессе Comfyui Wan2.2 S2V#

Wan 2.2 S2V UNet (14B, bf16). Основной генератор, который объединяет аудиофункции, текстовые условия и эталонное изображение для создания латентного видео.
Wan VAE (wan_2.1_vae). Кодирует/декодирует между латентным и пиксельным пространством, чтобы сохранить детализацию и цветовую четкость в рендерах Wan2.2 S2V.
UMT5-XXL текстовый энкодер. Предоставляет условия подсказки для стиля и контента; см. базовую модельную карту: google/umt5-xxl.
Wav2Vec2 Large аудиоэнкодер. Извлекает надежные функции речи и ритма для генерации, основанной на звуке; см. пример карты, такой как facebook/wav2vec2-large-960h.

Как использовать рабочий процесс Comfyui Wan2.2 S2V#

Рабочий процесс организован в три группы. Вы можете запускать их от начала до конца или настраивать каждый этап по мере необходимости.

1) Входные данные#

Эта группа загружает текстовые, графические и VAE компоненты Wan и подготавливает ваши подсказки. Используйте CLIPLoader (#38) с CLIPTextEncode (#6) для положительной подсказки и CLIPTextEncode (#7) для отрицательной подсказки, чтобы управлять стилем и качеством. Загружайте эталонное изображение с помощью LoadImage (#52); это закрепляет идентичность, кадрирование и палитру для Wan2.2 S2V. Держите положительные подсказки описательными, но краткими, чтобы аудио сохраняло контроль над движением. VAE (VAELoader (#39)) и загрузчик модели (UNETLoader (#37)) предварительно подключены и обычно оставляются как есть.

2) Загрузка TTS Аудио или Пользовательского Аудио#

Выберите, как вы предоставите аудио. Для быстрых тестов генерируйте речь с UnifiedTTSTextNode (#71) и предварительно просматривайте с PreviewAudio (#65). Чтобы использовать свою музыку или диалог, либо LoadAudio (#78) для локальных файлов, либо VHS_LoadAudioUpload (#87) для загрузок; оба подают на Reroute (#88), чтобы нижестоящие узлы видели единственный источник аудио. Продолжительность измеряется с помощью Audio Duration (mtb) (#68), затем преобразуется в количество кадров с помощью MathExpression|pysssss (#67) с пометкой "Audio to Frame in 16 FPS". Аудиофункции создаются AudioEncoderLoader (#57) и AudioEncoderEncode (#56), которые вместе подают на узел Wan2.2 S2V с AUDIO_ENCODER_OUTPUT.

3) KSampler и Выход#

WanSoundImageToVideo (#55) — сердце Wan2.2 S2V. Он потребляет ваши подсказки, VAE, аудиофункции, эталонное изображение и целое число length (кадры), чтобы излучать условную латентную последовательность. Эта латентность передается на KSampler (#3), чьи настройки семплера управляют общей связностью и детализацией, уважая временные рамки, управляемые аудио. Семплированная латентность декодируется VAEDecode (#8) в кадры, затем VHS_VideoCombine (#66) собирает видео и объединяет ваше оригинальное аудио для создания MP4. ModelSamplingSD3 (#54) используется для установки правильной семейства семплера для ядра Wan.

Ключевые узлы в рабочем процессе Comfyui Wan2.2 S2V#

`WanSoundImageToVideo` (#55)#

Управляет движением, синхронизированным с аудио, из одного изображения. Установите ref_image на портрет или сцену, которую вы хотите анимировать, подключите audio_encoder_output от энкодера и укажите length в кадрах. Увеличьте length для более длинных клипов или уменьшите для более коротких предварительных просмотров. Если вы изменяете FPS в другом месте, обновите значение кадров соответственно, чтобы время оставалось синхронизированным.

`AudioEncoderLoader` (#57) и `AudioEncoderEncode` (#56)#

Загружайте и запускайте энкодер на основе Wav2Vec2, который превращает речь или музыку в функции, которые может следовать Wan. Используйте чистую речь для синхронизации губ или перкуссионное/ритмичное аудио для ритмичного движения. Если ваш язык или домен ввода отличается, замените совместимую контрольную точку Wav2Vec2 для улучшения выравнивания.

`CLIPTextEncode` (#6) и `CLIPTextEncode` (#7)#

Положительные и отрицательные энкодеры подсказок для UMT5/CLIP условий. Держите положительные подсказки краткими, сосредоточенными на теме, стиле и терминах кадра; используйте отрицательные подсказки, чтобы избежать нежелательных артефактов. Слишком настойчивые подсказки могут бороться с аудио, поэтому предпочтительнее легкое руководство, позволяя Wan2.2 S2V управлять движением.

`KSampler` (#3)#

Отбирает латентную последовательность, произведенную узлом Wan2.2 S2V. Настройте тип семплера и шаги, чтобы обменять скорость на четкость; удерживайте фиксированное семя, когда хотите воспроизводимое время с тем же аудио. Если движение кажется слишком жестким или шумным, небольшие изменения здесь могут заметно улучшить временную стабильность.

`VHS_VideoCombine` (#66)#

Создает финальное видео и прикрепляет аудио. Установите frame_rate, чтобы соответствовать вашему предполагаемому FPS, и убедитесь, что длина клипа соответствует вашим length кадрам. Контейнер, формат пикселей и элементы управления качеством открыты для быстрых экспортов; используйте более высокое качество, когда планируете пост-обработку в редакторе.

Дополнительные опции#

Начните с хорошо освещенного, фронтального эталонного изображения в вашей целевой пропорции, чтобы минимизировать отклонение идентичности и обрезку.
Для синхронизации губ держите рот открытым и используйте чистую речь; музыка с сильными переходами хорошо работает для ритмичного движения.
Преобразование FPS по умолчанию предполагает 16 fps; если вы изменяете FPS, обновите математику в "Audio to Frame in 16 FPS", чтобы кадры соответствовали продолжительности аудио.
Используйте предварительный просмотр аудио и VHS живой предварительный просмотр для быстрой итерации, затем повышайте качество, когда вам нравится время.
Длинные клипы увеличивают вычислительные ресурсы и VRAM; обрезайте тишину или разбивайте длинные сценарии на короткие сцены при создании многокадровых видео с Wan2.2 S2V.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность Wan-Video за Wan2.2 (включая код вывода S2V), Wan-AI за Wan2.2-S2V-14B, и Gao et al. (2025) за Wan-S2V: Audio-Driven Cinematic Video Generation за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.

Ресурсы#

Wan-Video/Wan2.2 S2V Demo
- GitHub: Wan-Video/Wan2.2
- Hugging Face: Wan-AI/Wan2.2-S2V-14B
- arXiv: Wan-S2V: Audio-Driven Cinematic Video Generation
- Документация / Примечания к выпуску: Wan2.2 S2V Demo

Примечание: Использование указанных моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

Mochi 1 | Genmo Текст-видео

Демонстрация преобразования текста в видео с использованием модели Genmo Mochi 1

Hallo2 | Портретная анимация синхронизации губ

Аудио-управляемая синхронизация губ для портретной анимации в 4K.

SUPIR | Фотореалистичное улучшение изображений/видео

SUPIR позволяет выполнять фотореалистичное восстановление изображений, работает с моделью SDXL и поддерживает улучшение на основе текстовых подсказок.

HiDream-I1 | T2I

Высококачественная генерация изображений с использованием модели на 17B параметров.

Stable Diffusion 3 (SD3) | Текст в изображение

Интегрируйте Stable Diffusion 3 medium в свой рабочий процесс для создания исключительного искусства ИИ.

CorridorKey ComfyUI | Инструмент для управляемого видео кейинга

Управляемое видео кейинг с контролем чистого извлечения объекта.

IPAdapter Plus (V2) | Объединение Изображений

Используйте различные методы слияния с IPAdapter Plus для точного и эффективного контроля смешивания изображений.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Wan2.2 S2V | Генератор Звука в Видео