logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>Рабочие процессы>Wan2.2 S2V | Генератор Звука в Видео

Wan2.2 S2V | Генератор Звука в Видео

Workflow Name: RunComfy/Wan2.2-S2V
Workflow ID: 0000...1280
Этот рабочий процесс позволяет создавать видео из звука и одного изображения, делая возможными визуальные эффекты, управляемые речью или музыкой. Вы можете быстро создавать говорящие аватары, музыкальные петли или выразительные клипы без ручной анимации. Он сохраняет четкость изображения, синхронизируя губы и выражения с аудио. Вам просто нужно предоставить голос или музыку плюс эталонное изображение, и он создаст соответствующее видео. Легкая настройка означает меньше возни, больше творчества. Он разработан для бесшовной анимации, совпадающей с аудио.

ComfyUI Wan2.2 S2V Workflow

Wan2.2 S2V in ComfyUI Workflow | Audio to Talking Video
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Wan2.2 S2V Examples

ComfyUI Wan2.2 S2V Description

Wan2.2 S2V: Звук-в-Видео из Одного Изображения в ComfyUI

Wan2.2 S2V – это рабочий процесс звук-в-видео, который превращает одно эталонное изображение и аудиоклип в синхронизированное видео. Он основан на семействе моделей Wan 2.2 и предназначен для создателей, которые хотят выразительное движение, синхронизацию губ и динамику сцены, следуя за звуком или речью. Используйте Wan2.2 S2V для говорящих аватаров, музыкальных петель и быстрых сцен без ручной анимации.

Этот граф ComfyUI сочетает аудиофункции с текстовыми подсказками и неподвижным изображением для создания короткого клипа, затем объединяет кадры с оригинальным аудио. Результат — компактный, надежный конвейер, который сохраняет вид вашего эталонного изображения, позволяя аудио управлять временем и выражением.

Ключевые модели в рабочем процессе Comfyui Wan2.2 S2V

  • Wan 2.2 S2V UNet (14B, bf16). Основной генератор, который объединяет аудиофункции, текстовые условия и эталонное изображение для создания латентного видео.
  • Wan VAE (wan_2.1_vae). Кодирует/декодирует между латентным и пиксельным пространством, чтобы сохранить детализацию и цветовую четкость в рендерах Wan2.2 S2V.
  • UMT5-XXL текстовый энкодер. Предоставляет условия подсказки для стиля и контента; см. базовую модельную карту: .
  • Wav2Vec2 Large аудиоэнкодер. Извлекает надежные функции речи и ритма для генерации, основанной на звуке; см. пример карты, такой как .

Как использовать рабочий процесс Comfyui Wan2.2 S2V

Рабочий процесс организован в три группы. Вы можете запускать их от начала до конца или настраивать каждый этап по мере необходимости.

1) Входные данные

Эта группа загружает текстовые, графические и VAE компоненты Wan и подготавливает ваши подсказки. Используйте CLIPLoader (#38) с CLIPTextEncode (#6) для положительной подсказки и CLIPTextEncode (#7) для отрицательной подсказки, чтобы управлять стилем и качеством. Загружайте эталонное изображение с помощью LoadImage (#52); это закрепляет идентичность, кадрирование и палитру для Wan2.2 S2V. Держите положительные подсказки описательными, но краткими, чтобы аудио сохраняло контроль над движением. VAE (VAELoader (#39)) и загрузчик модели (UNETLoader (#37)) предварительно подключены и обычно оставляются как есть.

2) Загрузка TTS Аудио или Пользовательского Аудио

Выберите, как вы предоставите аудио. Для быстрых тестов генерируйте речь с UnifiedTTSTextNode (#71) и предварительно просматривайте с PreviewAudio (#65). Чтобы использовать свою музыку или диалог, либо LoadAudio (#78) для локальных файлов, либо VHS_LoadAudioUpload (#87) для загрузок; оба подают на Reroute (#88), чтобы нижестоящие узлы видели единственный источник аудио. Продолжительность измеряется с помощью Audio Duration (mtb) (#68), затем преобразуется в количество кадров с помощью MathExpression|pysssss (#67) с пометкой "Audio to Frame in 16 FPS". Аудиофункции создаются AudioEncoderLoader (#57) и AudioEncoderEncode (#56), которые вместе подают на узел Wan2.2 S2V с AUDIO_ENCODER_OUTPUT.

3) KSampler и Выход

WanSoundImageToVideo (#55) — сердце Wan2.2 S2V. Он потребляет ваши подсказки, VAE, аудиофункции, эталонное изображение и целое число length (кадры), чтобы излучать условную латентную последовательность. Эта латентность передается на KSampler (#3), чьи настройки семплера управляют общей связностью и детализацией, уважая временные рамки, управляемые аудио. Семплированная латентность декодируется VAEDecode (#8) в кадры, затем VHS_VideoCombine (#66) собирает видео и объединяет ваше оригинальное аудио для создания MP4. ModelSamplingSD3 (#54) используется для установки правильной семейства семплера для ядра Wan.

Ключевые узлы в рабочем процессе Comfyui Wan2.2 S2V

WanSoundImageToVideo (#55)

Управляет движением, синхронизированным с аудио, из одного изображения. Установите ref_image на портрет или сцену, которую вы хотите анимировать, подключите audio_encoder_output от энкодера и укажите length в кадрах. Увеличьте length для более длинных клипов или уменьшите для более коротких предварительных просмотров. Если вы изменяете FPS в другом месте, обновите значение кадров соответственно, чтобы время оставалось синхронизированным.

AudioEncoderLoader (#57) и AudioEncoderEncode (#56)

Загружайте и запускайте энкодер на основе Wav2Vec2, который превращает речь или музыку в функции, которые может следовать Wan. Используйте чистую речь для синхронизации губ или перкуссионное/ритмичное аудио для ритмичного движения. Если ваш язык или домен ввода отличается, замените совместимую контрольную точку Wav2Vec2 для улучшения выравнивания.

CLIPTextEncode (#6) и CLIPTextEncode (#7)

Положительные и отрицательные энкодеры подсказок для UMT5/CLIP условий. Держите положительные подсказки краткими, сосредоточенными на теме, стиле и терминах кадра; используйте отрицательные подсказки, чтобы избежать нежелательных артефактов. Слишком настойчивые подсказки могут бороться с аудио, поэтому предпочтительнее легкое руководство, позволяя Wan2.2 S2V управлять движением.

KSampler (#3)

Отбирает латентную последовательность, произведенную узлом Wan2.2 S2V. Настройте тип семплера и шаги, чтобы обменять скорость на четкость; удерживайте фиксированное семя, когда хотите воспроизводимое время с тем же аудио. Если движение кажется слишком жестким или шумным, небольшие изменения здесь могут заметно улучшить временную стабильность.

VHS_VideoCombine (#66)

Создает финальное видео и прикрепляет аудио. Установите frame_rate, чтобы соответствовать вашему предполагаемому FPS, и убедитесь, что длина клипа соответствует вашим length кадрам. Контейнер, формат пикселей и элементы управления качеством открыты для быстрых экспортов; используйте более высокое качество, когда планируете пост-обработку в редакторе.

Дополнительные опции

  • Начните с хорошо освещенного, фронтального эталонного изображения в вашей целевой пропорции, чтобы минимизировать отклонение идентичности и обрезку.
  • Для синхронизации губ держите рот открытым и используйте чистую речь; музыка с сильными переходами хорошо работает для ритмичного движения.
  • Преобразование FPS по умолчанию предполагает 16 fps; если вы изменяете FPS, обновите математику в "Audio to Frame in 16 FPS", чтобы кадры соответствовали продолжительности аудио.
  • Используйте предварительный просмотр аудио и VHS живой предварительный просмотр для быстрой итерации, затем повышайте качество, когда вам нравится время.
  • Длинные клипы увеличивают вычислительные ресурсы и VRAM; обрезайте тишину или разбивайте длинные сценарии на короткие сцены при создании многокадровых видео с Wan2.2 S2V.

Благодарности

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность Wan-Video за Wan2.2 (включая код вывода S2V), Wan-AI за Wan2.2-S2V-14B, и Gao et al. (2025) за Wan-S2V: Audio-Driven Cinematic Video Generation за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.

Ресурсы

  • Wan-Video/Wan2.2 S2V Demo
    • GitHub:
    • Hugging Face:
    • arXiv:
    • Документация / Примечания к выпуску:

Примечание: Использование указанных моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2025 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.