Wan2.2 S2V – это рабочий процесс звук-в-видео, который превращает одно эталонное изображение и аудиоклип в синхронизированное видео. Он основан на семействе моделей Wan 2.2 и предназначен для создателей, которые хотят выразительное движение, синхронизацию губ и динамику сцены, следуя за звуком или речью. Используйте Wan2.2 S2V для говорящих аватаров, музыкальных петель и быстрых сцен без ручной анимации.
Этот граф ComfyUI сочетает аудиофункции с текстовыми подсказками и неподвижным изображением для создания короткого клипа, затем объединяет кадры с оригинальным аудио. Результат — компактный, надежный конвейер, который сохраняет вид вашего эталонного изображения, позволяя аудио управлять временем и выражением.
Рабочий процесс организован в три группы. Вы можете запускать их от начала до конца или настраивать каждый этап по мере необходимости.
Эта группа загружает текстовые, графические и VAE компоненты Wan и подготавливает ваши подсказки. Используйте CLIPLoader
(#38) с CLIPTextEncode
(#6) для положительной подсказки и CLIPTextEncode
(#7) для отрицательной подсказки, чтобы управлять стилем и качеством. Загружайте эталонное изображение с помощью LoadImage
(#52); это закрепляет идентичность, кадрирование и палитру для Wan2.2 S2V. Держите положительные подсказки описательными, но краткими, чтобы аудио сохраняло контроль над движением. VAE (VAELoader
(#39)) и загрузчик модели (UNETLoader
(#37)) предварительно подключены и обычно оставляются как есть.
Выберите, как вы предоставите аудио. Для быстрых тестов генерируйте речь с UnifiedTTSTextNode
(#71) и предварительно просматривайте с PreviewAudio
(#65). Чтобы использовать свою музыку или диалог, либо LoadAudio
(#78) для локальных файлов, либо VHS_LoadAudioUpload
(#87) для загрузок; оба подают на Reroute
(#88), чтобы нижестоящие узлы видели единственный источник аудио. Продолжительность измеряется с помощью Audio Duration (mtb)
(#68), затем преобразуется в количество кадров с помощью MathExpression|pysssss
(#67) с пометкой "Audio to Frame in 16 FPS". Аудиофункции создаются AudioEncoderLoader
(#57) и AudioEncoderEncode
(#56), которые вместе подают на узел Wan2.2 S2V с AUDIO_ENCODER_OUTPUT
.
WanSoundImageToVideo
(#55) — сердце Wan2.2 S2V. Он потребляет ваши подсказки, VAE, аудиофункции, эталонное изображение и целое число length
(кадры), чтобы излучать условную латентную последовательность. Эта латентность передается на KSampler
(#3), чьи настройки семплера управляют общей связностью и детализацией, уважая временные рамки, управляемые аудио. Семплированная латентность декодируется VAEDecode
(#8) в кадры, затем VHS_VideoCombine
(#66) собирает видео и объединяет ваше оригинальное аудио для создания MP4. ModelSamplingSD3
(#54) используется для установки правильной семейства семплера для ядра Wan.
WanSoundImageToVideo
(#55)Управляет движением, синхронизированным с аудио, из одного изображения. Установите ref_image
на портрет или сцену, которую вы хотите анимировать, подключите audio_encoder_output
от энкодера и укажите length
в кадрах. Увеличьте length
для более длинных клипов или уменьшите для более коротких предварительных просмотров. Если вы изменяете FPS в другом месте, обновите значение кадров соответственно, чтобы время оставалось синхронизированным.
AudioEncoderLoader
(#57) и AudioEncoderEncode
(#56)Загружайте и запускайте энкодер на основе Wav2Vec2, который превращает речь или музыку в функции, которые может следовать Wan. Используйте чистую речь для синхронизации губ или перкуссионное/ритмичное аудио для ритмичного движения. Если ваш язык или домен ввода отличается, замените совместимую контрольную точку Wav2Vec2 для улучшения выравнивания.
CLIPTextEncode
(#6) и CLIPTextEncode
(#7)Положительные и отрицательные энкодеры подсказок для UMT5/CLIP условий. Держите положительные подсказки краткими, сосредоточенными на теме, стиле и терминах кадра; используйте отрицательные подсказки, чтобы избежать нежелательных артефактов. Слишком настойчивые подсказки могут бороться с аудио, поэтому предпочтительнее легкое руководство, позволяя Wan2.2 S2V управлять движением.
KSampler
(#3)Отбирает латентную последовательность, произведенную узлом Wan2.2 S2V. Настройте тип семплера и шаги, чтобы обменять скорость на четкость; удерживайте фиксированное семя, когда хотите воспроизводимое время с тем же аудио. Если движение кажется слишком жестким или шумным, небольшие изменения здесь могут заметно улучшить временную стабильность.
VHS_VideoCombine
(#66)Создает финальное видео и прикрепляет аудио. Установите frame_rate
, чтобы соответствовать вашему предполагаемому FPS, и убедитесь, что длина клипа соответствует вашим length
кадрам. Контейнер, формат пикселей и элементы управления качеством открыты для быстрых экспортов; используйте более высокое качество, когда планируете пост-обработку в редакторе.
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность Wan-Video за Wan2.2 (включая код вывода S2V), Wan-AI за Wan2.2-S2V-14B, и Gao et al. (2025) за Wan-S2V: Audio-Driven Cinematic Video Generation за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.
Примечание: Использование указанных моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.