ComfyUI>Рабочие процессы>LongCat Video Avatar 1.5 ComfyUI | Генератор с синхронизацией губ

LongCat Video Avatar 1.5 ComfyUI | Генератор с синхронизацией губ

Workflow Name: RunComfy/LongCat-Video-Avatar-1.5
Workflow ID: 0000...1437
Этот рабочий процесс помогает превратить одно изображение персонажа и аудиоклип в идеально выровненное, говорящее аватар-видео. Он использует LongCat-Avatar-15 с узлами WanVideoWrapper для точной синхронизации губ. С анализом аудио Whisper и декодированием Wan 2.1 VAE, он генерирует вертикальные выходные MP4, готовые для публикации. Легко интегрируется и запускается в вашем творческом процессе. Идеально подходит для создателей контента, визуальных дизайнеров и разработчиков, которым нужен надежный генератор видеоаватаров.

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

LongCat Video Avatar 1.5 Single Character ComfyUI | Audio2Video Sync
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Этот рабочий процесс преобразует одно опорное изображение и звуковую дорожку в вертикальный говорящий аватар с синхронизацией губ. Построен на основе LongCat-Avatar-15 и пользовательских узлов WanVideoWrapper, он использует Whisper для извлечения речевых подсказок, Wan 2.1 VAE для латентного кодирования/декодирования и дистиллированный LongCat LoRA для сохранения идентичности. Результат — портретное видео MP4, сохраняющее внешний вид персонажа и движение губ в синхронности.

Разработан как путь для одного персонажа, рабочий процесс LongCat Video Avatar 1.5 Single Character ComfyUI идеально подходит для создателей, которые хотят шаблон, готовый к RunComfy, с четкими входными данными и воспроизводимым выходом. Вы предоставляете одно изображение лица и один аудиоклип, настраиваете несколько стилевых подсказок и создаете последовательное аватар-видео без дополнительных проводок.

Ключевые модели в рабочем процессе Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

  • LongCat-Avatar-15 (дистиллированный) и LongCat Avatar LoRA: веса генерации видео с сохранением идентичности, адаптированные для ComfyUI. Предоставлены в сообществе, чтобы аватар сохранял внешний вид во время речи. Файлы модели
  • Wan 2.1 VAE: вариационный автокодировщик, ориентированный на видео, используемый для кодирования опорного кадра в латенты и декодирования финальных кадров обратно в изображения. Включен в тот же пакет сообщества. Файлы модели
  • OpenAI Whisper large v3: представление речи, определяющее формы рта и время для точной синхронизации губ. Карточка модели
  • Google UMT5‑XXL текстовый кодировщик: преобразует положительные/отрицательные подсказки в кондиционирование для нюансов движения и позы. Карточка модели

Как использовать рабочий процесс Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

График следует четкому пути от входных данных к видео: загрузка активов, вычисление аудиоэмбеддингов, подготовка текстовых указаний, кодирование внешнего вида, выборка кадров, затем объединение аудио и сохранение.

Опорное изображение#

Загрузите один портрет, обращенный вперед, в LoadImage (#26). Изображение нормализуется с помощью ImageResizeKJv2 (#25) до вертикального полотна 9:16, чтобы персонаж заполнил кадр без искажений. Используйте чистое, равномерно освещенное лицо с минимальными перекрытиями для лучшего сохранения идентичности. Если ваш источник шире, чем выше, центрируйте вокруг головы и плеч.

Звуковое аудио#

Перетащите аудиофайл в LoadAudio (#5). При необходимости обрежьте его с помощью TrimAudioDuration (#29), чтобы длина финального видео соответствовала вашей цели. Небольшая математическая утилита (Evaluate Floats (#39)) умножает выбранные вами секунды на кадры в секунду, чтобы автоматически установить общее количество кадров. Быстрый способ контролировать длительность — отрегулировать секунды или FPS перед рендерингом.

Эмбеддинги речи (синхронизация губ)#

LongCatAvatarWhisperEmbeds (#3) запускает Whisper для создания MultiTalk эмбеддингов, которые кодируют фонемы, паузы и акценты. Эти эмбеддинги являются временной основой для форм рта и тонкого движения головы. Убедитесь, что общее количество кадров и FPS здесь соответствует вашим настройкам экспорта, чтобы избежать дрейфа. При необходимости включите нормализацию громкости, когда запись варьируется по уровню.

Текстовые указания#

LoadWanVideoT5TextEncoder (#16) и WanVideoTextEncode (#15) преобразуют ваши положительные и отрицательные подсказки в кондиционирование. Используйте положительную подсказку, чтобы описать естественное поведение, которое вы хотите (спокойные повороты головы, тонкие кивки), и оставьте отрицательную подсказку для артефактов, которых следует избегать (жесткое движение, деформированные руки). Текстовые указания подталкивают стиль движения, не меняя идентичность персонажа.

Кодирование внешнего вида#

WanVideoVAELoader (#19) и WanVideoEncode (#24) преобразуют ваш портрет в латенты. WanVideoLongCatAvatarExtendEmbeds (#6) затем объединяет опорный латент с аудиоэмбеддингами, так что идентичность остается стабильной в течение всех кадров, пока рот следует за речью. Если аудио короче клипа, узел может разумно дополнить или зациклить, чтобы время оставалось плавным.

Загрузка модели аватара#

WanVideoLoraSelect (#27) прикрепляет дистиллированный LongCat Avatar LoRA к базовой модели LongCat‑Avatar‑15, все загружено с помощью WanVideoModelLoader (#8). Это сочетание сохраняет черты лица, позволяя выразительное движение при разговоре. Внутренние помощники по замене блоков помогают предсказуемо использовать VRAM на общих или скромных GPU.

Выборка кадров#

WanVideoSchedulerv2 (#52) выбирает расписание решения, настроенное для LongCat distill, а WanVideoSamplerv2 (#51) генерирует латентное видео. Установите семя для воспроизводимых результатов и отрегулируйте силу управления, если вам нужно больше или меньше соответствия подсказкам. Семплер принимает изображение, текст и аудиоэмбеддинги вместе, так что рот, голова и идентичность согласованы.

Декодирование и сохранение MP4#

WanVideoDecode (#20) преобразует финальные латенты обратно в изображения. VHS_VideoCombine (#14) объединяет кадры и аудио в H.264 MP4 с указанной частотой кадров и префиксом имени файла. Выходной файл — это готовый к публикации вертикальный аватар-клип, который сохраняет синхронизацию губ и стиль.

Ключевые узлы в рабочем процессе Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

LongCatAvatarWhisperEmbeds (#3)#

Создает аудиоэмбеддинги MultiTalk из Whisper, которые управляют синхронизацией губ и микро-временем. Держите fps и num_frames в соответствии с вашим экспортом, чтобы избежать десинхронизации. Когда записи варьируются по уровню, включите нормализацию громкости. Этот узел происходит из интеграции WanVideoWrapper LongCat. Репозиторий

WanVideoLongCatAvatarExtendEmbeds (#6)#

Объединяет опорный латент и аудиоэмбеддинги в кадро-осведомленные эмбеддинги изображений. Если ваша речь короче целевой длины, выберите, как дополнить или зациклить, чтобы движение оставалось естественным. Параметры перекрытия и опорного кадра помогают поддерживать стабильность идентичности между срезами на более длинных клипах. Репозиторий

WanVideoModelLoader (#8)#

Загружает базу LongCat‑Avatar‑15 с выбранным LongCat Avatar LoRA для сохранения идентичности. Используйте его с включенными опциями управления VRAM и замены блоков при запуске на ограниченном оборудовании. Переключитесь на другой вариант LongCat или LoRA здесь, чтобы изменить стиль без повторного подключения. Репозиторий

WanVideoSamplerv2 (#51)#

Основной генератор, который синтезирует кадры из модели, планировщика, текстовых и изображений эмбеддингов. Настройте свободное управление классификатором, если вам нужно более строгое соблюдение подсказок или более свободное движение. Исправьте семя, чтобы заблокировать воспроизводимость на нескольких рендерах. Репозиторий

ImageResizeKJv2 (#25)#

Подготавливает портретно-ориентированное полотно, чтобы аватар заполнил кадр 9:16. Сохраняйте правильные обрезки вокруг лица и плеч для надежного кодирования идентичности. Соответствие делимости кодировщика/декодера избегает артефактов по краям.

VHS_VideoCombine (#14)#

Объединяет кадры и аудио в единый MP4 с выбранной частотой кадров и префиксом имени файла. Включите сохранение метаданных для более легкого отслеживания итераций. Этот узел является частью VideoHelperSuite. Репозиторий

Дополнительные опции#

  • Используйте нейтральное, обращенное вперед фото с ясными глазами и ртом; избегайте сильных перекрытий и экстремальных углов.
  • Очистите аудио (удалите длинные паузы, уменьшите фоновый шум) для более стабильного движения губ.
  • Держите FPS постоянным между этапом эмбеддинга Whisper и финальным экспортом, чтобы поддерживать плотную синхронизацию губ.
  • Для более сильного сохранения идентичности придерживайтесь предоставленного LongCat Avatar LoRA; меняйте LoRA только тогда, когда вы намерены изменить стиль. Файлы модели
  • Установите фиксированное семя, когда вам нужны идентичные перерендеры или A/B тестирование только одного изменения подсказки.
  • На более низком VRAM включите замену блоков в загрузчике моделей, чтобы обменять некоторую скорость на стабильность.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность RunningHub за источник рабочего процесса, Meigen AI за LongCat Video Avatar 1.5 и Kijai за модельные файлы LongCat-Video_comfy и ComfyUI-WanVideoWrapper за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.