LongCat Video Avatar 1.5 Single Character ComfyUI

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Этот рабочий процесс преобразует одно опорное изображение и звуковую дорожку в вертикальный говорящий аватар с синхронизацией губ. Построен на основе LongCat-Avatar-15 и пользовательских узлов WanVideoWrapper, он использует Whisper для извлечения речевых подсказок, Wan 2.1 VAE для латентного кодирования/декодирования и дистиллированный LongCat LoRA для сохранения идентичности. Результат — портретное видео MP4, сохраняющее внешний вид персонажа и движение губ в синхронности.

Разработан как путь для одного персонажа, рабочий процесс LongCat Video Avatar 1.5 Single Character ComfyUI идеально подходит для создателей, которые хотят шаблон, готовый к RunComfy, с четкими входными данными и воспроизводимым выходом. Вы предоставляете одно изображение лица и один аудиоклип, настраиваете несколько стилевых подсказок и создаете последовательное аватар-видео без дополнительных проводок.

Ключевые модели в рабочем процессе Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

LongCat-Avatar-15 (дистиллированный) и LongCat Avatar LoRA: веса генерации видео с сохранением идентичности, адаптированные для ComfyUI. Предоставлены в сообществе, чтобы аватар сохранял внешний вид во время речи. Файлы модели
Wan 2.1 VAE: вариационный автокодировщик, ориентированный на видео, используемый для кодирования опорного кадра в латенты и декодирования финальных кадров обратно в изображения. Включен в тот же пакет сообщества. Файлы модели
OpenAI Whisper large v3: представление речи, определяющее формы рта и время для точной синхронизации губ. Карточка модели
Google UMT5‑XXL текстовый кодировщик: преобразует положительные/отрицательные подсказки в кондиционирование для нюансов движения и позы. Карточка модели

Как использовать рабочий процесс Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

График следует четкому пути от входных данных к видео: загрузка активов, вычисление аудиоэмбеддингов, подготовка текстовых указаний, кодирование внешнего вида, выборка кадров, затем объединение аудио и сохранение.

Опорное изображение#

Загрузите один портрет, обращенный вперед, в LoadImage (#26). Изображение нормализуется с помощью ImageResizeKJv2 (#25) до вертикального полотна 9:16, чтобы персонаж заполнил кадр без искажений. Используйте чистое, равномерно освещенное лицо с минимальными перекрытиями для лучшего сохранения идентичности. Если ваш источник шире, чем выше, центрируйте вокруг головы и плеч.

Звуковое аудио#

Перетащите аудиофайл в LoadAudio (#5). При необходимости обрежьте его с помощью TrimAudioDuration (#29), чтобы длина финального видео соответствовала вашей цели. Небольшая математическая утилита (Evaluate Floats (#39)) умножает выбранные вами секунды на кадры в секунду, чтобы автоматически установить общее количество кадров. Быстрый способ контролировать длительность — отрегулировать секунды или FPS перед рендерингом.

Эмбеддинги речи (синхронизация губ)#

LongCatAvatarWhisperEmbeds (#3) запускает Whisper для создания MultiTalk эмбеддингов, которые кодируют фонемы, паузы и акценты. Эти эмбеддинги являются временной основой для форм рта и тонкого движения головы. Убедитесь, что общее количество кадров и FPS здесь соответствует вашим настройкам экспорта, чтобы избежать дрейфа. При необходимости включите нормализацию громкости, когда запись варьируется по уровню.

Текстовые указания#

LoadWanVideoT5TextEncoder (#16) и WanVideoTextEncode (#15) преобразуют ваши положительные и отрицательные подсказки в кондиционирование. Используйте положительную подсказку, чтобы описать естественное поведение, которое вы хотите (спокойные повороты головы, тонкие кивки), и оставьте отрицательную подсказку для артефактов, которых следует избегать (жесткое движение, деформированные руки). Текстовые указания подталкивают стиль движения, не меняя идентичность персонажа.

Кодирование внешнего вида#

WanVideoVAELoader (#19) и WanVideoEncode (#24) преобразуют ваш портрет в латенты. WanVideoLongCatAvatarExtendEmbeds (#6) затем объединяет опорный латент с аудиоэмбеддингами, так что идентичность остается стабильной в течение всех кадров, пока рот следует за речью. Если аудио короче клипа, узел может разумно дополнить или зациклить, чтобы время оставалось плавным.

Загрузка модели аватара#

WanVideoLoraSelect (#27) прикрепляет дистиллированный LongCat Avatar LoRA к базовой модели LongCat‑Avatar‑15, все загружено с помощью WanVideoModelLoader (#8). Это сочетание сохраняет черты лица, позволяя выразительное движение при разговоре. Внутренние помощники по замене блоков помогают предсказуемо использовать VRAM на общих или скромных GPU.

Выборка кадров#

WanVideoSchedulerv2 (#52) выбирает расписание решения, настроенное для LongCat distill, а WanVideoSamplerv2 (#51) генерирует латентное видео. Установите семя для воспроизводимых результатов и отрегулируйте силу управления, если вам нужно больше или меньше соответствия подсказкам. Семплер принимает изображение, текст и аудиоэмбеддинги вместе, так что рот, голова и идентичность согласованы.

Декодирование и сохранение MP4#

WanVideoDecode (#20) преобразует финальные латенты обратно в изображения. VHS_VideoCombine (#14) объединяет кадры и аудио в H.264 MP4 с указанной частотой кадров и префиксом имени файла. Выходной файл — это готовый к публикации вертикальный аватар-клип, который сохраняет синхронизацию губ и стиль.

Ключевые узлы в рабочем процессе Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#

`LongCatAvatarWhisperEmbeds` (#3)#

Создает аудиоэмбеддинги MultiTalk из Whisper, которые управляют синхронизацией губ и микро-временем. Держите fps и num_frames в соответствии с вашим экспортом, чтобы избежать десинхронизации. Когда записи варьируются по уровню, включите нормализацию громкости. Этот узел происходит из интеграции WanVideoWrapper LongCat. Репозиторий

`WanVideoLongCatAvatarExtendEmbeds` (#6)#

Объединяет опорный латент и аудиоэмбеддинги в кадро-осведомленные эмбеддинги изображений. Если ваша речь короче целевой длины, выберите, как дополнить или зациклить, чтобы движение оставалось естественным. Параметры перекрытия и опорного кадра помогают поддерживать стабильность идентичности между срезами на более длинных клипах. Репозиторий

`WanVideoModelLoader` (#8)#

Загружает базу LongCat‑Avatar‑15 с выбранным LongCat Avatar LoRA для сохранения идентичности. Используйте его с включенными опциями управления VRAM и замены блоков при запуске на ограниченном оборудовании. Переключитесь на другой вариант LongCat или LoRA здесь, чтобы изменить стиль без повторного подключения. Репозиторий

`WanVideoSamplerv2` (#51)#

Основной генератор, который синтезирует кадры из модели, планировщика, текстовых и изображений эмбеддингов. Настройте свободное управление классификатором, если вам нужно более строгое соблюдение подсказок или более свободное движение. Исправьте семя, чтобы заблокировать воспроизводимость на нескольких рендерах. Репозиторий

`ImageResizeKJv2` (#25)#

Подготавливает портретно-ориентированное полотно, чтобы аватар заполнил кадр 9:16. Сохраняйте правильные обрезки вокруг лица и плеч для надежного кодирования идентичности. Соответствие делимости кодировщика/декодера избегает артефактов по краям.

`VHS_VideoCombine` (#14)#

Объединяет кадры и аудио в единый MP4 с выбранной частотой кадров и префиксом имени файла. Включите сохранение метаданных для более легкого отслеживания итераций. Этот узел является частью VideoHelperSuite. Репозиторий

Дополнительные опции#

Используйте нейтральное, обращенное вперед фото с ясными глазами и ртом; избегайте сильных перекрытий и экстремальных углов.
Очистите аудио (удалите длинные паузы, уменьшите фоновый шум) для более стабильного движения губ.
Держите FPS постоянным между этапом эмбеддинга Whisper и финальным экспортом, чтобы поддерживать плотную синхронизацию губ.
Для более сильного сохранения идентичности придерживайтесь предоставленного LongCat Avatar LoRA; меняйте LoRA только тогда, когда вы намерены изменить стиль. Файлы модели
Установите фиксированное семя, когда вам нужны идентичные перерендеры или A/B тестирование только одного изменения подсказки.
На более низком VRAM включите замену блоков в загрузчике моделей, чтобы обменять некоторую скорость на стабильность.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность RunningHub за источник рабочего процесса, Meigen AI за LongCat Video Avatar 1.5 и Kijai за модельные файлы LongCat-Video_comfy и ComfyUI-WanVideoWrapper за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

RunningHub/Источник рабочего процесса
- Документы / Примечания к выпуску: Источник рабочего процесса RunningHub
Meigen AI/Страница проекта LongCat Video Avatar 1.5
- Документы / Примечания к выпуску: Страница проекта LongCat Video Avatar 1.5
Kijai/Файлы модели LongCat Video Comfy
- Hugging Face: Kijai/LongCat-Video_comfy
Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

InfiniteTalk | Генератор Синхронизированных Аватаров

Фото + Голос = Идеально Синхронизированный Говорящий Аватар за Минуты

Multitalk | Создатель реалистичных говорящих видео

Создайте видео с синхронизацией губ для нескольких спикеров из портретов и голосов одним кликом!

LatentSync| Модель синхронизации губ

Продвинутая технология синхронизации губ, управляемая аудио.

Hallo2 | Портретная анимация синхронизации губ

Аудио-управляемая синхронизация губ для портретной анимации в 4K.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

Capybara ComfyUI Workflow | Унифицированный создатель изображений и видео

Создавайте, редактируйте и анимируйте — всё в одной умной генерационной цепочке.

ComfyUI PhotoMakerV2 | Создавайте реалистичные фотографии

Создавайте реалистичные персонализированные фотографии по текстовым подсказкам, сохраняя личность

LTX 2.3 Редактируй Всё | Умный Видео Редактор

Редактируйте видео быстро. Сохраняйте чёткость движения. Полный визуальный контроль.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

LongCat Video Avatar 1.5 ComfyUI | Генератор с синхронизацией губ