LongCat Video Avatar 1.5 Single Character ComfyUI#
Этот рабочий процесс преобразует одно опорное изображение и звуковую дорожку в вертикальный говорящий аватар с синхронизацией губ. Построен на основе LongCat-Avatar-15 и пользовательских узлов WanVideoWrapper, он использует Whisper для извлечения речевых подсказок, Wan 2.1 VAE для латентного кодирования/декодирования и дистиллированный LongCat LoRA для сохранения идентичности. Результат — портретное видео MP4, сохраняющее внешний вид персонажа и движение губ в синхронности.
Разработан как путь для одного персонажа, рабочий процесс LongCat Video Avatar 1.5 Single Character ComfyUI идеально подходит для создателей, которые хотят шаблон, готовый к RunComfy, с четкими входными данными и воспроизводимым выходом. Вы предоставляете одно изображение лица и один аудиоклип, настраиваете несколько стилевых подсказок и создаете последовательное аватар-видео без дополнительных проводок.
Ключевые модели в рабочем процессе Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
- LongCat-Avatar-15 (дистиллированный) и LongCat Avatar LoRA: веса генерации видео с сохранением идентичности, адаптированные для ComfyUI. Предоставлены в сообществе, чтобы аватар сохранял внешний вид во время речи. Файлы модели
- Wan 2.1 VAE: вариационный автокодировщик, ориентированный на видео, используемый для кодирования опорного кадра в латенты и декодирования финальных кадров обратно в изображения. Включен в тот же пакет сообщества. Файлы модели
- OpenAI Whisper large v3: представление речи, определяющее формы рта и время для точной синхронизации губ. Карточка модели
- Google UMT5‑XXL текстовый кодировщик: преобразует положительные/отрицательные подсказки в кондиционирование для нюансов движения и позы. Карточка модели
Как использовать рабочий процесс Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
График следует четкому пути от входных данных к видео: загрузка активов, вычисление аудиоэмбеддингов, подготовка текстовых указаний, кодирование внешнего вида, выборка кадров, затем объединение аудио и сохранение.
Опорное изображение#
Загрузите один портрет, обращенный вперед, в LoadImage (#26). Изображение нормализуется с помощью ImageResizeKJv2 (#25) до вертикального полотна 9:16, чтобы персонаж заполнил кадр без искажений. Используйте чистое, равномерно освещенное лицо с минимальными перекрытиями для лучшего сохранения идентичности. Если ваш источник шире, чем выше, центрируйте вокруг головы и плеч.
Звуковое аудио#
Перетащите аудиофайл в LoadAudio (#5). При необходимости обрежьте его с помощью TrimAudioDuration (#29), чтобы длина финального видео соответствовала вашей цели. Небольшая математическая утилита (Evaluate Floats (#39)) умножает выбранные вами секунды на кадры в секунду, чтобы автоматически установить общее количество кадров. Быстрый способ контролировать длительность — отрегулировать секунды или FPS перед рендерингом.
Эмбеддинги речи (синхронизация губ)#
LongCatAvatarWhisperEmbeds (#3) запускает Whisper для создания MultiTalk эмбеддингов, которые кодируют фонемы, паузы и акценты. Эти эмбеддинги являются временной основой для форм рта и тонкого движения головы. Убедитесь, что общее количество кадров и FPS здесь соответствует вашим настройкам экспорта, чтобы избежать дрейфа. При необходимости включите нормализацию громкости, когда запись варьируется по уровню.
Текстовые указания#
LoadWanVideoT5TextEncoder (#16) и WanVideoTextEncode (#15) преобразуют ваши положительные и отрицательные подсказки в кондиционирование. Используйте положительную подсказку, чтобы описать естественное поведение, которое вы хотите (спокойные повороты головы, тонкие кивки), и оставьте отрицательную подсказку для артефактов, которых следует избегать (жесткое движение, деформированные руки). Текстовые указания подталкивают стиль движения, не меняя идентичность персонажа.
Кодирование внешнего вида#
WanVideoVAELoader (#19) и WanVideoEncode (#24) преобразуют ваш портрет в латенты. WanVideoLongCatAvatarExtendEmbeds (#6) затем объединяет опорный латент с аудиоэмбеддингами, так что идентичность остается стабильной в течение всех кадров, пока рот следует за речью. Если аудио короче клипа, узел может разумно дополнить или зациклить, чтобы время оставалось плавным.
Загрузка модели аватара#
WanVideoLoraSelect (#27) прикрепляет дистиллированный LongCat Avatar LoRA к базовой модели LongCat‑Avatar‑15, все загружено с помощью WanVideoModelLoader (#8). Это сочетание сохраняет черты лица, позволяя выразительное движение при разговоре. Внутренние помощники по замене блоков помогают предсказуемо использовать VRAM на общих или скромных GPU.
Выборка кадров#
WanVideoSchedulerv2 (#52) выбирает расписание решения, настроенное для LongCat distill, а WanVideoSamplerv2 (#51) генерирует латентное видео. Установите семя для воспроизводимых результатов и отрегулируйте силу управления, если вам нужно больше или меньше соответствия подсказкам. Семплер принимает изображение, текст и аудиоэмбеддинги вместе, так что рот, голова и идентичность согласованы.
Декодирование и сохранение MP4#
WanVideoDecode (#20) преобразует финальные латенты обратно в изображения. VHS_VideoCombine (#14) объединяет кадры и аудио в H.264 MP4 с указанной частотой кадров и префиксом имени файла. Выходной файл — это готовый к публикации вертикальный аватар-клип, который сохраняет синхронизацию губ и стиль.
Ключевые узлы в рабочем процессе Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
LongCatAvatarWhisperEmbeds (#3)#
Создает аудиоэмбеддинги MultiTalk из Whisper, которые управляют синхронизацией губ и микро-временем. Держите fps и num_frames в соответствии с вашим экспортом, чтобы избежать десинхронизации. Когда записи варьируются по уровню, включите нормализацию громкости. Этот узел происходит из интеграции WanVideoWrapper LongCat. Репозиторий
WanVideoLongCatAvatarExtendEmbeds (#6)#
Объединяет опорный латент и аудиоэмбеддинги в кадро-осведомленные эмбеддинги изображений. Если ваша речь короче целевой длины, выберите, как дополнить или зациклить, чтобы движение оставалось естественным. Параметры перекрытия и опорного кадра помогают поддерживать стабильность идентичности между срезами на более длинных клипах. Репозиторий
WanVideoModelLoader (#8)#
Загружает базу LongCat‑Avatar‑15 с выбранным LongCat Avatar LoRA для сохранения идентичности. Используйте его с включенными опциями управления VRAM и замены блоков при запуске на ограниченном оборудовании. Переключитесь на другой вариант LongCat или LoRA здесь, чтобы изменить стиль без повторного подключения. Репозиторий
WanVideoSamplerv2 (#51)#
Основной генератор, который синтезирует кадры из модели, планировщика, текстовых и изображений эмбеддингов. Настройте свободное управление классификатором, если вам нужно более строгое соблюдение подсказок или более свободное движение. Исправьте семя, чтобы заблокировать воспроизводимость на нескольких рендерах. Репозиторий
ImageResizeKJv2 (#25)#
Подготавливает портретно-ориентированное полотно, чтобы аватар заполнил кадр 9:16. Сохраняйте правильные обрезки вокруг лица и плеч для надежного кодирования идентичности. Соответствие делимости кодировщика/декодера избегает артефактов по краям.
VHS_VideoCombine (#14)#
Объединяет кадры и аудио в единый MP4 с выбранной частотой кадров и префиксом имени файла. Включите сохранение метаданных для более легкого отслеживания итераций. Этот узел является частью VideoHelperSuite. Репозиторий
Дополнительные опции#
- Используйте нейтральное, обращенное вперед фото с ясными глазами и ртом; избегайте сильных перекрытий и экстремальных углов.
- Очистите аудио (удалите длинные паузы, уменьшите фоновый шум) для более стабильного движения губ.
- Держите FPS постоянным между этапом эмбеддинга Whisper и финальным экспортом, чтобы поддерживать плотную синхронизацию губ.
- Для более сильного сохранения идентичности придерживайтесь предоставленного LongCat Avatar LoRA; меняйте LoRA только тогда, когда вы намерены изменить стиль. Файлы модели
- Установите фиксированное семя, когда вам нужны идентичные перерендеры или A/B тестирование только одного изменения подсказки.
- На более низком VRAM включите замену блоков в загрузчике моделей, чтобы обменять некоторую скорость на стабильность.
Благодарности#
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность RunningHub за источник рабочего процесса, Meigen AI за LongCat Video Avatar 1.5 и Kijai за модельные файлы LongCat-Video_comfy и ComfyUI-WanVideoWrapper за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы#
- RunningHub/Источник рабочего процесса
- Документы / Примечания к выпуску: Источник рабочего процесса RunningHub
- Meigen AI/Страница проекта LongCat Video Avatar 1.5
- Документы / Примечания к выпуску: Страница проекта LongCat Video Avatar 1.5
- Kijai/Файлы модели LongCat Video Comfy
- Hugging Face: Kijai/LongCat-Video_comfy
- Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.
