LongCat Аватар в ComfyUI: от одного изображения к видео говорящего аватара
LongCat Аватар в ComfyUI преобразует одно эталонное изображение в видео аватара, управляемое аудио, с устойчивой идентичностью. Основан на обертке WanVideo от kijai, он фокусируется на согласованности лица, плавности движений и естественной синхронизации губ без тонкой настройки для каждого персонажа. Вы предоставляете одно изображение персонажа и аудио трек; рабочий процесс создает временно согласованное представление, подходящее для клипов с говорящей головой, стилизованных представлений персонажей и быстрых тестов движения аватара.
Создатели, которые хотят быстро повторять, найдут LongCat Аватар в ComfyUI прагматичным и надежным. Рабочий процесс использует модель LongCat с сохранением идентичности и схему генерации с окнами для расширения последовательностей, сохраняя стабильность выражений. Выходные данные собираются в видео с исходным аудио для легкого просмотра или публикации.
Примечание: На машинах 2XL или выше, пожалуйста, установите backend внимания на "sdpa" в узле WanVideo Model Loader. Стандартный backend segeattn может вызвать проблемы совместимости на высокопроизводительных GPU.
Основные модели в рабочем процессе Comfyui LongCat Аватар в ComfyUI
- Модель LongCat‑Avatar для WanVideo. Генерация изображений в видео с фокусом на идентичности, адаптированная для ComfyUI, обеспечивающая сильное сохранение персонажа на всех кадрах. См. релизы WanVideo Comfy от kijai на Hugging Face для контрольных точек и заметок. Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA. Дистиллированная LoRA, усиливающая структуру лица и особенности идентичности во время выборки, улучшая стабильность при движении. Доступно с активами WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE. Видео VAE используется для кодирования эталонного кадра(ов) в латенты и декодирования сгенерированных образцов обратно в изображения. Hugging Face: Kijai/WanVideo_comfy
- UM‑T5 текстовый энкодер. Используется WanVideo для интерпретации текстовых подсказок, которые направляют описание сцены и стиль, сохраняя идентичность. Hugging Face: google/umt5‑xxl
- Представления речи Wav2Vec 2.0. Обеспечивает надежные речевые характеристики, которые управляют движением губ и челюсти через встраивания MultiTalk. Фоновая статья: wav2vec 2.0. arXiv и совместимая модель: Hugging Face: TencentGameMate/chinese‑wav2vec2‑base
- MelBandRoFormer вокальный сепаратор. Опциональное разделение вокала и музыки, чтобы модуль синхронизации губ получал более чистый речевой сигнал. Hugging Face: Kijai/MelBandRoFormer_comfy
Как использовать рабочий процесс Comfyui LongCat Аватар в ComfyUI
Рабочий процесс состоит из трех основных фаз: модели и настройки, аудио к сигналам движения и эталонное изображение к видео с расширением окон. Он рендерится с фиксированной скоростью, предназначенной для движения, управляемого аудио, затем сшивает окна в бесшовный клип.
- Модели
WanVideoModelLoader(#122) загружает контрольную точку LongCat‑Avatar и LongCat distill LoRA, аWanVideoVAELoader(#129) предоставляет видео VAE.WanVideoSchedulerv2(#325) подготавливает расписание выборки, используемое во время диффузии. Эти компоненты определяют точность, сохранение идентичности и общий вид. После настройки они выступают в качестве основы для всех последующих шагов выборки.
- Аудио
- Загрузите голосовой трек с помощью
LoadAudio(#125), при необходимости обрежьте с помощьюTrimAudioDuration(#317) и отделите вокал с помощьюMelBandRoFormerSampler(#302), чтобы уменьшить фоновый шум.MultiTalkWav2VecEmbeds(#194) преобразует очищенную речь во встраивания, которые управляют движением рта и тонкими динамиками головы. Эффективное количество кадров определяется длительностью аудио, поэтому более длинное аудио приводит к более длинным последовательностям. Аудиопоток позже мультиплексируется с изображениями на этапе объединения видео.
- Загрузите голосовой трек с помощью
- Входное изображение
- Добавьте изображение вашего персонажа с помощью
LoadImage(#284).ImageResizeKJv2(#281) изменяет его размер для модели, аWanVideoEncode(#312) превращает его вref_latent, который закрепляет идентичность на всех кадрах. Этот латент является фиксированной ссылкой, которую конвейер LongCat Аватар в ComfyUI повторно использует, вводя изменяющееся во времени движение из аудио и подсказок.
- Добавьте изображение вашего персонажа с помощью
- Расширение окна 1
WanVideoLongCatAvatarExtendEmbeds(#345) объединяетref_latentс аудио встраиваниями для создания встраиваний изображений для первого окна.WanVideoSamplerv2(#324) затем устраняет шум в латентах, создавая короткий клип.WanVideoDecode(#313) превращает их в изображения для предварительного просмотра и первого экспорта видео с помощьюVHS_VideoCombine(#320). Размер окна и перекрытие отслеживаются внутренне, чтобы следующее окно могло выровняться без видимых швов.
- Расширение окна 2
- Вторая группа расширения повторяет ту же идею, чтобы продолжить последовательность.
WanVideoLongCatAvatarExtendEmbeds(#346, #461) вычисляет встраивания, обусловленные предыдущими латентами, с учетом текущего перекрытия.WanVideoSamplerv2(#327, #456) генерирует следующий фрагмент, который декодируется и объединяется сImageBatchExtendWithOverlap(#341, #460) для поддержания непрерывности. Дополнительные шаги расширения окна могут быть повторены для более длинных результатов, и каждый этап может быть экспортирован с помощьюVHS_VideoCombine(#386, #453).
- Вторая группа расширения повторяет ту же идею, чтобы продолжить последовательность.
Основные узлы в рабочем процессе Comfyui LongCat Аватар в ComfyUI
WanVideoModelLoader(#122)- Загружает контрольную точку LongCat‑Avatar и присоединяет LongCat distill LoRA, определяя точность идентичности и поведение движения. Если вы используете более крупные экземпляры, переключите реализацию внимания для лучшей пропускной способности, как рекомендовано в обертке WanVideo. Репозиторий для справки: github.com/kijai/ComfyUI‑WanVideoWrapper.
MultiTalkWav2VecEmbeds(#194)- Создает аудио‑управляемые встраивания из речи, которые направляют движение губ, челюсти и тонкие движения головы. Для более сильной артикуляции увеличьте влияние речи и рассмотрите возможность дополнительного прохода для более плотной синхронизации, когда ваше аудио очень четкое. Информация о фоновом модели: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds(#346)- Основной узел LongCat Аватар в ComfyUI, этот узел расширяет встраивания изображений во времени, оставаясь привязанным к эталонному латенту. Настройте длину окна и перекрытие, чтобы сбалансировать плавность, время выполнения и стабильность на более длинных клипах.
WanVideoSamplerv2(#327)- Выполняет процесс диффузии, используя модель, планировщик, текстовое руководство и встраивания изображений. Отрегулируйте силу руководства, чтобы сбалансировать следование подсказкам с вариацией; небольшие изменения могут иметь заметные эффекты на жесткость идентичности и движение.
VHS_VideoCombine(#320)- Мультиплексирует отрендеренные кадры с оригинальным аудио в mp4 для легкого просмотра. Используйте встроенную опцию обрезки, когда вы хотите, чтобы визуальные эффекты заканчивались точно с аудио или экспортировались только последние окна.
Дополнительные возможности
- Убедитесь, что продолжительность аудио охватывает все запланированные окна расширения, чтобы избежать окончания речи в середине последовательности.
- Для длинных клипов умеренно увеличьте размер окна и оставьте некоторое перекрытие, чтобы переходы оставались плавными; слишком маленькое перекрытие может вызвать щелчки, слишком большое может замедлить рендеринг.
- Конвейер работает с фиксированной частотой кадров, привязанной к шагу, управляемому речью, что поддерживает синхронизацию губ во время экспорта.
- Если вы используете тип большой машины, установите реализацию внимания в загрузчике модели на вариант, экономящий память, для улучшения скорости.
- Не смешивайте несовместимые форматы моделей; держите основную модель и любые компоненты речи в одном семействе, как предоставлено в релизах WanVideo Comfy. Полезные центры моделей: Kijai/WanVideo_comfy и GGUF варианты, такие как city96/Wan2.1‑I2V‑14B‑480P‑gguf.
Благодарности
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим Kijai за ComfyUI-WanVideoWrapper (LongCatAvatar workflow) и @Benji’s AI Playground создателя упомянутого видео на YouTube за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- YouTube/Видео инструкция
- Документы / Примечания к выпуску: Видео на YouTube от Benji’s AI Playground
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Документы / Примечания к выпуску: LongCatAvatar_testing_wip.json (ветка longcat_avatar)
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.
