EchoMimic: Анимации портретов, управляемые аудио

Узел ComfyUI_EchoMimic и связанный рабочий процесс были разработаны smthemex/ComfyUI_EchoMimic. Для получения дополнительной информации, пожалуйста, посетите GitHub smthemex.

ComfyUI EchoMimic Workflow

EchoMimic | Audio-driven Portrait Animations

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI EchoMimic Examples

EchoMimic — это инструмент для генерации реалистичных анимаций портретов, управляемых аудио. Он использует методы глубокого обучения для анализа входного аудио и генерирования соответствующих выражений лица, движений губ и жестов головы, которые точно соответствуют эмоциональному и фонетическому содержанию речи.

EchoMimic V2 был разработан исследовательской группой из отдела Terminal Technology компании Alipay, Ant Group, в которую входят Ранг Мэн, Синью Чжан, Юмин Ли и Ченгуан Ма. Для получения подробной информации, пожалуйста, посетите antgroup/echomimic_v2. Узел ComfyUI_EchoMimic был разработан smthemex/ComfyUI_EchoMimic. Вся заслуга принадлежит их значительному вкладу.

EchoMimic V1 и V2#

EchoMimic V1: Реалистичные анимации портретов, управляемые аудио, с возможностью настройки контрольных точек
EchoMimic V2: Упрощенные, выразительные и полу-телесные анимации человека

Ключевое различие заключается в том, что EchoMimic V2 стремится достичь впечатляющей анимации половины тела человека, упрощая ненужные условия контроля по сравнению с EchoMimic V1. EchoMimic V2 использует новую стратегию Audio-Pose Dynamic Harmonization для улучшения выражений лица и жестов тела.

Преимущества и недостатки EchoMimic V2#

Преимущества:

EchoMimic V2 генерирует крайне реалистичные и выразительные анимации портретов, управляемые аудио
EchoMimic V2 расширяет анимацию на верхнюю часть тела, а не только на область головы
EchoMimic V2 снижает сложность условий, сохраняя качество анимации по сравнению с EchoMimic V1
EchoMimic V2 бесшовно включает данные headshot для улучшения выражений лица

Недостатки:

EchoMimic V2 требует аудио источника, соответствующего портрету, для достижения наилучших результатов
EchoMimic V2 в настоящее время не имеет кода синхронизации поз, используя файл позы по умолчанию
Генерация более длительных высококачественных анимаций с EchoMimic V2 может быть вычислительно затратной
EchoMimic V2 лучше всего работает с обрезанными изображениями портретов, а не с полными телесными снимками

Как использовать рабочий процесс ComfyUI EchoMimic#

В узле "Echo_LoadModel" у вас есть возможность выбрать между EchoMimic v1 и EchoMimic v2:

EchoMimic v1: Эта версия сосредоточена на генерации реалистичных анимаций портретов, управляемых аудио, с возможностью настройки контрольных точек. Она хорошо подходит для создания реалистичных анимаций лица, которые точно соответствуют входному аудио.
EchoMimic v2: Эта версия стремится упростить процесс анимации, обеспечивая при этом выразительные и полу-телесные анимации человека. Она расширяет анимацию за пределы только лицевой области, включая движения верхней части тела. Однако, пожалуйста, обратите внимание, что функция синхронизации поз для v2 еще не реализована в текущей версии рабочего процесса ComfyUI. Если вы выберете 'None' для пути позы, вместо этого будет использоваться файл позы по умолчанию.

Вот пошаговое руководство по использованию предоставленного рабочего процесса ComfyUI:

Шаг 1. Загрузите изображение портрета с помощью узла LoadImage. Это должен быть крупный план головы и плеч субъекта.

Шаг 2. Загрузите аудио файл с помощью узла LoadAudio. Речь в аудио должна соответствовать идентичности субъекта портрета.

Шаг 3. Используйте узел Echo_LoadModel для загрузки модели EchoMimic. Ключевые настройки:

Выберите версию (V1 или V2).
Выберите режим вывода, например, режим, управляемый аудио.

Шаг 4. Подключите изображение, аудио и загруженную модель к узлу Echo_Sampler. Ключевые настройки:

pose_dir: Директория для файлов последовательности поз, используемых в режимах анимации, управляемых позами. Если установлено "none", последовательность поз не будет использоваться.
seed: Случайное число для генерации постоянных результатов при повторных запусках. Это должно быть целое число от 0 до MAX_SEED.
cfg: Масштаб классификатора без руководства, управляющий силой аудио-контроля. Более высокие значения приводят к более выраженным движениям, управляемым аудио. Значение по умолчанию — 2.5, и оно может варьироваться от 0.0 до 10.0.
steps: Количество шагов диффузии для генерации каждого кадра. Более высокие значения производят более плавные анимации, но требуют больше времени на генерацию. Значение по умолчанию — 30, и оно может варьироваться от 1 до 100.
fps: Частота кадров выходного видео в кадрах в секунду. Значение по умолчанию — 25, и оно может варьироваться от 5 до 100.
sample_rate: Частота дискретизации входного аудио в Гц. Значение по умолчанию — 16000, и оно может варьироваться от 8000 до 48000 с шагом 1000.
facemask_ratio: Отношение площади маски лица к полной площади изображения. Оно управляет размером области вокруг лица, которая анимируется. Значение по умолчанию — 0.1, и оно может варьироваться от 0.0 до 1.0.
facecrop_ratio: Отношение площади обрезки лица к полной площади изображения. Оно определяет, сколько изображения посвящено области лица. Значение по умолчанию — 0.8, и оно может варьироваться от 0.0 до 1.0.
context_frames: Количество прошлых и будущих кадров, используемых в качестве контекста для генерации каждого кадра. Значение по умолчанию — 12, и оно может варьироваться от 0 до 50.
context_overlap: Количество перекрывающихся кадров между смежными окнами контекста. Значение по умолчанию — 3, и оно может варьироваться от 0 до 10.
length: Длина выходного видео в кадрах. Она должна основываться на продолжительности вашего входного аудио и настройке fps. Например, если ваше аудио длится 6 секунд и fps установлен на 25, длина должна быть 150 кадров. Длина может варьироваться от 50 до 5000 кадров.
width: Ширина кадров выходного видео в пикселях. Значение по умолчанию — 512, и оно может варьироваться от 128 до 1024 с шагом 64.
height: Высота кадров выходного видео в пикселях. Значение по умолчанию — 512, и оно может варьироваться от 128 до 1024 с шагом 64.

Пожалуйста, обратите внимание, что генерация видео может занять некоторое время. Например, создание видео из 6-секундного аудио-клипа с использованием машины 2XL на RunComfy занимает около 20 минут.

Want More ComfyUI Workflows?

Hallo2 | Портретная анимация синхронизации губ

Аудио-управляемая синхронизация губ для портретной анимации в 4K.

LivePortrait | Анимируйте портреты | Img2Vid

Анимируйте портреты с выражениями лица и движениями, используя одно изображение и референсное видео.

LivePortrait | Анимация Портретов | Vid2Vid

Обновлено 16.06.2025: версия ComfyUI обновлена до v0.3.39 для улучшенной стабильности и совместимости. Перенос мимических выражений и движений с управляющего видео на исходное видео

FLUX LoRA Обучение

Руководство по всему процессу обучения моделей FLUX LoRA с использованием ваших собственных наборов данных.

Ace Step 1.5 | Генератор Музыки Коммерческого Уровня с ИИ

Преобразует текст в полные песни с умным планированием и мощью диффузии.

LayerDiffuse | Текст в прозрачное изображение

Используйте LayerDiffuse для создания прозрачных изображений или смешивания фонов и передних планов друг с другом.

Изображение Nunchaku Qwen | Редактор для нескольких изображений

Смешивайте и стилизуйте несколько изображений с контролем следующего уровня.

IPAdapter Plus (V2) | Перенос стиля с одного изображения

Используйте IPAdapter Plus и ControlNet для точного переноса стиля с помощью одного эталонного изображения.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

EchoMimic | Анимации портретов, управляемые аудио