daVinci-MagiHuman Workflow в ComfyUI | Аудио-Видео Синтез Человека

ComfyUI daVinci-MagiHuman Workflow

daVinci-MagiHuman Workflow in ComfyUI | Audio-Video Human Synthesis

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI daVinci-MagiHuman Examples

daVinci-MagiHuman рабочий процесс цифрового человека для ComfyUI#

Этот рабочий процесс ComfyUI строит полную текст-видео цепочку вокруг daVinci-MagiHuman для генерации реалистичных говорящих цифровых людей с синхронизированной речью, движением губ, выражением и микродвижениями тела. Он предназначен для создателей, которые хотят быстро и просто перейти от описательной подсказки к MP4 с чистым звуком. Граф может анимировать только что сгенерированный портрет или любое предоставленное изображение, затем рендерить видео и речь вместе, завершая с опциональным увеличением разрешения и автоматической нормализацией громкости аудио.

Ядро daVinci-MagiHuman использует одно-поточный Transformer для совместного создания видео и аудио из одной подсказки, что помогает сохранить временную синхронизацию и точность синхронизации губ даже на коротких клипах. Эта реализация ComfyUI упрощает управление: напишите Image Prompt для определения внешнего вида, Video Prompt для определения производительности и диалога, установите продолжительность клипа и запустите.

Ключевые модели в рабочем процессе ComfyUI daVinci-MagiHuman#

daVinci-MagiHuman (15B одно-поточный генератор аудио-видео). Роль: совместно производит видеокадры и речь из текста, поддерживая временную согласованность и синхронизацию губ. Ссылки: GitHub, arXiv, Hugging Face.
T5Gemma 9B энкодер (UL2-адаптированный). Роль: кодирует Video Prompt в богатую кондиционирование, которое управляет движением, подачей и стилем для daVinci-MagiHuman. Ссылка: Hugging Face.
Z-Image Turbo диффузионная модель. Роль: быстро создает высококачественный неподвижный портрет из Image Prompt для использования в качестве идентичности/ссылки для анимации. Ссылки: Hugging Face (z_image_turbo), Hugging Face (z_image).
Qwen 3 4B текстовый энкодер для Z-Image Turbo. Роль: разбирает Image Prompt для управления генерацией портрета. Ссылка: Hugging Face file.
Wan 2.2 VAE. Роль: декодирует видео латенты MagiHuman в RGB кадры с сильной временной согласованностью. Ссылки: GitHub, Hugging Face пример модели.
Audio VAE (sd_audio). Роль: декодирует аудио латенты MagiHuman в звуковую волну для совмещения с финальным видео. Ссылка: custom node bundle for MagiHuman GitHub.
RTX Video Super Resolution (опционально). Роль: пост-увеличивает декодированные кадры для увеличения воспринимаемой резкости и уменьшения артефактов сжатия перед финальным кодированием. Ссылка: ComfyUI wrapper GitHub.

Как использовать рабочий процесс ComfyUI daVinci-MagiHuman#

Общий поток: группа Z-Image Turbo создает портрет идентичности из вашего Image Prompt. Группа моделей MagiHuman загружает контрольную точку daVinci-MagiHuman, видео VAE и аудио VAE и подготавливает текстовый энкодер. Группа Text Prompt превращает ваш Video Prompt в кондиционирование. Группа Sampling объединяет ссылочное изображение и подсказку в совместные видео и аудио латенты, затем декодирует оба. Наконец, стадия Outputs объединяет кадры с аудио в MP4, с опциональной увеличенной версией.

Входные данные#

Используйте текстовые поля Image Prompt и Video Prompt для описания внешнего вида и производительности. Контроль продолжительности устанавливает длину клипа в секундах. Для удобства предоставлен загрузчик аудио, если вы планируете экспериментировать с аудио-управляемыми вариантами, но этот шаблон по умолчанию работает в текст-управляемом режиме.

ZImage Turbo#

На этом этапе создается единичный ссылочный портрет из Image Prompt с использованием Z-Image Turbo UNet с текстовым энкодером Qwen 3 4B и его встроенным VAE. Он оптимизирован для быстрой, чистой генерации идентичности с кинематографическим внешним видом. Результат предварительно просматривается, затем передается как ссылочное изображение для анимации. Если у вас уже есть портрет, вы можете обойти этот этап, подключив ваше изображение напрямую к стадии анимации.

Модели MagiHuman#

Здесь граф загружает базовую или дистиллированную контрольную точку daVinci-MagiHuman вместе с Wan 2.2 видео VAE, аудио VAE и энкодером T5Gemma. Это сохраняет согласованность текстового кодирования, видео латентов и аудио латентов для одно-поточного семплирования. Вы можете заменить веса, если у вас есть альтернативы в вашей среде.

Текстовая подсказка#

Ваш Video Prompt кодируется в положительное и отрицательное кондиционирование. Положительный текст должен описывать расстояние до камеры, позу, язык, стиль подачи и точный диалог. Отрицательный текст может перечислять визуальные или аудио дефекты, которых следует избегать. Энкодер передает оба набора кондиционирования в семплер для формирования движения, динамики губ и тембра.

Семплирование#

Семплер строит начальную последовательность латентов из ссылочного изображения и запрашиваемой продолжительности, затем выполняет денойзинг с помощью daVinci-MagiHuman для создания синхронизированных видео и аудио латентов. Утилита конвертирует продолжительность в полные секунды для стабильного планирования. Когда семплирование завершено, видео латенты отправляются в видео декодер, а аудио латенты в аудио декодер.

Декодирование, громкость и экспорт#

Видео латенты декодируются с помощью Wan 2.2 VAE в кадры изображения. Аудио латенты декодируются в речь, затем нормализуются до уровня громкости, удобного для вещания, чтобы финальный MP4 воспроизводился стабильно на различных устройствах. Создаются два экспорта: базовый рендер и опциональный увеличенный рендер с использованием RTX Video Super Resolution. Оба объединяются в MP4 с аудио и сохраняются с понятными префиксами файлов.

Ключевые узлы в рабочем процессе ComfyUI daVinci-MagiHuman#

MagiHuman_LATENTS (#13)

Создает совместный латентный холст для видео и опционального аудио, принимая ссылочное изображение и длину клипа. Настройте seconds для установки продолжительности и убедитесь, что ваше ссылочное изображение хорошо кадрировано для описанного вами движения. Более высокое базовое разрешение помогает улучшить точность лица, но также увеличивает VRAM и время декодирования.

MagiHuman_SM_ENCODER (#95)

Кодирует Video Prompt в положительное и отрицательное кондиционирование для семплера. Поместите точную произнесенную фразу в кавычки и укажите язык для улучшения закрытия губ и синхронизации. Используйте отрицательное поле для подавления артефактов, таких как "субтитры," "статичность," или "эхо комнаты."

MagiHuman_SM_KSampler (#9)

Запускает денойзинг daVinci-MagiHuman для совместного создания видео и аудио латентов. seed управляет воспроизводимостью, а steps и внутренний график обменивают скорость на детализацию и стабильность движения. Для вариации без потери идентичности измените seed или слегка перефразируйте часть вашей подсказки, касающуюся производительности.

MagiHuman_EN_DECO_VIDEO (#5)

Декодирует видео латенты с помощью Wan 2.2 VAE в RGB кадры для экспорта или увеличения разрешения. Используйте этот путь для самого быстрого рендера; длинные клипы или более высокие разрешения линейно увеличат время декодирования.

MagiHuman_DECO_AUDIO (#6)

Декодирует аудио латенты в звуковую волну и отправляет их через нормализацию громкости для равномерного воспроизведения. Если вы позже переключитесь на аудио-управляемую генерацию, направьте ваше внешнее аудио в построитель латентов и сохраните этот путь декодирования для финального совмещения.

RTXVideoSuperResolution (#93)

Опциональный пост-увеличитель, который улучшает края и уменьшает звенение. Используйте умеренную силу для улучшения четкости без введения временного мерцания.

Дополнительные опции#

Шаблон подсказки для надежной синхронизации губ: включите метку говорящего и язык, а также цитируемую фразу, например Dialogue: <Presenter, English>: "Welcome to the show." Добавьте краткую заметку о подаче, размере кадра и стабильности камеры.
Сохраните ссылочный портрет как средний крупный план с полностью в кадре головой. Плотные кадрирования оставляют мало места для динамики челюсти и щек.
Если вам нужна более строгая синхронизация, обрежьте или расширьте ваш сценарий, чтобы он соответствовал выбранной продолжительности. Очень длинные предложения в очень коротких клипах могут вынудить неестественную артикуляцию.
Этот шаблон работает в режиме только подсказки. Для аудио-управляемых тестов подключите внешний аудиофайл к аудио входу на MagiHuman_LATENTS (#13) и настройте ваш Video Prompt для описания выражения, а не содержания речи.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность daVinci-MagiHuman за daVinci-MagiHuman Workflow Source за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

daVinci-MagiHuman/Workflow Source
- Документы / Примечания к выпуску: daVinci-MagiHuman Workflow Source

Примечание: Использование ссылочных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

LTX 2.3 ID-LoRA | Генератор говорящих аватаров

Создает реалистичных говорящих аватаров с синхронизированным голосом и визуальными эффектами.

DreamID-Omni | Создатель говорящих видео из фото

Превращает фотографии в ультрареалистичные говорящие видео за секунды.

InfiniteTalk | Генератор Синхронизированных Аватаров

Фото + Голос = Идеально Синхронизированный Говорящий Аватар за Минуты

Sonic | Анимация портретов с синхронизацией речи

Sonic предоставляет продвинутую анимацию портретов с синхронизацией речи на основе аудио высокого качества.

Wan 2.2 VACE | Генератор видео с управлением позой

Превратите неподвижные изображения в потрясающее движение с помощью управления на основе поз.

Замена персонажа, позы и фона V3 | Wan2.2 Animate + SAM3.1 + SDPose

Быстро меняйте персонажей, позы и сцены с полным творческим контролем.

DreamO | Унифицированная мультизадачная система настройки изображений

Выполните генерацию изображений идентичности, стиля, примерки и многозадачности из 1–3 эталонов

Инференс Flex.1 LoRA | AI Toolkit ComfyUI

Запустите ваш Flex.1 LoRA, обученный с помощью AI Toolkit, в ComfyUI с совпадающими с обучением настройками, используя один пользовательский узел RC.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

daVinci-MagiHuman | Генератор Реалистичных Говорящих Людей