ComfyUI Multitalk Workflow | Генератор видео с синхронизацией губ для нескольких спикеров

ComfyUI MultiTalk: Видео с разговором для нескольких и одного человека

Примечание: Это обновленная версия для нескольких человек нашего рабочего процесса ComfyUI MultiTalk Single Person. Теперь поддерживает генерацию видео с разговором для нескольких человек, сохраняя режим одного человека из предыдущей версии.

Этот рабочий процесс идеально подходит для социального контента, объяснительных видео о продуктах, диалогов персонажей и быстрой предварительной визуализации. Он сочетает аудио встраивания MultiTalk с видео диффузией, чтобы губы, челюсть и тонкие мимические сигналы следовали за речью. Используйте его как путь для сцен Meigen MultiTalk с несколькими спикерами или компактных клипов с одним спикером.

Ключевые модели в рабочем процессе ComfyUI MultiTalk

Wan 2.1 модель видео диффузии

Управляет генерацией видео, обусловленной текстом и изображениями. Обрабатывает внешний вид сцены, камеру и движение, принимая дополнительные указания для динамики разговора.

Wav2Vec 2.0

Извлекает надежные представления речи, которые MultiTalk преобразует в встраивания, специфичные для разговора. Ссылка: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

Исследовательский метод для видео разговоров с несколькими людьми, основанных на аудио. Реализация: MeiGen-AI/MultiTalk.

ComfyUI Wan Video Wrapper

Интеграция ComfyUI, обеспечивающая загрузку Wan 2.1, кодировщики и видеосэмплер, а также узел встраивания MultiTalk. Ссылка: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (необязательно)

Текст-в-речь с голосовой ссылкой для создания чистых диалоговых дорожек внутри рабочего процесса. Ссылка: chenpipi0807/ComfyUI-Index-TTS.

Как использовать рабочий процесс ComfyUI MultiTalk

Этот рабочий процесс работает от начала до конца: вы готовите спикеров и аудио, устанавливаете краткий сценарий сцены, затем рендерите. Поддерживает как многоканальные, так и одноканальные настройки. Группы на графике помогают поддерживать порядок; наиболее важные из них описаны ниже.

Ввод и вывод

Загрузите изображения идентичности для лиц ваших спикеров и предварительные маски, затем объедините окончательные кадры с аудио. Узлы LoadImage принимают ваши портреты, а VHS_VideoCombine собирает отрендеренные кадры с выбранной аудиодорожкой в MP4. Вы можете прослушивать аудио с помощью PreviewAudio во время настройки, чтобы подтвердить уровни и продолжительность.

Модель

Get_WanModel, Get_WanTextEncoder и WanVideoModelLoader инициализируют Wan 2.1 вместе с текстовыми и VAE компонентами. Думайте об этом как о машинном отделении: как только загружено, видеосэмплер может принимать изображения, текст и встраивания для разговоров. Обычно вам не нужно ничего менять здесь, кроме проверки правильности выбора весов Wan.

Аудио спикеров (два способа)

Вы можете привнести свои собственные диалоговые дорожки или синтезировать их:

Привнести аудио: Используйте LoadAudio для импорта каждой реплики спикера. Если клип смешан с музыкой или шумом, пропустите его через AudioSeparation и направьте чистый выход Vocals вперед.
Сгенерировать аудио: Используйте Speaker 1 - Text и Speaker 2 - Text с IndexTTSNode для синтеза голосов из напечатанных строк, при необходимости предоставляя reference_audio для желаемого тембра.

Аудио встраивания MultiTalk

MultiTalkWav2VecEmbeds преобразует речь во встраивания MultiTalk, которые фиксируют временные и артикуляционные сигналы для каждого спикера. Подайте один аудиопоток для одного человека или два потока для диалога с несколькими людьми. Если вашей сцене нужно целенаправленное управление лицами, предоставьте чистые маски лиц как ref_target_masks, чтобы каждый голос управлял правильным человеком.

Подсказки и текстовый контекст

Краткая подсказка сцены через Prompt и WanVideoTextEncodeSingle задает визуальное настроение и окружающую среду. Держите подсказки краткими и описательными (местоположение, тон, освещение). Текстовый кодировщик генерирует семантическое руководство, которое Wan использует наряду с сигналами идентичности и разговора.

Uni3C и Resize

Группа Uni3C подготавливает глобальные контекстные встраивания, которые помогают стабилизировать идентичность, кадрирование и композицию с течением времени. Группа Resize гарантирует, что исходные изображения и маски масштабируются до удобных для модели размеров, чтобы сэмплер получал согласованные входные данные.

KSampler и обработка сэмплирования

WanVideoSampler это место, где все встречается: встраивания изображений идентичности, текстовые встраивания и аудио встраивания MultiTalk объединяются для создания окончательных кадров. Группа Sampling processing применяет любые постобработки, необходимые для плавности и согласованности перед передачей видео комбинирующему устройству.

Маски для многолюдных сцен

Для клипов с несколькими людьми нарисуйте одну маску на каждое лицо в редакторе масок ComfyUI. Держите маски раздельными, чтобы они никогда не соприкасались. Если вы предоставляете только одну маску и одну аудиодорожку, рабочий процесс автоматически работает как одноканальная установка MultiTalk.

Ключевые узлы в рабочем процессе ComfyUI MultiTalk

`MultiTalkWav2VecEmbeds` (#79/#162)

Преобразует одну или несколько диалоговых дорожек во встраивания MultiTalk. Начните с одного аудиовхода для одного человека или двух для нескольких; добавляйте маски, когда нужно маршрутизировать по лицам. Регулируйте только то, что важно: количество кадров, чтобы соответствовать запланированной длине клипа, и нужно ли предоставлять ref_target_masks для точного соответствия спикера и лица.

`AudioSeparation` (#88/#160/#161)

Необязательная очистка для шумных входов. Направьте ваш шумный клип в этот узел и передайте выход Vocals вперед. Используйте его, когда полевые записи включают фоновую музыку или разговоры; пропустите, если у вас уже есть чистые голосовые дорожки.

`IndexTTSNode` (#163/#164)

Преобразует Speaker 1 - Text и Speaker 2 - Text в аудио диалогов. Предоставьте короткое reference_audio, чтобы клонировать тон и темп, затем предоставьте текстовые строки. Держите предложения краткими и естественными для лучшего времени синхронизации губ в MultiTalk.

`WanVideoTextEncodeSingle` (#18)

Кодирует вашу подсказку сцены для Wan 2.1. Предпочитайте простые, конкретные описания места, освещения и стиля. Избегайте длинных списков; одного или двух предложений достаточно для сэмплера.

Признания

Оригинальное исследование: MultiTalk разработан MeiGen-AI в сотрудничестве с ведущими исследователями в этой области. Оригинальная статья "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" представляет передовые исследования, лежащие в основе этой технологии. Интеграция ComfyUI: Реализация ComfyUI предоставлена Kijai через репозиторий ComfyUI-WanVideoWrapper, делая эту продвинутую технологию доступной для широкой творческой аудитории.

Базовая технология: Построена на модели видео диффузии Wan2.1 и включает аудиообработку из Wav2Vec, представляя собой синтез передовых исследований в области ИИ.

Ссылки и ресурсы

Оригинальное исследование: MeiGen-AI MultiTalk Repository
Страница проекта: https://meigen-ai.github.io/multi-talk/
Интеграция ComfyUI: ComfyUI-WanVideoWrapper

Multitalk | Создатель реалистичных говорящих видео

ComfyUI MultiTalk: Видео с разговором для нескольких и одного человека

Ключевые модели в рабочем процессе ComfyUI MultiTalk

Как использовать рабочий процесс ComfyUI MultiTalk

Ввод и вывод

Модель

Аудио спикеров (два способа)

Аудио встраивания MultiTalk

Подсказки и текстовый контекст

Uni3C и Resize

KSampler и обработка сэмплирования

Маски для многолюдных сцен

Ключевые узлы в рабочем процессе ComfyUI MultiTalk

`MultiTalkWav2VecEmbeds` (#79/#162)

`AudioSeparation` (#88/#160/#161)

`IndexTTSNode` (#163/#164)

`WanVideoTextEncodeSingle` (#18)

Признания

Ссылки и ресурсы

Want More ComfyUI Workflows?

Hallo2 | Портретная анимация синхронизации губ

Sonic | Анимация портретов с синхронизацией речи

IPAdapter Plus (V2) | Смена одежды

EchoMimic | Анимации портретов, управляемые аудио

Dance Video Transform | Scene Customization & Face Swap

FLUX IPAdapter V2 | XLabs

Flux TTP Upscale | Восстановление Лиц до 4K

AnimateDiff + ControlNet | Стиль мраморной скульптуры

Multitalk | Создатель реалистичных говорящих видео

ComfyUI MultiTalk: Видео с разговором для нескольких и одного человека

Ключевые модели в рабочем процессе ComfyUI MultiTalk

Как использовать рабочий процесс ComfyUI MultiTalk

Ввод и вывод

Модель

Аудио спикеров (два способа)

Аудио встраивания MultiTalk

Подсказки и текстовый контекст

Uni3C и Resize

KSampler и обработка сэмплирования

Маски для многолюдных сцен

Ключевые узлы в рабочем процессе ComfyUI MultiTalk

MultiTalkWav2VecEmbeds (#79/#162)

AudioSeparation (#88/#160/#161)

IndexTTSNode (#163/#164)

WanVideoTextEncodeSingle (#18)

Признания

Ссылки и ресурсы

Want More ComfyUI Workflows?

Hallo2 | Портретная анимация синхронизации губ

Sonic | Анимация портретов с синхронизацией речи

IPAdapter Plus (V2) | Смена одежды

EchoMimic | Анимации портретов, управляемые аудио

Dance Video Transform | Scene Customization & Face Swap

FLUX IPAdapter V2 | XLabs

Flux TTP Upscale | Восстановление Лиц до 4K

AnimateDiff + ControlNet | Стиль мраморной скульптуры

`MultiTalkWav2VecEmbeds` (#79/#162)

`AudioSeparation` (#88/#160/#161)

`IndexTTSNode` (#163/#164)

`WanVideoTextEncodeSingle` (#18)