logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>Рабочие процессы>Multitalk | Создатель реалистичных говорящих видео

Multitalk | Создатель реалистичных говорящих видео

Workflow Name: RunComfy/Multitalk
Workflow ID: 0000...1266
Этот рабочий процесс генерирует видео с синхронизацией губ из портретов и аудио, поддерживая как одноканальные, так и многоканальные выходы с детализированным движением лица и выравниванием речи.

ComfyUI Multitalk Workflow

ComfyUI Multitalk Workflow | Multi-Speaker Lip-Synced Video Generator
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Multitalk Examples

ComfyUI Multitalk Description

ComfyUI MultiTalk: Видео с разговором для нескольких и одного человека

Примечание:
Это обновленная версия для нескольких человек нашего рабочего процесса ComfyUI MultiTalk .
Теперь поддерживает генерацию видео с разговором для нескольких человек, сохраняя режим одного человека из предыдущей версии.

Этот рабочий процесс идеально подходит для социального контента, объяснительных видео о продуктах, диалогов персонажей и быстрой предварительной визуализации. Он сочетает аудио встраивания MultiTalk с видео диффузией, чтобы губы, челюсть и тонкие мимические сигналы следовали за речью. Используйте его как путь для сцен Meigen MultiTalk с несколькими спикерами или компактных клипов с одним спикером.


Ключевые модели в рабочем процессе ComfyUI MultiTalk

Wan 2.1 модель видео диффузии

Управляет генерацией видео, обусловленной текстом и изображениями. Обрабатывает внешний вид сцены, камеру и движение, принимая дополнительные указания для динамики разговора.

Wav2Vec 2.0

Извлекает надежные представления речи, которые MultiTalk преобразует в встраивания, специфичные для разговора. Ссылка: .

MultiTalk (MeiGen-AI)

Исследовательский метод для видео разговоров с несколькими людьми, основанных на аудио. Реализация: .

ComfyUI Wan Video Wrapper

Интеграция ComfyUI, обеспечивающая загрузку Wan 2.1, кодировщики и видеосэмплер, а также узел встраивания MultiTalk. Ссылка: .

Index-TTS (необязательно)

Текст-в-речь с голосовой ссылкой для создания чистых диалоговых дорожек внутри рабочего процесса. Ссылка: .


Как использовать рабочий процесс ComfyUI MultiTalk

Этот рабочий процесс работает от начала до конца: вы готовите спикеров и аудио, устанавливаете краткий сценарий сцены, затем рендерите. Поддерживает как многоканальные, так и одноканальные настройки. Группы на графике помогают поддерживать порядок; наиболее важные из них описаны ниже.

Ввод и вывод

Загрузите изображения идентичности для лиц ваших спикеров и предварительные маски, затем объедините окончательные кадры с аудио. Узлы LoadImage принимают ваши портреты, а VHS_VideoCombine собирает отрендеренные кадры с выбранной аудиодорожкой в MP4. Вы можете прослушивать аудио с помощью PreviewAudio во время настройки, чтобы подтвердить уровни и продолжительность.

Модель

Get_WanModel, Get_WanTextEncoder и WanVideoModelLoader инициализируют Wan 2.1 вместе с текстовыми и VAE компонентами. Думайте об этом как о машинном отделении: как только загружено, видеосэмплер может принимать изображения, текст и встраивания для разговоров. Обычно вам не нужно ничего менять здесь, кроме проверки правильности выбора весов Wan.

Аудио спикеров (два способа)

Вы можете привнести свои собственные диалоговые дорожки или синтезировать их:

  • Привнести аудио: Используйте LoadAudio для импорта каждой реплики спикера. Если клип смешан с музыкой или шумом, пропустите его через AudioSeparation и направьте чистый выход Vocals вперед.
  • Сгенерировать аудио: Используйте Speaker 1 - Text и Speaker 2 - Text с IndexTTSNode для синтеза голосов из напечатанных строк, при необходимости предоставляя reference_audio для желаемого тембра.

Аудио встраивания MultiTalk

MultiTalkWav2VecEmbeds преобразует речь во встраивания MultiTalk, которые фиксируют временные и артикуляционные сигналы для каждого спикера. Подайте один аудиопоток для одного человека или два потока для диалога с несколькими людьми. Если вашей сцене нужно целенаправленное управление лицами, предоставьте чистые маски лиц как ref_target_masks, чтобы каждый голос управлял правильным человеком.

Подсказки и текстовый контекст

Краткая подсказка сцены через Prompt и WanVideoTextEncodeSingle задает визуальное настроение и окружающую среду. Держите подсказки краткими и описательными (местоположение, тон, освещение). Текстовый кодировщик генерирует семантическое руководство, которое Wan использует наряду с сигналами идентичности и разговора.

Uni3C и Resize

Группа Uni3C подготавливает глобальные контекстные встраивания, которые помогают стабилизировать идентичность, кадрирование и композицию с течением времени. Группа Resize гарантирует, что исходные изображения и маски масштабируются до удобных для модели размеров, чтобы сэмплер получал согласованные входные данные.

KSampler и обработка сэмплирования

WanVideoSampler это место, где все встречается: встраивания изображений идентичности, текстовые встраивания и аудио встраивания MultiTalk объединяются для создания окончательных кадров. Группа Sampling processing применяет любые постобработки, необходимые для плавности и согласованности перед передачей видео комбинирующему устройству.

Маски для многолюдных сцен

Для клипов с несколькими людьми нарисуйте одну маску на каждое лицо в редакторе масок ComfyUI. Держите маски раздельными, чтобы они никогда не соприкасались. Если вы предоставляете только одну маску и одну аудиодорожку, рабочий процесс автоматически работает как одноканальная установка MultiTalk.


Ключевые узлы в рабочем процессе ComfyUI MultiTalk

MultiTalkWav2VecEmbeds (#79/#162)

Преобразует одну или несколько диалоговых дорожек во встраивания MultiTalk. Начните с одного аудиовхода для одного человека или двух для нескольких; добавляйте маски, когда нужно маршрутизировать по лицам. Регулируйте только то, что важно: количество кадров, чтобы соответствовать запланированной длине клипа, и нужно ли предоставлять ref_target_masks для точного соответствия спикера и лица.

AudioSeparation (#88/#160/#161)

Необязательная очистка для шумных входов. Направьте ваш шумный клип в этот узел и передайте выход Vocals вперед. Используйте его, когда полевые записи включают фоновую музыку или разговоры; пропустите, если у вас уже есть чистые голосовые дорожки.

IndexTTSNode (#163/#164)

Преобразует Speaker 1 - Text и Speaker 2 - Text в аудио диалогов. Предоставьте короткое reference_audio, чтобы клонировать тон и темп, затем предоставьте текстовые строки. Держите предложения краткими и естественными для лучшего времени синхронизации губ в MultiTalk.

WanVideoTextEncodeSingle (#18)

Кодирует вашу подсказку сцены для Wan 2.1. Предпочитайте простые, конкретные описания места, освещения и стиля. Избегайте длинных списков; одного или двух предложений достаточно для сэмплера.


Признания

Оригинальное исследование: MultiTalk разработан MeiGen-AI в сотрудничестве с ведущими исследователями в этой области. Оригинальная статья "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" представляет передовые исследования, лежащие в основе этой технологии. Интеграция ComfyUI: Реализация ComfyUI предоставлена Kijai через репозиторий ComfyUI-WanVideoWrapper, делая эту продвинутую технологию доступной для широкой творческой аудитории.

Базовая технология: Построена на модели видео диффузии Wan2.1 и включает аудиообработку из Wav2Vec, представляя собой синтез передовых исследований в области ИИ.

Ссылки и ресурсы

  • Оригинальное исследование:
  • Страница проекта:
  • Интеграция ComfyUI:

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2025 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.