ComfyUI>Рабочие процессы>LTX-2.3 ICLoRA LipDub Workflow | Генератор видео с синхронизацией губ

LTX-2.3 ICLoRA LipDub Workflow | Генератор видео с синхронизацией губ

Workflow Name: RunComfy/LTX-2.3-ICLoRA-LipDub
Workflow ID: 0000...1424
Этот рабочий процесс позволяет вам генерировать идеально синхронизированные видео с речью из ваших существующих кадров и аудио треков. Построенный с использованием передовой модели Lightricks, он обеспечивает естественное движение губ и выравнивание с речью. Вы можете быстро создавать убедительные сцены с диалогами без ручного редактирования. Идеально подходит для создателей, стремящихся к точной синхронизации речи и выразительному реализму в своих визуальных материалах. Оптимизирован для эффективного использования и воспроизводимых результатов со стандартизированными входными и выходными данными.

ComfyUI LTX-2.3 ICLoRA LipDub Рабочий процесс

LTX-2.3 ICLoRA LipDub in ComfyUI | Precise Lip-Sync Video Creation
Хотите запустить этот рабочий процесс?
  • Полностью функциональные рабочие процессы
  • Нет недостающих узлов или моделей
  • Не требуется ручная настройка
  • Отличается потрясающей визуализацией

ComfyUI LTX-2.3 ICLoRA LipDub Примеры

LTX-2.3 ICLoRA LipDub для ComfyUI#

LTX-2.3 ICLoRA LipDub — это двухпроходный рабочий процесс ComfyUI, управляемый видео и аудио, который дублирует говорящего человека, сохраняя идентичность и движение. Он объединяет текстовое и видео кондиционирование Lightricks LTX-2.3 с LipDub IC-LoRA для точного согласования движения рта с предоставленной речью, а затем уточняет результат в более высоком разрешении для четкости деталей. График подготовлен для RunComfy с стандартизированными именами входных и выходных данных, чтобы вы могли надежно менять медиа и повторять запуски.

Этот рабочий процесс ComfyUI LTX-2.3 ICLoRA LipDub идеально подходит для создателей, которым требуется многоязычное дублирование, перефразирование или исправления, подобные ADR, сохраняя при этом оригинальное исполнение. Предоставьте исходное видео, которое уже включает целевую речь, опишите сцену и что человек должен сказать, и рабочий процесс синтезирует синхронизированные визуальные и аудио материалы в готовый клип.

Основные модели в рабочем процессе ComfyUI LTX-2.3 ICLoRA LipDub#

  • LTX-2.3 22B базовая видеомодель. Основная диффузионная модель, которая генерирует видео и управляет тем, как подсказки влияют на внешний вид, движение и стиль.
  • LTX-2.3 IC-LoRA LipDub. Специализированная LoRA для дублирования губ, которая настраивает модель на следование предоставленной речи и выравнивание форм рта по фонемам, сохраняя идентичность и движение головы. Модельная карта
  • LTX-2.3 Audio VAE. Кодирует входную речь в аудиолатент, который может быть введен в текстовое кондиционирование и затем декодирован обратно в форму волны, обеспечивая сохранение синхронизации с кадрами.
  • LTX-2.3 Spatial Upscaler x2. Увеличивает пространственное разрешение видеолатентов перед проходом уточнения в высоком разрешении, улучшая текстуру без изменения движения.
  • LTX-2.3 Distilled LoRA (384). Усиливающая LoRA, используемая вместе с базовой контрольной точкой для улучшения деталей и временной стабильности без чрезмерного подгонки к контрольному кадру.

Как использовать рабочий процесс ComfyUI LTX-2.3 ICLoRA LipDub#

Этот рабочий процесс выполняется в двух скоординированных стадиях: проход с низким разрешением для фиксации времени и форм губ по аудио, за которым следует проход с высоким разрешением, который увеличивает и уточняет детали, сохраняя синхронизацию. Начните с загрузки исходного видео, которое уже содержит речь, которую вы хотите, затем напишите текст, который вы хотите, чтобы человек сказал.

Загрузить оригинальное видео#

Узел LoadVideo (#5002) импортирует ваш исходный клип с встроенным аудио. GetVideoComponents (#5010) извлекает кадры, аудио и частоту кадров; частота кадров разделяется по всему графику, чтобы видео и аудио оставались синхронизированными. Два ресайзера, Resize Image/Mask (s1 size) (#5009) и Resize Image/Mask (s2 size) (#5003), подготавливают рабочие потоки изображений для проходов с низким и высоким разрешением. Количество кадров измеряется и округляется для удобной длины для самплера, чтобы декодирование оставалось стабильным.

Загрузить модели#

CheckpointLoaderSimple (#5017) загружает базовую модель LTX-2.3 22B и VAE, используемые по всему графику. Два загрузчика, LoraLoaderModelOnly (#5018) и LTXICLoRALoaderModelOnly (#5012), добавляют дистиллированную LoRA и IC-LoRA LipDub поверх базы, чтобы генератор следовал речи, сохраняя идентичность. LTXVAudioVAELoader (#4010) предоставляет аудио VAE для кодирования/декодирования саундтрека. Выход latent_downscale_factor загрузчика IC-LoRA здесь намеренно не используется, поскольку обучение LipDub предполагает полноразмерные контрольные кадры, соответствующие включенной заметке.

Установить подсказки#

Напишите описание сцены и точную произнесенную реплику в CLIP Text Encode (Positive Prompt) (#2483). Используйте CLIP Text Encode (Negative Prompt) (#2612) для минимизации нежелательных черт или артефактов. Эти данные поступают в LTXVConditioning (#1241), которое адаптирует кондиционирование к видео домену и переносит контекст частоты кадров дальше. Для запусков с низким VRAM график также включает API-базированные энкодеры (🅛🅣🅧 Gemma API Text Encode - POSITIVE (#4980) и ... - NEGATIVE (#4981)), управляемые строкой LTX API KEY (#4979); по умолчанию используется локальные энкодеры.

Предварительная обработка#

LTXVAudioVAEEncode (#5005) преобразует исходную речь в аудиолатент, а LTXVSetAudioRefTokens (#5006) вводит этот латент в текстовое кондиционирование, чтобы генератор "слышал" время и фонемы. EmptyLTXVLatentVideo (#3059) подготавливает видео латент с правильным пространственным размером и количеством кадров, выровненным по входу. LTXAddVideoICLoRAGuide (#5004) прикрепляет руководство IC-LoRA с использованием кадров s1, устанавливая идентичность и внимание к области рта перед выборкой.

Генерация в низком разрешении#

Стандартный диффузионный цикл формируется с помощью CFGGuider (#4828), KSamplerSelect (#4831), ManualSigmas (#4984) и SamplerCustomAdvanced (#4829). Самплер работает на аудио+видео латенте, составленном LTXVConcatAVLatent (#4528), обеспечивая участие аудиокондиционирования на каждом шаге. После выборки LTXVSeparateAVLatent (#4845) разделяет латент, чтобы LTXVSetAudioRefTokens (#5013) мог зафиксировать то же представление речи для прохода с высоким разрешением. Этот этап фиксирует формы губ по речи и устанавливает базовую линию движения на размер s1.

Генерация в высоком разрешении#

LTXVLatentUpsampler (#4975) поднимает видео латент с использованием Spatial Upscaler x2, сохраняя движение, добавляя возможность для пространственных деталей. LTXAddVideoICLoRAGuide (#5014) повторно применяет IC-LoRA на размере s2 с использованием кадров более высокого разрешения, чтобы идентичность, область рта и мелкие особенности были усилены. Второй диффузионный цикл (CFGGuider (#4964), KSamplerSelect (#4976), ManualSigmas (#4985), SamplerCustomAdvanced (#4971)) уточняет увеличенный латент, в то время как LTXVConcatAVLatent (#4969) поддерживает замороженный аудиолатент в синхронизации. LTXVCropGuides (#5011, #5015) управляет безопасными обрезками и руководствами по регионам, чтобы лицо оставалось правильно кадрированным на протяжении обоих проходов.

Декодирование#

LTXVTiledVAEDecode (#4995) преобразует конечный видео латент в изображения с использованием тайлов для эффективности VRAM, а LTXVAudioVAEDecode (#4848) возвращает синхронизированное аудио. CreateVideo (#4849) собирает кадры и аудио с оригинальной частотой кадров, а SaveVideo (#4852) записывает файл с предзаполненным именем RunComfy; измените это значение, чтобы брендировать свои выходные данные. Результат — полностью синхронизированный клип LTX-2.3 ICLoRA LipDub, готовый для просмотра или доставки.

Основные узлы в рабочем процессе ComfyUI LTX-2.3 ICLoRA LipDub#

LTXICLoRALoaderModelOnly (#5012)#

Загружает LipDub IC-LoRA и прикрепляет его к базовой модели, чтобы движение губ следовало входной речи без замещения идентичности. Если вам нужно более сильное или более слабое управление губами, отрегулируйте вес LoRA здесь; держите его скоординированным с любой дополнительной LoRA, которую вы применяете в стеке, чтобы избежать чрезмерного кондиционирования.

LTXAddVideoICLoRAGuide (#5004)#

Применяет руководство IC-LoRA на стадии низкого разрешения с использованием уменьшенных контрольных кадров. Здесь рабочий процесс сначала фиксирует идентичность и внимание к области рта; используйте его для A/B тестирования, включая/выключая руководство, чтобы увидеть эффект контрольного руководства на время и артикуляцию.

LTXAddVideoICLoRAGuide (#5014)#

Повторно применяет руководство IC-LoRA с высоким разрешением с кадрами s2, чтобы уточненный проход сохранял ту же идентичность говорящего и точные формы губ. Если вы измените размер кадра с высоким разрешением, пересмотрите этот узел, чтобы сохранить руководство в соответствии с вашим целевым выходом.

LTXVSetAudioRefTokens (#5006)#

Привязывает закодированную речь к текстовому кондиционированию, чтобы самплер выравнивал виземы с фонемами. Используйте тот же аудиолатент для обоих проходов для стабильных результатов; этот график обрабатывает это автоматически, но если вы меняете аудио в середине запуска, вам следует обновить как кондиционирование, так и объединенный латент.

LTXVLatentUpsampler (#4975)#

Увеличивает видео латент с помощью LTX-2.3 Spatial Upscaler x2, чтобы сделать место для мелких деталей перед самплером с высоким разрешением. Если VRAM ограничен, сочетайте это с меньшими размерами s2 или более легким тайлингом в декодере, чтобы сбалансировать качество и производительность.

LTXVTiledVAEDecode (#4995)#

Декодирует конечный латент в кадры с использованием тайлинга, чтобы вместить большие выходы на ограниченных GPU. Настройте количество тайлов и перекрытие здесь, чтобы обменять скорость на память; меньшее количество тайлов быстрее, но требует больше VRAM, в то время как больше тайлов уменьшает VRAM за счет времени.

Дополнительные возможности#

  • Подсказки для дублирования: включите точные слова, которые вы хотите, чтобы были произнесены; модель не переводит автоматически. Используйте родной скрипт целевого языка, придерживайтесь одного говорящего и стремитесь к аналогичной длине оригинальной реплики, чтобы темп оставался естественным.
  • Советы по производительности: если вы достигли пределов VRAM, уменьшите размер s2 в Resize Image/Mask (s2 size) (#5003) и увеличьте тайлинг в LTXVTiledVAEDecode (#4995). Для повторяемости держите семена RandomNoise фиксированными в обоих проходах.
  • Настройки по умолчанию рабочего процесса: примерное имя входного файла предзаполнено в LoadVideo (#5002), а сохраняющий устанавливает согласованное имя выхода. Замените оба, чтобы выполнять несколько запусков LTX-2.3 ICLoRA LipDub без перезаписи результатов.
  • Кадрирование: если лицо дрейфует к краям, отрегулируйте LTXVCropGuides (#5011, #5015), чтобы область рта оставалась в стабильном кадре на протяжении обоих проходов.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарно признаем Lightricks за модель LTX-2.3-22b-IC-LoRA-LipDub и RunComfy за общий рабочий процесс ComfyUI (источник Cloud Save) за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, связанным ниже.

Ресурсы#

Примечание: использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.