ComfyUI>Рабочие процессы>LTX 2.3 ID-LoRA | Генератор говорящих аватаров

LTX 2.3 ID-LoRA | Генератор говорящих аватаров

Workflow Name: RunComfy/LTX-2.3-ID-LoRA
Workflow ID: 0000...1385
С помощью этого процесса, учитывающего идентичность, вы можете легко создавать реалистичных говорящих аватаров из одного изображения, короткого аудиоклипа и текстового ввода. Он сочетает в себе постоянство лица с точной синхронизацией губ и выразительной передачей голоса. Модель сохраняет уникальные черты объекта, сочетая реалистичное движение и тон. Идеально подходит для виртуальных личностей, цифровых влиятельных лиц и повествований, основанных на персонажах. Этот инструмент упрощает сложные этапы генерации в единый процесс для бесшовного аудиовизуального вывода.

ComfyUI LTX 2.3 ID-LoRA Workflow

LTX 2.3 ID-LoRA in ComfyUI | Identity-Controlled Video Creator
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI LTX 2.3 ID-LoRA Examples

Процесс создания говорящих видео LTX 2.3 ID-LoRA для ComfyUI#

Этот процесс превращает одно изображение лица, короткий голосовой клип и подсказку в полностью синхронизированное говорящие видео. Основанный на LTX-2.3, он объединяет аудио и визуальные эффекты в одном процессе диффузии и добавляет адаптер идентичности In-Context LoRA, чтобы человек на вашем эталонном изображении оставался постоянным на всех кадрах. LTX 2.3 ID-LoRA идеально подходит для аватаров, виртуальных ведущих и любых сценариев, где синхронизация губ, сходство и управление подсказками должны совпадать в одном проходе.

Вы предоставляете три вещи: эталонное изображение, одно или два предложения аудио и текстовую подсказку, описывающую внешний вид и исполнение. Путь LTX 2.3 ID-LoRA обрабатывает идентичность, а легкий аудиопроцессор улучшает четкость голоса для более сильных подсказок для рта. Результат — это связное видео, сохраняющее идентичность, с синхронизированной речью, которое не требует обучения для каждого субъекта.

Основные модели в процессе LTX 2.3 ID-LoRA для Comfyui#

  • Базовая контрольная точка Lightricks LTX-2.3 22B. Совместная аудио-видео модель, которая генерирует синхронизированные кадры и звук из текста, изображения и аудио. Это основной генератор, используемый в этом конвейере ComfyUI. Модельная карта
  • Дистиллированный LoRA 384 LTX-2.3. Официальный адаптер LoRA, который применяет дистиллированное руководство к базовой модели для стабилизации и ускорения семплирования без потери качества. Он подключен в качестве второй модели на этом этапе. См. таблицу контрольных точек на странице LTX-2.3. Модельная карта
  • Пространственный увеличитель LTX-2.3 x2. Увеличитель в латентном пространстве, используемый внутри подграфа семплера, чтобы повысить пространственную детальность перед декодированием, улучшая верность лица и краев в финальном видео. Модельная карта
  • Текстовый энкодер Gemma 3 12B Instruct для LTX-2.3. Обеспечивает текстовое условие, которое определяет стиль, сцену и исполнение. Этот процесс использует энкодер Gemma 3, упакованный для LTX-2 в ComfyUI. Текстовые энкодеры Comfy-Org
  • VAE для видео и аудио LTX-2.3. Специально созданные VAE декодируют визуальные и акустические латенты, произведенные моделью, в изображения и звуковую волну. Совместимые сборки bf16 упоминаются в графе. Примеры источников: Видео VAE · Аудио VAE
  • Mel-Band RoFormer для разделения вокала. Дополнительный процессор, который извлекает чистый вокал из эталонного аудио, чтобы модель могла более надежно отслеживать слоги и формы рта. Статья · Узел ComfyUI
  • LTX 2.3 ID-LoRA (IC-LoRA). In-context LoRA идентичности, обученный для использования в говорящих видео, который склоняет генератор к лицу на вашем эталонном изображении, уважая подсказки и голосовые сигналы. Lightricks документирует использование LoRA и IC-LoRA с LTX-2.3 на странице модели. Модельная карта

Как использовать процесс LTX 2.3 ID-LoRA в Comfyui#

Общий поток. Конвейер загружает базу LTX-2.3 с текстовыми энкодерами и VAE, подготавливает ваше изображение и аудио, затем запускает двухэтапный семплер LTX, который объединяет текст, эталон лица и голосовую дорожку для генерации синхронизированных кадров и речи. Параллельный семплер без ID-LoRA включен для быстрых сравнений. Финальные кадры и аудио объединяются в MP4.

  • Модель
    • Граф загружает базовую контрольную точку с помощью CheckpointLoaderSimple (#5493), текстовые энкодеры на основе Gemma через LTXAVTextEncoderLoader (#5494) и специализированные VAE для видео VAELoader (#5651) и аудио VAELoaderKJ (#5649). Затем применяются два адаптера: официальный дистиллированный LoRA для формирования модели второго этапа и LTX 2.3 ID-LoRA для кондиционирования идентичности через LoraLoaderModelOnly (#5573).
    • Этот этап обеспечивает, чтобы генератор понимал вашу подсказку, имел правильные стеки декодирования и был настроен как на эффективность, так и на предвзятость идентичности.
    • Вы обычно не изменяете здесь ничего, кроме замены контрольных точек или LoRA, если у вас есть альтернативы.
  • Настройка видео
    • Управляет выходными размерами, частотой кадров, шагами и длиной. Width (#5284), Height (#5286) и Frame Rate (#5289) подают небольшую утилиту, которая вычисляет общее количество кадров из секунд, поддерживая согласованность времени между аудио и видео.
    • Настройки хранятся один раз и читаются всеми нижестоящими узлами, чтобы два семплера и мюксер оставались согласованными.
    • Измените эти значения в первую очередь, когда хотите изменить аспект, плавность или продолжительность.
  • Загрузка эталонного изображения
    • Предоставьте одно четкое изображение лица через Load Image (Input) (#5525). Изображение изменяется с помощью ImageResizeKJv2 (#5280), чтобы соответствовать выбранному выходу.
    • Это предварительно обработанное изображение становится якорем для идентичности на этапе LTX 2.3 ID-LoRA, направляя сходство и композицию кадра.
    • Используйте хорошо освещенную, фронтальную фотографию с минимальным размытием движения для лучших результатов.
  • Предобработка аудио
    • Вставьте короткий WAV или MP3, используя Reference Audio (Input) (#5652). Клип при необходимости обрезается, а затем передается в MelBandRoFormerSampler (#5473) для изоляции вокала.
    • Чистый вокал помогает модели предполагать фонемы и время для точных движений губ и ритма речи.
    • Если ваше аудио уже только голосовое, вы можете пропустить разделение и подать его напрямую.
  • Семплирование LTX с ID LoRA
    • Это основной путь. Подграф семплера (Samplers (#5278)) объединяет вашу положительную подсказку из Enhanced Prompt (Positive) (#5174), отрицательный список, эталон лица и голосовую дорожку через латентный конвейер LTX-2.3 AV.
    • LTXVReferenceAudio синхронизирует движение с речью, в то время как LTXVImgToVideoInplace вводит изображение лица в латент как пространственный якорь. Адаптер LTX 2.3 ID-LoRA направляет генератор к идентичности вашего субъекта.
    • Этап включает внутренний латентный увеличитель для повышения детализации перед декодированием. Он выводит кадры плюс синхронизированный аудиопоток.
  • Семплирование LTX без ID LoRA
    • Зеркальный семплер (Samplers (#5643)) выполняет то же кондиционирование, но без адаптера ID-LoRA. Используйте это для A/B проверок или когда хотите больше свободы от эталонной идентичности.
    • Всё остальное остается идентичным, поэтому различия, которые вы замечаете, обусловлены только кондиционированием идентичности.
    • Этот путь может быть полезен для быстрых черновиков или творческих отступлений.
  • Объединение видео и вывод
    • Кадры и сгенерированное аудио объединяются в MP4 с помощью Video Combine (Output) (#5218). Частота кадров берется из вашего глобального настроения, так что движение и синхронизация губ совпадают с временем семплера.
    • Вторичный Video Combine (#5645) предварительно просматривает ветвь без ID-LoRA, если вы её включили, что полезно для сравнений.
    • Процесс очищает кеш между запусками, чтобы поддерживать стабильность VRAM на длинных сеансах.

Ключевые узлы в процессе LTX 2.3 ID-LoRA для Comfyui#

  • LoraLoaderModelOnly (#5573)
    • Загружает LTX 2.3 ID-LoRA, который сохраняет идентичность лица. Уменьшите его вес, если хотите больше творческой вариативности, или увеличьте, чтобы более строго закрепить сходство. Подбирайте его тщательно с силой подсказки, чтобы идентичность и стиль не конкурировали. Справка: использование LTX-2.3 LoRA на странице модели. Модельная карта
  • LTXVReferenceAudio (#5589)
    • Преобразует ваше эталонное аудио в кондиционирование для времени слогов, просодии и форм рта. Подайте чистую речь для лучшего согласования. Если вы слышите пульсацию или не в такт артикуляцию, укоротите или упростите клип, а не увеличивайте силу.
  • LTXVImgToVideoInplace (#5245, также используется позже)
    • Внедряет изображение лица в латентный видеопоток как пространственный приоритет. Контроль силы изображения балансирует соблюдение фотографии против свободы движения. Для сильной идентичности с естественным движением держите силу изображения умеренной и позвольте ID-LoRA нести сходство.
  • LTXVConditioning (#5621)
    • Упаковывает текстовое кондиционирование и временные подсказки для семплеров LTX. Убедитесь, что его входная частота кадров совпадает с вашей выходной частотой кадров, чтобы поля движения и время фонем оставались согласованными.
  • VHS_VideoCombine (#5218)
    • Объединяет кадры и аудио в финальный файл. Если ваше аудио немного длиннее кадров, включите обрезку здесь, чтобы предотвратить появление черного хвоста. Для совместимости с платформами сохраняйте настройки H.264 по умолчанию, если у вас нет причин их изменять. Ссылка на узел: ComfyUI-VideoHelperSuite
  • MelBandRoFormerSampler (#5473)
    • Разделяет вокал от музыки, используя трансформер Mel-band, чтобы генератор фиксировался на речи. Если шипящие звуки размазываются или взрывные звуки выпячиваются, попробуйте другой файл модели из той же семьи или уменьшите входную громкость. Фоновое чтение: arXiv

Дополнительные возможности#

  • Для наиболее стабильных генераций с LTX-2.3 используйте ширину и высоту, делимые на 32, и выбирайте количество кадров 8n + 1, как задокументировано Lightricks. Модельная карта
  • Сохраняйте эталонное изображение согласованным с вашей подсказкой. Если вы описываете уличное освещение, но предоставляете фотографию в помещении, идентичность может сохраниться, в то время как цвет и освещение будут бороться с подсказкой.
  • Дайте аудио от 2 до 8 секунд с естественным темпом. Слишком сжатые или реверберирующие клипы снижают точность синхронизации губ, даже после разделения вокала.
  • Когда лица смещаются, слегка уменьшите силу изображения и полагайтесь больше на LTX 2.3 ID-LoRA. Когда лица слишком сильно блуждают, поступайте наоборот.
  • Для более длительных дублей создавайте в сегментах, которые используют одно и то же зерно и глобальные настройки, затем объединяйте клипы в видеоредактировании, если необходимо.

Ссылки и полезные репозитории#

Благодарности#

Этот процесс реализует и опирается на следующие работы и ресурсы. Мы с благодарностью признаем создателей LTX 2.3 ID-LoRA Source за процесс LTX 2.3 ID-LoRA Source за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.