LTX 2.3 ID-LoRA в ComfyUI | Видео создатель с контролем идентичности

ComfyUI LTX 2.3 ID-LoRA Рабочий процесс

LTX 2.3 ID-LoRA in ComfyUI | Identity-Controlled Video Creator

Хотите запустить этот рабочий процесс?

Полностью функциональные рабочие процессы
Нет недостающих узлов или моделей
Не требуется ручная настройка
Отличается потрясающей визуализацией

ComfyUI LTX 2.3 ID-LoRA Примеры

Процесс создания говорящих видео LTX 2.3 ID-LoRA для ComfyUI#

Этот процесс превращает одно изображение лица, короткий голосовой клип и подсказку в полностью синхронизированное говорящие видео. Основанный на LTX-2.3, он объединяет аудио и визуальные эффекты в одном процессе диффузии и добавляет адаптер идентичности In-Context LoRA, чтобы человек на вашем эталонном изображении оставался постоянным на всех кадрах. LTX 2.3 ID-LoRA идеально подходит для аватаров, виртуальных ведущих и любых сценариев, где синхронизация губ, сходство и управление подсказками должны совпадать в одном проходе.

Вы предоставляете три вещи: эталонное изображение, одно или два предложения аудио и текстовую подсказку, описывающую внешний вид и исполнение. Путь LTX 2.3 ID-LoRA обрабатывает идентичность, а легкий аудиопроцессор улучшает четкость голоса для более сильных подсказок для рта. Результат — это связное видео, сохраняющее идентичность, с синхронизированной речью, которое не требует обучения для каждого субъекта.

Основные модели в процессе LTX 2.3 ID-LoRA для Comfyui#

Базовая контрольная точка Lightricks LTX-2.3 22B. Совместная аудио-видео модель, которая генерирует синхронизированные кадры и звук из текста, изображения и аудио. Это основной генератор, используемый в этом конвейере ComfyUI. Модельная карта
Дистиллированный LoRA 384 LTX-2.3. Официальный адаптер LoRA, который применяет дистиллированное руководство к базовой модели для стабилизации и ускорения семплирования без потери качества. Он подключен в качестве второй модели на этом этапе. См. таблицу контрольных точек на странице LTX-2.3. Модельная карта
Пространственный увеличитель LTX-2.3 x2. Увеличитель в латентном пространстве, используемый внутри подграфа семплера, чтобы повысить пространственную детальность перед декодированием, улучшая верность лица и краев в финальном видео. Модельная карта
Текстовый энкодер Gemma 3 12B Instruct для LTX-2.3. Обеспечивает текстовое условие, которое определяет стиль, сцену и исполнение. Этот процесс использует энкодер Gemma 3, упакованный для LTX-2 в ComfyUI. Текстовые энкодеры Comfy-Org
VAE для видео и аудио LTX-2.3. Специально созданные VAE декодируют визуальные и акустические латенты, произведенные моделью, в изображения и звуковую волну. Совместимые сборки bf16 упоминаются в графе. Примеры источников: Видео VAE · Аудио VAE
Mel-Band RoFormer для разделения вокала. Дополнительный процессор, который извлекает чистый вокал из эталонного аудио, чтобы модель могла более надежно отслеживать слоги и формы рта. Статья · Узел ComfyUI
LTX 2.3 ID-LoRA (IC-LoRA). In-context LoRA идентичности, обученный для использования в говорящих видео, который склоняет генератор к лицу на вашем эталонном изображении, уважая подсказки и голосовые сигналы. Lightricks документирует использование LoRA и IC-LoRA с LTX-2.3 на странице модели. Модельная карта

Как использовать процесс LTX 2.3 ID-LoRA в Comfyui#

Общий поток. Конвейер загружает базу LTX-2.3 с текстовыми энкодерами и VAE, подготавливает ваше изображение и аудио, затем запускает двухэтапный семплер LTX, который объединяет текст, эталон лица и голосовую дорожку для генерации синхронизированных кадров и речи. Параллельный семплер без ID-LoRA включен для быстрых сравнений. Финальные кадры и аудио объединяются в MP4.

Модель
- Граф загружает базовую контрольную точку с помощью CheckpointLoaderSimple (#5493), текстовые энкодеры на основе Gemma через LTXAVTextEncoderLoader (#5494) и специализированные VAE для видео VAELoader (#5651) и аудио VAELoaderKJ (#5649). Затем применяются два адаптера: официальный дистиллированный LoRA для формирования модели второго этапа и LTX 2.3 ID-LoRA для кондиционирования идентичности через LoraLoaderModelOnly (#5573).
- Этот этап обеспечивает, чтобы генератор понимал вашу подсказку, имел правильные стеки декодирования и был настроен как на эффективность, так и на предвзятость идентичности.
- Вы обычно не изменяете здесь ничего, кроме замены контрольных точек или LoRA, если у вас есть альтернативы.
Настройка видео
- Управляет выходными размерами, частотой кадров, шагами и длиной. Width (#5284), Height (#5286) и Frame Rate (#5289) подают небольшую утилиту, которая вычисляет общее количество кадров из секунд, поддерживая согласованность времени между аудио и видео.
- Настройки хранятся один раз и читаются всеми нижестоящими узлами, чтобы два семплера и мюксер оставались согласованными.
- Измените эти значения в первую очередь, когда хотите изменить аспект, плавность или продолжительность.
Загрузка эталонного изображения
- Предоставьте одно четкое изображение лица через Load Image (Input) (#5525). Изображение изменяется с помощью ImageResizeKJv2 (#5280), чтобы соответствовать выбранному выходу.
- Это предварительно обработанное изображение становится якорем для идентичности на этапе LTX 2.3 ID-LoRA, направляя сходство и композицию кадра.
- Используйте хорошо освещенную, фронтальную фотографию с минимальным размытием движения для лучших результатов.
Предобработка аудио
- Вставьте короткий WAV или MP3, используя Reference Audio (Input) (#5652). Клип при необходимости обрезается, а затем передается в MelBandRoFormerSampler (#5473) для изоляции вокала.
- Чистый вокал помогает модели предполагать фонемы и время для точных движений губ и ритма речи.
- Если ваше аудио уже только голосовое, вы можете пропустить разделение и подать его напрямую.
Семплирование LTX с ID LoRA
- Это основной путь. Подграф семплера (Samplers (#5278)) объединяет вашу положительную подсказку из Enhanced Prompt (Positive) (#5174), отрицательный список, эталон лица и голосовую дорожку через латентный конвейер LTX-2.3 AV.
- LTXVReferenceAudio синхронизирует движение с речью, в то время как LTXVImgToVideoInplace вводит изображение лица в латент как пространственный якорь. Адаптер LTX 2.3 ID-LoRA направляет генератор к идентичности вашего субъекта.
- Этап включает внутренний латентный увеличитель для повышения детализации перед декодированием. Он выводит кадры плюс синхронизированный аудиопоток.
Семплирование LTX без ID LoRA
- Зеркальный семплер (Samplers (#5643)) выполняет то же кондиционирование, но без адаптера ID-LoRA. Используйте это для A/B проверок или когда хотите больше свободы от эталонной идентичности.
- Всё остальное остается идентичным, поэтому различия, которые вы замечаете, обусловлены только кондиционированием идентичности.
- Этот путь может быть полезен для быстрых черновиков или творческих отступлений.
Объединение видео и вывод
- Кадры и сгенерированное аудио объединяются в MP4 с помощью Video Combine (Output) (#5218). Частота кадров берется из вашего глобального настроения, так что движение и синхронизация губ совпадают с временем семплера.
- Вторичный Video Combine (#5645) предварительно просматривает ветвь без ID-LoRA, если вы её включили, что полезно для сравнений.
- Процесс очищает кеш между запусками, чтобы поддерживать стабильность VRAM на длинных сеансах.

Ключевые узлы в процессе LTX 2.3 ID-LoRA для Comfyui#

LoraLoaderModelOnly (#5573)
- Загружает LTX 2.3 ID-LoRA, который сохраняет идентичность лица. Уменьшите его вес, если хотите больше творческой вариативности, или увеличьте, чтобы более строго закрепить сходство. Подбирайте его тщательно с силой подсказки, чтобы идентичность и стиль не конкурировали. Справка: использование LTX-2.3 LoRA на странице модели. Модельная карта
LTXVReferenceAudio (#5589)
- Преобразует ваше эталонное аудио в кондиционирование для времени слогов, просодии и форм рта. Подайте чистую речь для лучшего согласования. Если вы слышите пульсацию или не в такт артикуляцию, укоротите или упростите клип, а не увеличивайте силу.
LTXVImgToVideoInplace (#5245, также используется позже)
- Внедряет изображение лица в латентный видеопоток как пространственный приоритет. Контроль силы изображения балансирует соблюдение фотографии против свободы движения. Для сильной идентичности с естественным движением держите силу изображения умеренной и позвольте ID-LoRA нести сходство.
LTXVConditioning (#5621)
- Упаковывает текстовое кондиционирование и временные подсказки для семплеров LTX. Убедитесь, что его входная частота кадров совпадает с вашей выходной частотой кадров, чтобы поля движения и время фонем оставались согласованными.
VHS_VideoCombine (#5218)
- Объединяет кадры и аудио в финальный файл. Если ваше аудио немного длиннее кадров, включите обрезку здесь, чтобы предотвратить появление черного хвоста. Для совместимости с платформами сохраняйте настройки H.264 по умолчанию, если у вас нет причин их изменять. Ссылка на узел: ComfyUI-VideoHelperSuite
MelBandRoFormerSampler (#5473)
- Разделяет вокал от музыки, используя трансформер Mel-band, чтобы генератор фиксировался на речи. Если шипящие звуки размазываются или взрывные звуки выпячиваются, попробуйте другой файл модели из той же семьи или уменьшите входную громкость. Фоновое чтение: arXiv

Дополнительные возможности#

Для наиболее стабильных генераций с LTX-2.3 используйте ширину и высоту, делимые на 32, и выбирайте количество кадров 8n + 1, как задокументировано Lightricks. Модельная карта
Сохраняйте эталонное изображение согласованным с вашей подсказкой. Если вы описываете уличное освещение, но предоставляете фотографию в помещении, идентичность может сохраниться, в то время как цвет и освещение будут бороться с подсказкой.
Дайте аудио от 2 до 8 секунд с естественным темпом. Слишком сжатые или реверберирующие клипы снижают точность синхронизации губ, даже после разделения вокала.
Когда лица смещаются, слегка уменьшите силу изображения и полагайтесь больше на LTX 2.3 ID-LoRA. Когда лица слишком сильно блуждают, поступайте наоборот.
Для более длительных дублей создавайте в сегментах, которые используют одно и то же зерно и глобальные настройки, затем объединяйте клипы в видеоредактировании, если необходимо.

Ссылки и полезные репозитории#

Открытые веса и заметки LTX-2.3: Страница модели на Hugging Face
Официальные узлы ComfyUI для видео LTX: Lightricks/ComfyUI-LTXVideo
Кодовая база LTX-2 и статья: Lightricks/LTX-Video · arXiv
Текстовые энкодеры Gemma 3 12B IT для LTX в ComfyUI: Comfy-Org/ltx-2 text_encoders
Фон Mel-Band RoFormer: arXiv

Благодарности#

Этот процесс реализует и опирается на следующие работы и ресурсы. Мы с благодарностью признаем создателей LTX 2.3 ID-LoRA Source за процесс LTX 2.3 ID-LoRA Source за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

LTX 2.3 ID-LoRA Source
- Документы / Примечания к выпуску: YouTube @Benji's AI Playground

Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

InfiniteTalk | Генератор Синхронизированных Аватаров

Фото + Голос = Идеально Синхронизированный Говорящий Аватар за Минуты

DreamID-Omni | Создатель говорящих видео из фото

Превращает фотографии в ультрареалистичные говорящие видео за секунды.

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

Hallo2 | Портретная анимация синхронизации губ

Аудио-управляемая синхронизация губ для портретной анимации в 4K.

LatentSync| Модель синхронизации губ

Продвинутая технология синхронизации губ, управляемая аудио.

Замена персонажа, позы и фона V3 | Wan2.2 Animate + SAM3.1 + SDPose

Быстро меняйте персонажей, позы и сцены с полным творческим контролем.

InstantCharacter

Одно фото, бесконечные персонажи. Идеальное сохранение идентичности.

LTX 2.3 Prompt Relay | Создатель Видео с Контролем Сцен

Преобразуйте статичные кадры в плавные, сюжетные кинематографические клипы мгновенно.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

LTX 2.3 ID-LoRA | Генератор говорящих аватаров