logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Рабочие процессы>LTX 2.3 ID-LoRA | Генератор говорящих аватаров

LTX 2.3 ID-LoRA | Генератор говорящих аватаров

Workflow Name: RunComfy/LTX-2.3-ID-LoRA
Workflow ID: 0000...1385
С помощью этого процесса, учитывающего идентичность, вы можете легко создавать реалистичных говорящих аватаров из одного изображения, короткого аудиоклипа и текстового ввода. Он сочетает в себе постоянство лица с точной синхронизацией губ и выразительной передачей голоса. Модель сохраняет уникальные черты объекта, сочетая реалистичное движение и тон. Идеально подходит для виртуальных личностей, цифровых влиятельных лиц и повествований, основанных на персонажах. Этот инструмент упрощает сложные этапы генерации в единый процесс для бесшовного аудиовизуального вывода.

Процесс создания говорящих видео LTX 2.3 ID-LoRA для ComfyUI

Этот процесс превращает одно изображение лица, короткий голосовой клип и подсказку в полностью синхронизированное говорящие видео. Основанный на LTX-2.3, он объединяет аудио и визуальные эффекты в одном процессе диффузии и добавляет адаптер идентичности In-Context LoRA, чтобы человек на вашем эталонном изображении оставался постоянным на всех кадрах. LTX 2.3 ID-LoRA идеально подходит для аватаров, виртуальных ведущих и любых сценариев, где синхронизация губ, сходство и управление подсказками должны совпадать в одном проходе.

Вы предоставляете три вещи: эталонное изображение, одно или два предложения аудио и текстовую подсказку, описывающую внешний вид и исполнение. Путь LTX 2.3 ID-LoRA обрабатывает идентичность, а легкий аудиопроцессор улучшает четкость голоса для более сильных подсказок для рта. Результат — это связное видео, сохраняющее идентичность, с синхронизированной речью, которое не требует обучения для каждого субъекта.

Основные модели в процессе LTX 2.3 ID-LoRA для Comfyui

  • Базовая контрольная точка Lightricks LTX-2.3 22B. Совместная аудио-видео модель, которая генерирует синхронизированные кадры и звук из текста, изображения и аудио. Это основной генератор, используемый в этом конвейере ComfyUI. Модельная карта
  • Дистиллированный LoRA 384 LTX-2.3. Официальный адаптер LoRA, который применяет дистиллированное руководство к базовой модели для стабилизации и ускорения семплирования без потери качества. Он подключен в качестве второй модели на этом этапе. См. таблицу контрольных точек на странице LTX-2.3. Модельная карта
  • Пространственный увеличитель LTX-2.3 x2. Увеличитель в латентном пространстве, используемый внутри подграфа семплера, чтобы повысить пространственную детальность перед декодированием, улучшая верность лица и краев в финальном видео. Модельная карта
  • Текстовый энкодер Gemma 3 12B Instruct для LTX-2.3. Обеспечивает текстовое условие, которое определяет стиль, сцену и исполнение. Этот процесс использует энкодер Gemma 3, упакованный для LTX-2 в ComfyUI. Текстовые энкодеры Comfy-Org
  • VAE для видео и аудио LTX-2.3. Специально созданные VAE декодируют визуальные и акустические латенты, произведенные моделью, в изображения и звуковую волну. Совместимые сборки bf16 упоминаются в графе. Примеры источников: Видео VAE · Аудио VAE
  • Mel-Band RoFormer для разделения вокала. Дополнительный процессор, который извлекает чистый вокал из эталонного аудио, чтобы модель могла более надежно отслеживать слоги и формы рта. Статья · Узел ComfyUI
  • LTX 2.3 ID-LoRA (IC-LoRA). In-context LoRA идентичности, обученный для использования в говорящих видео, который склоняет генератор к лицу на вашем эталонном изображении, уважая подсказки и голосовые сигналы. Lightricks документирует использование LoRA и IC-LoRA с LTX-2.3 на странице модели. Модельная карта

Как использовать процесс LTX 2.3 ID-LoRA в Comfyui

Общий поток. Конвейер загружает базу LTX-2.3 с текстовыми энкодерами и VAE, подготавливает ваше изображение и аудио, затем запускает двухэтапный семплер LTX, который объединяет текст, эталон лица и голосовую дорожку для генерации синхронизированных кадров и речи. Параллельный семплер без ID-LoRA включен для быстрых сравнений. Финальные кадры и аудио объединяются в MP4.

  • Модель
    • Граф загружает базовую контрольную точку с помощью CheckpointLoaderSimple (#5493), текстовые энкодеры на основе Gemma через LTXAVTextEncoderLoader (#5494) и специализированные VAE для видео VAELoader (#5651) и аудио VAELoaderKJ (#5649). Затем применяются два адаптера: официальный дистиллированный LoRA для формирования модели второго этапа и LTX 2.3 ID-LoRA для кондиционирования идентичности через LoraLoaderModelOnly (#5573).
    • Этот этап обеспечивает, чтобы генератор понимал вашу подсказку, имел правильные стеки декодирования и был настроен как на эффективность, так и на предвзятость идентичности.
    • Вы обычно не изменяете здесь ничего, кроме замены контрольных точек или LoRA, если у вас есть альтернативы.
  • Настройка видео
    • Управляет выходными размерами, частотой кадров, шагами и длиной. Width (#5284), Height (#5286) и Frame Rate (#5289) подают небольшую утилиту, которая вычисляет общее количество кадров из секунд, поддерживая согласованность времени между аудио и видео.
    • Настройки хранятся один раз и читаются всеми нижестоящими узлами, чтобы два семплера и мюксер оставались согласованными.
    • Измените эти значения в первую очередь, когда хотите изменить аспект, плавность или продолжительность.
  • Загрузка эталонного изображения
    • Предоставьте одно четкое изображение лица через Load Image (Input) (#5525). Изображение изменяется с помощью ImageResizeKJv2 (#5280), чтобы соответствовать выбранному выходу.
    • Это предварительно обработанное изображение становится якорем для идентичности на этапе LTX 2.3 ID-LoRA, направляя сходство и композицию кадра.
    • Используйте хорошо освещенную, фронтальную фотографию с минимальным размытием движения для лучших результатов.
  • Предобработка аудио
    • Вставьте короткий WAV или MP3, используя Reference Audio (Input) (#5652). Клип при необходимости обрезается, а затем передается в MelBandRoFormerSampler (#5473) для изоляции вокала.
    • Чистый вокал помогает модели предполагать фонемы и время для точных движений губ и ритма речи.
    • Если ваше аудио уже только голосовое, вы можете пропустить разделение и подать его напрямую.
  • Семплирование LTX с ID LoRA
    • Это основной путь. Подграф семплера (Samplers (#5278)) объединяет вашу положительную подсказку из Enhanced Prompt (Positive) (#5174), отрицательный список, эталон лица и голосовую дорожку через латентный конвейер LTX-2.3 AV.
    • LTXVReferenceAudio синхронизирует движение с речью, в то время как LTXVImgToVideoInplace вводит изображение лица в латент как пространственный якорь. Адаптер LTX 2.3 ID-LoRA направляет генератор к идентичности вашего субъекта.
    • Этап включает внутренний латентный увеличитель для повышения детализации перед декодированием. Он выводит кадры плюс синхронизированный аудиопоток.
  • Семплирование LTX без ID LoRA
    • Зеркальный семплер (Samplers (#5643)) выполняет то же кондиционирование, но без адаптера ID-LoRA. Используйте это для A/B проверок или когда хотите больше свободы от эталонной идентичности.
    • Всё остальное остается идентичным, поэтому различия, которые вы замечаете, обусловлены только кондиционированием идентичности.
    • Этот путь может быть полезен для быстрых черновиков или творческих отступлений.
  • Объединение видео и вывод
    • Кадры и сгенерированное аудио объединяются в MP4 с помощью Video Combine (Output) (#5218). Частота кадров берется из вашего глобального настроения, так что движение и синхронизация губ совпадают с временем семплера.
    • Вторичный Video Combine (#5645) предварительно просматривает ветвь без ID-LoRA, если вы её включили, что полезно для сравнений.
    • Процесс очищает кеш между запусками, чтобы поддерживать стабильность VRAM на длинных сеансах.

Ключевые узлы в процессе LTX 2.3 ID-LoRA для Comfyui

  • LoraLoaderModelOnly (#5573)
    • Загружает LTX 2.3 ID-LoRA, который сохраняет идентичность лица. Уменьшите его вес, если хотите больше творческой вариативности, или увеличьте, чтобы более строго закрепить сходство. Подбирайте его тщательно с силой подсказки, чтобы идентичность и стиль не конкурировали. Справка: использование LTX-2.3 LoRA на странице модели. Модельная карта
  • LTXVReferenceAudio (#5589)
    • Преобразует ваше эталонное аудио в кондиционирование для времени слогов, просодии и форм рта. Подайте чистую речь для лучшего согласования. Если вы слышите пульсацию или не в такт артикуляцию, укоротите или упростите клип, а не увеличивайте силу.
  • LTXVImgToVideoInplace (#5245, также используется позже)
    • Внедряет изображение лица в латентный видеопоток как пространственный приоритет. Контроль силы изображения балансирует соблюдение фотографии против свободы движения. Для сильной идентичности с естественным движением держите силу изображения умеренной и позвольте ID-LoRA нести сходство.
  • LTXVConditioning (#5621)
    • Упаковывает текстовое кондиционирование и временные подсказки для семплеров LTX. Убедитесь, что его входная частота кадров совпадает с вашей выходной частотой кадров, чтобы поля движения и время фонем оставались согласованными.
  • VHS_VideoCombine (#5218)
    • Объединяет кадры и аудио в финальный файл. Если ваше аудио немного длиннее кадров, включите обрезку здесь, чтобы предотвратить появление черного хвоста. Для совместимости с платформами сохраняйте настройки H.264 по умолчанию, если у вас нет причин их изменять. Ссылка на узел: ComfyUI-VideoHelperSuite
  • MelBandRoFormerSampler (#5473)
    • Разделяет вокал от музыки, используя трансформер Mel-band, чтобы генератор фиксировался на речи. Если шипящие звуки размазываются или взрывные звуки выпячиваются, попробуйте другой файл модели из той же семьи или уменьшите входную громкость. Фоновое чтение: arXiv

Дополнительные возможности

  • Для наиболее стабильных генераций с LTX-2.3 используйте ширину и высоту, делимые на 32, и выбирайте количество кадров 8n + 1, как задокументировано Lightricks. Модельная карта
  • Сохраняйте эталонное изображение согласованным с вашей подсказкой. Если вы описываете уличное освещение, но предоставляете фотографию в помещении, идентичность может сохраниться, в то время как цвет и освещение будут бороться с подсказкой.
  • Дайте аудио от 2 до 8 секунд с естественным темпом. Слишком сжатые или реверберирующие клипы снижают точность синхронизации губ, даже после разделения вокала.
  • Когда лица смещаются, слегка уменьшите силу изображения и полагайтесь больше на LTX 2.3 ID-LoRA. Когда лица слишком сильно блуждают, поступайте наоборот.
  • Для более длительных дублей создавайте в сегментах, которые используют одно и то же зерно и глобальные настройки, затем объединяйте клипы в видеоредактировании, если необходимо.

Ссылки и полезные репозитории

  • Открытые веса и заметки LTX-2.3: Страница модели на Hugging Face
  • Официальные узлы ComfyUI для видео LTX: Lightricks/ComfyUI-LTXVideo
  • Кодовая база LTX-2 и статья: Lightricks/LTX-Video · arXiv
  • Текстовые энкодеры Gemma 3 12B IT для LTX в ComfyUI: Comfy-Org/ltx-2 text_encoders
  • Фон Mel-Band RoFormer: arXiv

Благодарности

Этот процесс реализует и опирается на следующие работы и ресурсы. Мы с благодарностью признаем создателей LTX 2.3 ID-LoRA Source за процесс LTX 2.3 ID-LoRA Source за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы

  • LTX 2.3 ID-LoRA Source
    • Документы / Примечания к выпуску: YouTube @Benji's AI Playground

Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

InfiniteTalk | Генератор Синхронизированных Аватаров

Фото + Голос = Идеально Синхронизированный Говорящий Аватар за Минуты

DreamID-Omni | Создатель говорящих видео из фото

Превращает фотографии в ультрареалистичные говорящие видео за секунды.

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

Hallo2 | Портретная анимация синхронизации губ

Аудио-управляемая синхронизация губ для портретной анимации в 4K.

LatentSync| Модель синхронизации губ

Продвинутая технология синхронизации губ, управляемая аудио.

AnimateDiff + QR Code ControlNet | Визуальные эффекты (VFX)

Создавайте захватывающие визуальные эффекты с AnimateDiff и ControlNet (с участием QRCode Monster и Lineart).

Wan Alpha | Генератор прозрачного видео

Магия альфа: мгновенные видео с прозрачным фоном для VFX и дизайна.

Flux Krea Dev | Естественное преобразование текста в изображение

Лучшая модель FLUX с открытым исходным кодом! Абсолютно невероятные естественные результаты.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.