LTX 2.3 VBVR в ComfyUI | Логически обоснованный рабочий процесс видео

ComfyUI LTX 2.3 VBVR Workflow

LTX 2.3 VBVR in ComfyUI | Logic-Based Video Reasoning Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 VBVR Examples

LTX 2.3 VBVR ComfyUI Workflow: reasoning‑aware image‑to‑video with dialog#

Этот рабочий процесс превращает одно эталонное изображение в последовательность видео, руководствуясь текстом и опциональной речью, поддерживаемой LTX‑2.3 и LTX 2.3 VBVR LoRA. VBVR означает видео‑базированные визуальные рассуждения: он помогает модели сохранять идентичности, пространственные отношения и причинно-следственные связи последовательными между кадрами, чтобы ваши сцены казались намеренными, а не случайными. График включает подсказки, чувствительные к речи, двухэтапную выборку LTX, сглаживание движения и финальное увеличение/экспорт в MP4.

Творцы, которым нужна нарративная непрерывность, правдоподобное движение или синхронизация диалога, найдут рабочий процесс LTX 2.3 VBVR особенно полезным. Обеспечьте сильный эталонный кадр, опишите действие и взаимодействия, и при необходимости вставьте произнесенную реплику, которая автоматически транскрибируется и вплетается в подсказку для лучшего выравнивания губ и времени.

Ключевые модели в рабочем процессе Comfyui LTX 2.3 VBVR#

Модель генерации видео LTX‑2.3 22B от Lightricks, основная диффузионная основа для преобразования изображений в видео и аудио‑условного декодирования. Hugging Face: Lightricks/LTX-2.3
LTX‑2.3 Video VAE для кодирования/декодирования латентов видео, в паре с базовой контрольной точкой для эффективного декодирования плиток. Hugging Face: Lightricks/LTX-2.3
Модель LTX‑2.3 Spatial Upscaler x2 для повышения пространственной детализации после первого прохода. Hugging Face: Lightricks/LTX-2.3
Кодировщик текста Gemma 3 12B, упакованный для LTX‑2, используется здесь для разбора сложных инструкций и токенов диалога. Hugging Face: Comfy-Org/ltx-2
LTX 2.3 VBVR LoRA для структуры сцены, ориентированной на рассуждения, взаимодействия объектов и непрерывности во времени. Hugging Face: LiconStudio/Ltx2.3-VBVR-lora-I2V
Модель интерполяции кадров RIFE для сглаживания движения между сгенерированными кадрами. GitHub: hzwer/Practical-RIFE
Модель распознавания речи Whisper для опционального преобразования аудио в текст. GitHub: openai/whisper

Как использовать рабочий процесс Comfyui LTX 2.3 VBVR#

График организован в четкие группы. Вы настраиваете входные данные, стек моделей и параметры видео, затем выборщики LTX генерируют кадры, которые при необходимости интерполируются и увеличиваются перед экспортом.

Загрузка эталонного изображения#

Используйте Load Image (Input) (#5525), чтобы выбрать сильный, стильный эталонный кадр. Изображение изменяет размер с помощью ImageResizeKJv2 (#5280) до выбранной вами ширины и высоты, сохраняя композицию. Узел предварительного просмотра подтверждает, что модель действительно увидит. Хорошие эталонные изображения с четкими объектами и освещением дают стеку LTX 2.3 VBVR надежную опору для идентичности и стиля.

Настройки видео#

Установите Width (Input) (#5284), Height (Input) (#5286), Seconds (Input) (#5573) и базовый Frame Rate (#5289). График автоматически вычисляет количество кадров, чтобы время оставалось последовательным при изменении продолжительности или fps. Если вы планируете включить интерполяцию позже, вы можете выбрать скромный базовый fps, чтобы сэкономить время и позволить RIFE добавить плавность. Эти настройки также информируют узел кондиционирования, чтобы движение и ритм оставались согласованными.

Модель#

CheckpointLoaderSimple (#5493) загружает LTX‑2.3. График прикрепляет LTX 2.3 VBVR LoRA через LoraLoaderModelOnly (#5616) и может по желанию применить дистиллированную LoRA и детализаторную LoRA для дополнительной точности. LTXAVTextEncoderLoader (#5494) вводит основанный на Gemma кодировщик текста, в то время как VAELoader (#5629) и LTXVAudioVAELoader (#5492) предоставляют видео и аудио VAE. Два узла ReservedVRAMSetter балансируют использование памяти, чтобы длительные запуски оставались стабильными.

Текстовая подсказка видео#

Напишите вашу сцену в Text Prompt (Input) (#5620). Чтобы вставить диалог, синхронизированный с аудио, включите заполнитель, такой как: Женщина говорит "<Transcript1>". Подайте фактическую реплику в Speech Line (Input) (#5524) или позвольте Whisper создать её из аудио; StringReplace (#5226) и JoinStringMulti (#5602) заменят <Transcript1> на транскрипт. Затем TextGenerateLTX2Prompt (#5488) составляет уточнённую инструкцию, которую Enhanced Prompt (Positive) (#5174) кодирует перед тем, как LTXVConditioning (#5173) подготовит финальное руководство. Четкие глаголы, ссылки на субъектов и пространственные подсказки дают LTX 2.3 VBVR LoRA контекст, необходимый для рассуждений во времени.

Предобработка аудио#

Принесите звуковую дорожку с Load Audio (Input) (#5590) или подключите TTS. AudioAdjustVolume (#5601) нормализует уровни. Если вы хотите диалог, чувствительный к подсказкам, используйте Whisper через Load Whisper (mtb) (#5606) и Audio To Text (mtb) (#5607), чтобы создать транскрипт, используемый в подсказке. То же аудио также кодируется как латент и позже смешивается обратно в финальное видео, чтобы подсказки губ и времени могли влиять на генерацию.

Выборка LTX#

LTXVPreprocess (#5240) и LTXVImgToVideoInplace (#5245) преобразуют ваше эталонное изображение в начальную латентную последовательность, сохраняя основную идентичность при допущении движения. Подграфик Samplers (#5278) выполняет двухэтапный процесс с направляющими CFG и планировщиком, производя спатиально-временные латенты, которые уважают как вашу подсказку, так и LTX 2.3 VBVR рассуждательную LoRA. Аудиолатенты объединяются с видеолатентами, чтобы время речи могло информировать движение. LTXVSpatioTemporalTiledVAEDecode (#5237) декодирует кадры, а LTXVAudioVAEDecode (#5103) восстанавливает аудиотрек.

Интерполяция кадров и увеличение#

RIFE VFI (#5554) интерполирует между кадрами для создания более плавного движения и достижения целевой скорости воспроизведения при сочетании с базовым fps. RTXVideoSuperResolution (#5631) улучшает детализацию и уменьшает артефакты сжатия, улучшая читаемость лиц, краёв и мелких объектов. Используйте этот этап для баланса между скоростью и качеством: интерполируйте для плавности, затем увеличьте для четкости.

Экспорт#

Выберите между CreateVideo (#5599) для простого смешивания или VHS_VideoCombine (#5618) для большего контроля над форматом, метаданными и обрезкой. Пайплайн записывает H.264 MP4 через SaveVideo (#5597). Скорость кадров определяется вашими настройками и стадией интерполяции, так что воспроизведение соответствует движению, которое вы задумали в начале.

Ключевые узлы в рабочем процессе Comfyui LTX 2.3 VBVR#

`LoraLoaderModelOnly` (#5616)#

Загружает LTX 2.3 VBVR LoRA, который улучшает логическую непрерывность, взаимодействие объектов и движение с учётом камеры. Отрегулируйте вес LoRA, чтобы сбалансировать влияние рассуждений со стилем из базовой модели и других LoRA. Этот узел является центральным для отличительного вида и согласованности, которые определяют рабочий процесс LTX 2.3 VBVR. Для использования узлов LTX и LoRA смотрите Lightricks/ComfyUI-LTXVideo и карту VBVR LoRA выше.

`TextGenerateLTX2Prompt` (#5488)#

Собирает финальную положительную подсказку, объединяя ваше базовое описание, эталонное изображение и заменённый токен диалога из <Transcript1>. Держите инструкции краткими, явными и последовательными относительно субъектов и действий, чтобы модель могла рассуждать во времени. Именно здесь вы кодируете намерение, которое LTX 2.3 VBVR LoRA будет усиливать во время выборки.

`LTXVConditioning` (#5173)#

Упаковывает положительное и отрицательное кондиционирование и передаёт информацию о времени, чтобы движение и ритм соответствовали вашему выбору fps. Если вы измените частоту кадров в настройках, обновите её здесь, чтобы сохранить динамику движения последовательной. Сильные отрицательные помогают предотвратить появление неподвижных кадров, водяных знаков или нежелательных наложений в последовательности.

`Samplers` (#5278)#

Двухэтапный блок выборки координирует шум, руководство и планирование, чтобы преобразовать латенты изображений и аудио в последовательное видео. Наиболее значимыми настройками являются общее количество steps, image strength начального этапа I2V и noise_seed для воспроизводимости. Тщательно настройте их, чтобы сбалансировать верность эталонному кадру с готовностью следовать новым движениям и действиям.

`RIFE VFI` (#5554)#

Интерполирует кадры для более плавного движения или достижения более высокой эффективной частоты кадров без генерации последовательности заново. Увеличьте интерполяцию, когда ваш базовый fps низкий или когда движение кажется дерганым; уменьшите её, чтобы сохранить оригинальный генеративный ритм. Модель широко используется для высококачественной VFI; ознакомьтесь с проектом RIFE на GitHub.

Дополнительные опции#

Трюк с диалогом с LTX 2.3 VBVR: напишите естественное предложение с заполнителем, например Женщина говорит "<Transcript1>", затем подайте реплику в Speech Line или позвольте Whisper транскрибировать аудио, чтобы подсказка и губы совпадали.
Подсказка для рассуждений: укажите, кто что делает, где и почему. Используйте последовательные имена субъектов и временные подсказки, такие как затем, пока и как камера движется, чтобы воспользоваться преимуществами VBVR.
Быстрые итерации: начните с более короткой продолжительности или более низкого базового fps, подтвердите ритмы движения, затем увеличьте интерполяцию или секунды, чтобы закончить.
Советы по стабильности: если вы видите дрейф идентичности, слегка уменьшите силу image‑to‑video или увеличьте вес VBVR LoRA; если вы видите чрезмерное ограничение, сделайте наоборот.

Благодарности#

Этот рабочий процесс реализует и строится на следующих работах и ресурсах. Мы благодарно признаём вклад и поддержку @Benji’s AI Playground за 2.3 VBVR Workflow Source. Для авторитетных деталей, пожалуйста, обращайтесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

LTX/2.3 VBVR Workflow Source
- Документы / Заметки о выпуске: LTX 2.3 VBVR Workflow Source @Benji’s AI Playground

Замечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

LTX Video | Изображение+Текст в Видео

Создает видео из подсказок изображение+текст.

ComfyUI F5 TTS | Движок естественного клонирования голосов

Преобразуйте текст в насыщенные, выразительные голоса с естественным контролем тона.

LTX 2.3 Изображение в Видео | Создатель Кинематографического Движения

Превратите изображения в реалистичные, кинематографические видео с плавным, последовательным движением.

LTX-2 ControlNet | Генератор точного видео

Точный контроль, идеальная синхронизация, супер ясное создание видео с ИИ.

LTX 2.3 LoRA Инференс | AI Toolkit ComfyUI

Запустите ваш LTX 2.3 LoRA, обученный с помощью AI Toolkit, в ComfyUI с поведением, соответствующим обучению, используя единственный пользовательский узел RunComfy RC.

Модель SCAIL | Создатель анимаций, управляемых позами

Анимация, управляемая позами, со стабильностью идентичности и точностью движений.

FLUX Inpainting | Бесшовное редактирование изображений

Легко заполняйте, удаляйте и улучшайте изображения, бесшовно интегрируя новый контент.

SVD (Stable Video Diffusion) + SD | Текст в Видео

Интегрируйте Stable Diffusion и Stable Video Diffusion для прямого преобразования текста в видео.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

LTX 2.3 VBVR | Генератор видео с учетом контекста