LTX 2.3 VBVR ComfyUI Workflow: reasoning‑aware image‑to‑video with dialog
Этот рабочий процесс превращает одно эталонное изображение в последовательность видео, руководствуясь текстом и опциональной речью, поддерживаемой LTX‑2.3 и LTX 2.3 VBVR LoRA. VBVR означает видео‑базированные визуальные рассуждения: он помогает модели сохранять идентичности, пространственные отношения и причинно-следственные связи последовательными между кадрами, чтобы ваши сцены казались намеренными, а не случайными. График включает подсказки, чувствительные к речи, двухэтапную выборку LTX, сглаживание движения и финальное увеличение/экспорт в MP4.
Творцы, которым нужна нарративная непрерывность, правдоподобное движение или синхронизация диалога, найдут рабочий процесс LTX 2.3 VBVR особенно полезным. Обеспечьте сильный эталонный кадр, опишите действие и взаимодействия, и при необходимости вставьте произнесенную реплику, которая автоматически транскрибируется и вплетается в подсказку для лучшего выравнивания губ и времени.
Ключевые модели в рабочем процессе Comfyui LTX 2.3 VBVR
- Модель генерации видео LTX‑2.3 22B от Lightricks, основная диффузионная основа для преобразования изображений в видео и аудио‑условного декодирования. Hugging Face: Lightricks/LTX-2.3
- LTX‑2.3 Video VAE для кодирования/декодирования латентов видео, в паре с базовой контрольной точкой для эффективного декодирования плиток. Hugging Face: Lightricks/LTX-2.3
- Модель LTX‑2.3 Spatial Upscaler x2 для повышения пространственной детализации после первого прохода. Hugging Face: Lightricks/LTX-2.3
- Кодировщик текста Gemma 3 12B, упакованный для LTX‑2, используется здесь для разбора сложных инструкций и токенов диалога. Hugging Face: Comfy-Org/ltx-2
- LTX 2.3 VBVR LoRA для структуры сцены, ориентированной на рассуждения, взаимодействия объектов и непрерывности во времени. Hugging Face: LiconStudio/Ltx2.3-VBVR-lora-I2V
- Модель интерполяции кадров RIFE для сглаживания движения между сгенерированными кадрами. GitHub: hzwer/Practical-RIFE
- Модель распознавания речи Whisper для опционального преобразования аудио в текст. GitHub: openai/whisper
Как использовать рабочий процесс Comfyui LTX 2.3 VBVR
График организован в четкие группы. Вы настраиваете входные данные, стек моделей и параметры видео, затем выборщики LTX генерируют кадры, которые при необходимости интерполируются и увеличиваются перед экспортом.
Загрузка эталонного изображения
Используйте Load Image (Input) (#5525), чтобы выбрать сильный, стильный эталонный кадр. Изображение изменяет размер с помощью ImageResizeKJv2 (#5280) до выбранной вами ширины и высоты, сохраняя композицию. Узел предварительного просмотра подтверждает, что модель действительно увидит. Хорошие эталонные изображения с четкими объектами и освещением дают стеку LTX 2.3 VBVR надежную опору для идентичности и стиля.
Настройки видео
Установите Width (Input) (#5284), Height (Input) (#5286), Seconds (Input) (#5573) и базовый Frame Rate (#5289). График автоматически вычисляет количество кадров, чтобы время оставалось последовательным при изменении продолжительности или fps. Если вы планируете включить интерполяцию позже, вы можете выбрать скромный базовый fps, чтобы сэкономить время и позволить RIFE добавить плавность. Эти настройки также информируют узел кондиционирования, чтобы движение и ритм оставались согласованными.
Модель
CheckpointLoaderSimple (#5493) загружает LTX‑2.3. График прикрепляет LTX 2.3 VBVR LoRA через LoraLoaderModelOnly (#5616) и может по желанию применить дистиллированную LoRA и детализаторную LoRA для дополнительной точности. LTXAVTextEncoderLoader (#5494) вводит основанный на Gemma кодировщик текста, в то время как VAELoader (#5629) и LTXVAudioVAELoader (#5492) предоставляют видео и аудио VAE. Два узла ReservedVRAMSetter балансируют использование памяти, чтобы длительные запуски оставались стабильными.
Текстовая подсказка видео
Напишите вашу сцену в Text Prompt (Input) (#5620). Чтобы вставить диалог, синхронизированный с аудио, включите заполнитель, такой как: Женщина говорит "<Transcript1>". Подайте фактическую реплику в Speech Line (Input) (#5524) или позвольте Whisper создать её из аудио; StringReplace (#5226) и JoinStringMulti (#5602) заменят <Transcript1> на транскрипт. Затем TextGenerateLTX2Prompt (#5488) составляет уточнённую инструкцию, которую Enhanced Prompt (Positive) (#5174) кодирует перед тем, как LTXVConditioning (#5173) подготовит финальное руководство. Четкие глаголы, ссылки на субъектов и пространственные подсказки дают LTX 2.3 VBVR LoRA контекст, необходимый для рассуждений во времени.
Предобработка аудио
Принесите звуковую дорожку с Load Audio (Input) (#5590) или подключите TTS. AudioAdjustVolume (#5601) нормализует уровни. Если вы хотите диалог, чувствительный к подсказкам, используйте Whisper через Load Whisper (mtb) (#5606) и Audio To Text (mtb) (#5607), чтобы создать транскрипт, используемый в подсказке. То же аудио также кодируется как латент и позже смешивается обратно в финальное видео, чтобы подсказки губ и времени могли влиять на генерацию.
Выборка LTX
LTXVPreprocess (#5240) и LTXVImgToVideoInplace (#5245) преобразуют ваше эталонное изображение в начальную латентную последовательность, сохраняя основную идентичность при допущении движения. Подграфик Samplers (#5278) выполняет двухэтапный процесс с направляющими CFG и планировщиком, производя спатиально-временные латенты, которые уважают как вашу подсказку, так и LTX 2.3 VBVR рассуждательную LoRA. Аудиолатенты объединяются с видеолатентами, чтобы время речи могло информировать движение. LTXVSpatioTemporalTiledVAEDecode (#5237) декодирует кадры, а LTXVAudioVAEDecode (#5103) восстанавливает аудиотрек.
Интерполяция кадров и увеличение
RIFE VFI (#5554) интерполирует между кадрами для создания более плавного движения и достижения целевой скорости воспроизведения при сочетании с базовым fps. RTXVideoSuperResolution (#5631) улучшает детализацию и уменьшает артефакты сжатия, улучшая читаемость лиц, краёв и мелких объектов. Используйте этот этап для баланса между скоростью и качеством: интерполируйте для плавности, затем увеличьте для четкости.
Экспорт
Выберите между CreateVideo (#5599) для простого смешивания или VHS_VideoCombine (#5618) для большего контроля над форматом, метаданными и обрезкой. Пайплайн записывает H.264 MP4 через SaveVideo (#5597). Скорость кадров определяется вашими настройками и стадией интерполяции, так что воспроизведение соответствует движению, которое вы задумали в начале.
Ключевые узлы в рабочем процессе Comfyui LTX 2.3 VBVR
LoraLoaderModelOnly (#5616)
Загружает LTX 2.3 VBVR LoRA, который улучшает логическую непрерывность, взаимодействие объектов и движение с учётом камеры. Отрегулируйте вес LoRA, чтобы сбалансировать влияние рассуждений со стилем из базовой модели и других LoRA. Этот узел является центральным для отличительного вида и согласованности, которые определяют рабочий процесс LTX 2.3 VBVR. Для использования узлов LTX и LoRA смотрите Lightricks/ComfyUI-LTXVideo и карту VBVR LoRA выше.
TextGenerateLTX2Prompt (#5488)
Собирает финальную положительную подсказку, объединяя ваше базовое описание, эталонное изображение и заменённый токен диалога из <Transcript1>. Держите инструкции краткими, явными и последовательными относительно субъектов и действий, чтобы модель могла рассуждать во времени. Именно здесь вы кодируете намерение, которое LTX 2.3 VBVR LoRA будет усиливать во время выборки.
LTXVConditioning (#5173)
Упаковывает положительное и отрицательное кондиционирование и передаёт информацию о времени, чтобы движение и ритм соответствовали вашему выбору fps. Если вы измените частоту кадров в настройках, обновите её здесь, чтобы сохранить динамику движения последовательной. Сильные отрицательные помогают предотвратить появление неподвижных кадров, водяных знаков или нежелательных наложений в последовательности.
Samplers (#5278)
Двухэтапный блок выборки координирует шум, руководство и планирование, чтобы преобразовать латенты изображений и аудио в последовательное видео. Наиболее значимыми настройками являются общее количество steps, image strength начального этапа I2V и noise_seed для воспроизводимости. Тщательно настройте их, чтобы сбалансировать верность эталонному кадру с готовностью следовать новым движениям и действиям.
RIFE VFI (#5554)
Интерполирует кадры для более плавного движения или достижения более высокой эффективной частоты кадров без генерации последовательности заново. Увеличьте интерполяцию, когда ваш базовый fps низкий или когда движение кажется дерганым; уменьшите её, чтобы сохранить оригинальный генеративный ритм. Модель широко используется для высококачественной VFI; ознакомьтесь с проектом RIFE на GitHub.
Дополнительные опции
- Трюк с диалогом с LTX 2.3 VBVR: напишите естественное предложение с заполнителем, например Женщина говорит "<Transcript1>", затем подайте реплику в Speech Line или позвольте Whisper транскрибировать аудио, чтобы подсказка и губы совпадали.
- Подсказка для рассуждений: укажите, кто что делает, где и почему. Используйте последовательные имена субъектов и временные подсказки, такие как затем, пока и как камера движется, чтобы воспользоваться преимуществами VBVR.
- Быстрые итерации: начните с более короткой продолжительности или более низкого базового fps, подтвердите ритмы движения, затем увеличьте интерполяцию или секунды, чтобы закончить.
- Советы по стабильности: если вы видите дрейф идентичности, слегка уменьшите силу image‑to‑video или увеличьте вес VBVR LoRA; если вы видите чрезмерное ограничение, сделайте наоборот.
Благодарности
Этот рабочий процесс реализует и строится на следующих работах и ресурсах. Мы благодарно признаём вклад и поддержку @Benji’s AI Playground за 2.3 VBVR Workflow Source. Для авторитетных деталей, пожалуйста, обращайтесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- LTX/2.3 VBVR Workflow Source
- Документы / Заметки о выпуске: LTX 2.3 VBVR Workflow Source @Benji’s AI Playground
Замечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
