LTX-2 Первый Последний Кадр в ComfyUI | Аудио-Визуальное Управление Движением

ComfyUI LTX-2 First Last Frame Рабочий процесс

LTX-2 First Last Frame in ComfyUI | Audio-Visual Motion Control

Хотите запустить этот рабочий процесс?

Полностью функциональные рабочие процессы
Нет недостающих узлов или моделей
Не требуется ручная настройка
Отличается потрясающей визуализацией

ComfyUI LTX-2 First Last Frame Примеры

LTX-2 Первый Последний Кадр: управление от начала до конца, синхронизированная по аудио генерация видео в ComfyUI#

LTX-2 Первый Последний Кадр — это рабочий процесс ComfyUI для создателей, которые хотят точное, кинематографическое движение между определенным начальным кадром и конечным кадром при генерации синхронизированного аудио и визуализации в одном проходе. Условие на обоих изображениях (и при необходимости направляющем среднем кадре) позволяет конвейеру сохранять идентичность, кадрирование и освещение на протяжении всего кадра, затем направляет движение, чтобы точно приземлиться на последний кадр. Он предназначен для сюжетных моментов, переходов титров или сцен, движений камеры и любых моментов, где важны временная непрерывность и согласование аудио.

Работая на модели LTX-2 в реальном времени, рабочий процесс сохраняет быструю итерацию, предлагая тонкий контроль над подсказками, поведением камеры через LoRAs и силой первого/последнего кадра. Результатом является плавная, согласованная последовательность, чье время, внешний вид и звук следуют вашим указаниям от первого кадра до последнего.

Примечание: Для типов машин ниже 2x Large, пожалуйста, используйте модель "ltx-2-19b-dev-fp8.safetensors"!

Ключевые модели в рабочем процессе ComfyUI LTX-2 Первый Последний Кадр#

LTX-2 19B (dev). Основная модель генерации видео, которая производит совместные аудио-видео латенты из текста и контролей кадров; поддерживает итерацию в реальном времени и LoRAs, учитывающие камеру. См. официальное репозитарий и веса: Lightricks/LTX-2 на GitHub и Lightricks/LTX-2 на Hugging Face.
Gemma 3 12B Инструктивный текстовый энкодер для LTX-2. Обеспечивает надежное, адаптированное к инструкциям понимание языка для визуальных и аудиоподсказок в этом конвейере; упакован для ComfyUI как совместимый с LTX текстовый энкодер. Ссылка на веса: Comfy-Org/ltx-2 split text encoders.
LTXV Audio VAE (24 кГц вокодер). Кодирует и декодирует аудио латенты, чтобы саундтрек генерировался вместе с видео и оставался в синхронизации с действиями на экране. См. контекст семейства моделей в Lightricks/LTX-2.
LTX-2 Пространственный Увеличитель x2. Латентный увеличитель для более чистых высокоразрешенных результатов после базового прохода, используемый во время стадии выборки увеличения. Веса доступны под Lightricks/LTX-2.
Пакет LTX-2 LoRA для управления камерой и деталями. Дополнительные LoRAs, такие как Долли Вперед/Назад/Влево/Вправо, Жиб Вверх/Вниз, Статический и Детализатор с Условием на Изображение формируют движение камеры и мелкие детали. Просмотрите официальную коллекцию: Lightricks LTX-2 LoRAs.

Как использовать рабочий процесс ComfyUI LTX-2 Первый Последний Кадр#

Этот рабочий процесс переходит от входных данных и подсказок к базовому аудио-видео образцу, затем выполняет направляемый 2x проход увеличения перед декодированием и мультиплексированием в MP4 с аудио. Он полагается на управление первым/последним кадром как на базовой, так и на стадии увеличения, с возможностью использования среднего кадра для стабилизации траектории.

Модель#

Группа Модель загружает контрольную точку LTX-2, инструктивный текстовый энкодер Gemma 3 12B и LTXV Audio VAE. Используйте панель ckpt_name, чтобы выбрать между стандартными и FP8 вариантами в зависимости от вашего GPU. Текстовый энкодер предоставляется LTXAVTextEncoderLoader и подает как положительные, так и отрицательные подсказки. Аудио VAE позволяет совместную генерацию аудио-видео, так что диалоги, эффекты или атмосфера, описанные в подсказке, возникают вместе с визуализацией.

Подсказка#

Напишите сцену в положительной подсказке и перечислите нежелательные черты в отрицательной подсказке. Описывайте действия во времени, ключевые визуальные особенности и звуковые события в порядке их возникновения. Блок LTXVConditioning применяет вашу подсказку вместе с выбранной частотой кадров, чтобы время и движение интерпретировались последовательно. Рассматривайте аудио как часть подсказки, когда вам нужны речь, эффекты или атмосфера.

Настройки Видео#

Установите Ширину, Высоту и общее количество Кадров Видео, затем выберите Длину для управления расстоянием первого/последнего кадра, если это необходимо. Рабочий процесс гарантирует, что размеры соответствуют требованиям модели и масштабирует входные данные соответствующим образом. Если ваши входные изображения больше, график считывает их размер для инициализации латентного холста и изменяет размер предоставленных кадров для соответствия. Выберите частоту кадров, соответствующую вашему предполагаемому выводу.

Латент#

Эта группа создает пустой видеолатент и соответствующий аудиолатент, затем объединяет их, чтобы модель могла одновременно образцы аудио и видео. Здесь впервые вводится руководство первым/последним кадром на базовом проходе. Предоставление среднего кадра необязательно, но полезно для стабилизации идентичности или ключевой позы в середине кадра. Результатом является единый AV латент, готовый для базового образца.

Базовый Образец#

Базовый проход использует случайный шум, расписание и настроенный гид для преобразования вашей подсказки в согласованный AV латент. Гид получает положительное и отрицательное условие, плюс любую модель, модифицированную LoRA. После выборки латент разделяется обратно на видео и аудио, так что видео может быть увеличено, а аудио остается согласованным. Этот этап устанавливает глобальное движение, темп и ритм аудио, который будет уточнен проходом увеличения.

Увеличение#

Увеличитель поднимает латент до более высокого пространственного разрешения перед вторым проходом выборки. Управление первым/последним кадром повторно применяется на этом более высоком разрешении для точной фиксации начальных и конечных кадров. Вы также можете ввести средний кадр здесь, чтобы сохранить стабильность характеристик через увеличение. Результатом является более четкий AV латент, который сохраняет запланированное движение.

Модель#

Эта группа Модель загружает латентный увеличитель LTX-2, используемый группой Увеличение. Она подготавливает конкретную x2 пространственную модель и предоставляет её узлу латентного увеличителя. Переключайте модели здесь, если у вас несколько увеличителей. Оставьте эту группу нетронутой, если вас устраивает поведение по умолчанию x2.

Выборка Увеличения (2x)#

Второй проход выполняет направляемую выборку на увеличенном латенте, используя отдельный выборщик и расписание сигма. Гид, учитывающий обрезку, выравнивает условие с новым разрешением, чтобы детали оставались согласованными. Выход снова разделяется на видео и аудио для декодирования. Этот проход в основном улучшает края, улучшает мелкий текст или текстуры и поддерживает соответствие первого/последнего кадра.

LTX-2-19b-IC-LoRA-Detailer#

Эта группа применяет LoRA, ориентированную на детали, настроенную для пути условного изображения LTX-2. Включите её, когда вам нужны микро-детали или более плотные текстуры после условия на реальные изображения. Держите силу умеренной, чтобы не перегружать вашу подсказку или ограничения кадров. Если ваши входные данные уже четкие и хорошо освещенные, вы можете обойти эту LoRA.

Управление Камерой-Долли-Вперед#

Используйте эту LoRA, когда камера должна двигаться к объекту со временем. Она смещает модель к переднему движению, уважая цели первого/последнего кадров. Сочетайте с текстовыми подсказками, описывающими движение, для достижения наибольшего эффекта. Уменьшите силу, если движение превышает ваше предполагаемое кадрирование.

Управление Камерой-Долли-Назад#

Выберите это, когда кадр должен отдаляться от объекта. Это помогает создать отрицательный параллакс и расширяющийся контекст по мере развития последовательности. Держите последний кадр выровненным с вашей выходной композицией, чтобы чисто завершить движение. Сочетайте с атмосферными аудиоподсказками для кинематографических раскрытий.

Управление Камерой-Долли-Влево#

Применяет боковое движение влево, которое воспринимается как долли или грузовик. Хорошо подходит для разговорных моментов или раскрытий по декорациям. Если объекты размазываются или дрейфуют, немного увеличьте силу первого/последнего кадра или добавьте средний кадр. Балансируйте с небольшими текстовыми подсказками, такими как "медленное движение влево", чтобы дополнить LoRA.

Управление Камерой-Долли-Вправо#

Зеркало Долли-Влево, это смещает движение вправо. Хорошо работает для следования за персонажем или панорамирования к новому объекту. Держите силу LoRA умеренной, если вы также запрашиваете движение вперед, чтобы избежать конфликтующих сигналов. Убедитесь, что композиция последнего кадра соответствует вашей желаемой конечной точке.

Управление Камерой-Жиб-Вверх#

Создает вертикальный подъем, полезный для раскрытий или установочных кадров. Сочетайте с поверхностными подсказками о изменении перспективы и сдвиге горизонта для ясности. Когда движение сильное, следите за потолками или экспозицией неба; настройте отрицательную подсказку, чтобы избежать пересвета. Если необходимо, добавьте средний кадр, показывающий кадрирование в середине подъема.

Управление Камерой-Жиб-Вниз#

Обеспечивает контролируемое снижение, часто используемое для сосредоточения на детали или персонаже. Это можно сочетать с более тихой аудиопостелью для акцента. Убедитесь, что последний кадр содержит целевой объект или лицо, чтобы движение решительно завершилось. Настройте силу LoRA, если снижение кажется слишком быстрым.

Управление Камерой-Статическое#

Фиксирует виртуальную камеру на месте, когда вы хотите действие без движения камеры. Это полезно для диалогов или продуктовых кадров, где движется только объект. Сочетайте с управлением первым/последним кадром, чтобы сохранить композицию идеально стабильной. Добавьте тонкое движение через текстовую подсказку, а не LoRA камеры.

Ключевые узлы в рабочем процессе ComfyUI LTX-2 Первый Последний Кадр#

`LTXVFirstLastFrameControl_TTP` (#227)#

Вводит ограничения первого и последнего изображения в базовый AV латент. Настройте first_strength, чтобы контролировать, насколько строго совпадает первый кадр, и last_strength, чтобы определить, насколько твердо последовательность приземляется на последний кадр. Если середина клипа дрейфует, предоставьте средний кадр через LTXVMiddleFrame_TTP и держите силы умеренными, чтобы избежать чрезмерного ограничения движения.

`LTXVMiddleFrame_TTP` (#181)#

Опционально вставляет направляющий кадр в выбранной позиции между началом и концом для стабилизации идентичности или позы. Увеличьте strength, когда объект слишком сильно меняется в середине кадра. Используйте с осторожностью; лучшие результаты достигаются от одного, хорошо выбранного среднего эталона, а не от множества конкурирующих ограничений.

`LTXVLatentUpsampler` (#217)#

Выполняет пространственное увеличение x2 в латентном пространстве с использованием пространственного увеличителя LTX-2. Используйте это перед проходом выборки 2x, чтобы более высокоразрешенные детали уточнялись моделью, а не растягивались. Если память ограничена, минимизируйте использование LoRA в этом этапе.

`LTXVFirstLastFrameControl_TTP` (#223)#

Повторно применяет руководство началом/концом (и при необходимости серединой) после увеличения x2. Это гарантирует, что финальные декодированные кадры точно совпадают с вашими первыми и последними эталонами на разрешении доставки. Если увеличение вводит микро-сдвиги, слегка увеличьте last_strength здесь, а не на базовом этапе.

`LTXVSpatioTemporalTiledVAEDecode` (#230)#

Декодирует высокоразрешенный видеолатент в кадры с использованием пространственно-временной мозаики. Настройте параметры плитки и перекрытия только тогда, когда вы видите швы или временное мерцание; большее перекрытие стоит больше VRAM, но улучшает согласованность. Держите last_frame_fix для крайних случаев, когда последний кадр показывает незначительный дрейф.

`VHS_VideoCombine` (#254)#

Мультиплексирует декодированные кадры и сгенерированное аудио в один MP4. Установите выходной формат, pix_fmt и crf для вашей целевой доставки и выберите frame_rate, соответствующую условию. Включите сохранение метаданных, чтобы сохранить записи воспроизводимости с каждым рендером.

Дополнительные возможности#

Используйте FP8 веса LTX-2, если ваш GPU ограничен; переключайтесь обратно на полную точность для наивысшей четкости, когда VRAM позволяет. Веса находятся в Lightricks/LTX-2.
Размеры работают лучше всего, когда ширина и высота имеют форму 32n + 1; общее количество кадров работает лучше всего как 8n + 1. Рабочий процесс автоматически корректирует до ближайших допустимых значений, если это необходимо.
Описывайте аудиоподсказки напрямую в вашей положительной подсказке (диалоги, эффекты, атмосфера). Совместный AV латент модели сохраняет синхронизацию губ, действий и звуков.
Начинайте с умеренных сил первого/последнего; увеличьте силу последнего, чтобы зафиксировать финальную позу, или добавьте средний кадр для стабилизации идентичности.
Применяйте только одну LoRA камеры за раз для четкого намерения. Просмотрите официальные варианты в Lightricks LTX-2 LoRA collection.

Признания#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем @AIKSK за их вклад и поддержку в Справочнике по Рабочему Процессу LTX-2 Первый Последний Кадр. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

RunningHub/LTX-2 First Last Frame Workflow Reference
- Документы / Примечания кjson

выпуску: LTX-2 First Last Frame Workflow Reference from AIKSK

Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

Wan 2.2 | Лидер в открытой генерации видео

Доступно сейчас! Лучшая точность + более плавное движение.

Wan 2.2 FLF2V | Генерация видео из первого и последнего кадров

Создавайте плавные видео из начального и конечного кадра с помощью Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Сверхбыстрое I2V & T2V

Двойная настройка Light LoRA, в 4 раза быстрее.

Wan 2.2 Lightning T2V I2V | 4-шаговая ультрабыстрая

Wan 2.2 теперь в 20 раз быстрее! T2V + I2V в 4 шага.

Wan 2.1 FLF2V | Видео от первого до последнего кадра

Создавайте плавные видео из начального и конечного кадра с помощью Wan 2.1 FLF2V.

CogVideoX-5B | Продвинутая Модель Текст-Видео

CogVideoX-5B: Продвинутая модель текст-видео для генерации высококачественных видео.

Blender to ComfyUI AI Renderer 2.0 | Создатель видео с движением

Быстро превращайте рендеры Blender в насыщенные, кинематографические анимации, управляемые AI.

CogvideoX Fun | Модель видео-видео

CogVideoX Fun: Продвинутая модель видео-видео для генерации видео высокого качества.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

LTX-2 Первый Последний Кадр | Генератор Видео с Ключевыми Кадрами

ComfyUI LTX-2 First Last Frame Рабочий процесс

ComfyUI LTX-2 First Last Frame Примеры

LTX-2 Первый Последний Кадр: управление от начала до конца, синхронизированная по аудио генерация видео в ComfyUI#

Ключевые модели в рабочем процессе ComfyUI LTX-2 Первый Последний Кадр#

Как использовать рабочий процесс ComfyUI LTX-2 Первый Последний Кадр#

Модель#

Подсказка#

Настройки Видео#

Латент#

Базовый Образец#

Увеличение#

Модель#

Выборка Увеличения (2x)#

LTX-2-19b-IC-LoRA-Detailer#

Управление Камерой-Долли-Вперед#

Управление Камерой-Долли-Назад#

Управление Камерой-Долли-Влево#

Управление Камерой-Долли-Вправо#

Управление Камерой-Жиб-Вверх#

Управление Камерой-Жиб-Вниз#

Управление Камерой-Статическое#

Ключевые узлы в рабочем процессе ComfyUI LTX-2 Первый Последний Кадр#

LTXVFirstLastFrameControl_TTP (#227)#

LTXVMiddleFrame_TTP (#181)#

LTXVLatentUpsampler (#217)#

LTXVFirstLastFrameControl_TTP (#223)#

LTXVSpatioTemporalTiledVAEDecode (#230)#

VHS_VideoCombine (#254)#

Дополнительные возможности#

Признания#

Ресурсы#

Want More ComfyUI Workflows?

Wan 2.2 | Лидер в открытой генерации видео

Wan 2.2 FLF2V | Генерация видео из первого и последнего кадров

Wan 2.2 + Lightx2v V2 | Сверхбыстрое I2V & T2V

Wan 2.2 Lightning T2V I2V | 4-шаговая ультрабыстрая

Wan 2.1 FLF2V | Видео от первого до последнего кадра

CogVideoX-5B | Продвинутая Модель Текст-Видео

Blender to ComfyUI AI Renderer 2.0 | Создатель видео с движением

CogvideoX Fun | Модель видео-видео

`LTXVFirstLastFrameControl_TTP` (#227)#

`LTXVMiddleFrame_TTP` (#181)#

`LTXVLatentUpsampler` (#217)#

`LTXVFirstLastFrameControl_TTP` (#223)#

`LTXVSpatioTemporalTiledVAEDecode` (#230)#

`VHS_VideoCombine` (#254)#