LTX-2 Первый Последний Кадр: управление от начала до конца, синхронизированная по аудио генерация видео в ComfyUI
LTX-2 Первый Последний Кадр — это рабочий процесс ComfyUI для создателей, которые хотят точное, кинематографическое движение между определенным начальным кадром и конечным кадром при генерации синхронизированного аудио и визуализации в одном проходе. Условие на обоих изображениях (и при необходимости направляющем среднем кадре) позволяет конвейеру сохранять идентичность, кадрирование и освещение на протяжении всего кадра, затем направляет движение, чтобы точно приземлиться на последний кадр. Он предназначен для сюжетных моментов, переходов титров или сцен, движений камеры и любых моментов, где важны временная непрерывность и согласование аудио.
Работая на модели LTX-2 в реальном времени, рабочий процесс сохраняет быструю итерацию, предлагая тонкий контроль над подсказками, поведением камеры через LoRAs и силой первого/последнего кадра. Результатом является плавная, согласованная последовательность, чье время, внешний вид и звук следуют вашим указаниям от первого кадра до последнего.
Примечание: Для типов машин ниже 2x Large, пожалуйста, используйте модель "ltx-2-19b-dev-fp8.safetensors"!
Ключевые модели в рабочем процессе ComfyUI LTX-2 Первый Последний Кадр
- LTX-2 19B (dev). Основная модель генерации видео, которая производит совместные аудио-видео латенты из текста и контролей кадров; поддерживает итерацию в реальном времени и LoRAs, учитывающие камеру. См. официальное репозитарий и веса: Lightricks/LTX-2 на GitHub и Lightricks/LTX-2 на Hugging Face.
- Gemma 3 12B Инструктивный текстовый энкодер для LTX-2. Обеспечивает надежное, адаптированное к инструкциям понимание языка для визуальных и аудиоподсказок в этом конвейере; упакован для ComfyUI как совместимый с LTX текстовый энкодер. Ссылка на веса: Comfy-Org/ltx-2 split text encoders.
- LTXV Audio VAE (24 кГц вокодер). Кодирует и декодирует аудио латенты, чтобы саундтрек генерировался вместе с видео и оставался в синхронизации с действиями на экране. См. контекст семейства моделей в Lightricks/LTX-2.
- LTX-2 Пространственный Увеличитель x2. Латентный увеличитель для более чистых высокоразрешенных результатов после базового прохода, используемый во время стадии выборки увеличения. Веса доступны под Lightricks/LTX-2.
- Пакет LTX-2 LoRA для управления камерой и деталями. Дополнительные LoRAs, такие как Долли Вперед/Назад/Влево/Вправо, Жиб Вверх/Вниз, Статический и Детализатор с Условием на Изображение формируют движение камеры и мелкие детали. Просмотрите официальную коллекцию: Lightricks LTX-2 LoRAs.
Как использовать рабочий процесс ComfyUI LTX-2 Первый Последний Кадр
Этот рабочий процесс переходит от входных данных и подсказок к базовому аудио-видео образцу, затем выполняет направляемый 2x проход увеличения перед декодированием и мультиплексированием в MP4 с аудио. Он полагается на управление первым/последним кадром как на базовой, так и на стадии увеличения, с возможностью использования среднего кадра для стабилизации траектории.
Модель
Группа Модель загружает контрольную точку LTX-2, инструктивный текстовый энкодер Gemma 3 12B и LTXV Audio VAE. Используйте панель ckpt_name, чтобы выбрать между стандартными и FP8 вариантами в зависимости от вашего GPU. Текстовый энкодер предоставляется LTXAVTextEncoderLoader и подает как положительные, так и отрицательные подсказки. Аудио VAE позволяет совместную генерацию аудио-видео, так что диалоги, эффекты или атмосфера, описанные в подсказке, возникают вместе с визуализацией.
Подсказка
Напишите сцену в положительной подсказке и перечислите нежелательные черты в отрицательной подсказке. Описывайте действия во времени, ключевые визуальные особенности и звуковые события в порядке их возникновения. Блок LTXVConditioning применяет вашу подсказку вместе с выбранной частотой кадров, чтобы время и движение интерпретировались последовательно. Рассматривайте аудио как часть подсказки, когда вам нужны речь, эффекты или атмосфера.
Настройки Видео
Установите Ширину, Высоту и общее количество Кадров Видео, затем выберите Длину для управления расстоянием первого/последнего кадра, если это необходимо. Рабочий процесс гарантирует, что размеры соответствуют требованиям модели и масштабирует входные данные соответствующим образом. Если ваши входные изображения больше, график считывает их размер для инициализации латентного холста и изменяет размер предоставленных кадров для соответствия. Выберите частоту кадров, соответствующую вашему предполагаемому выводу.
Латент
Эта группа создает пустой видеолатент и соответствующий аудиолатент, затем объединяет их, чтобы модель могла одновременно образцы аудио и видео. Здесь впервые вводится руководство первым/последним кадром на базовом проходе. Предоставление среднего кадра необязательно, но полезно для стабилизации идентичности или ключевой позы в середине кадра. Результатом является единый AV латент, готовый для базового образца.
Базовый Образец
Базовый проход использует случайный шум, расписание и настроенный гид для преобразования вашей подсказки в согласованный AV латент. Гид получает положительное и отрицательное условие, плюс любую модель, модифицированную LoRA. После выборки латент разделяется обратно на видео и аудио, так что видео может быть увеличено, а аудио остается согласованным. Этот этап устанавливает глобальное движение, темп и ритм аудио, который будет уточнен проходом увеличения.
Увеличение
Увеличитель поднимает латент до более высокого пространственного разрешения перед вторым проходом выборки. Управление первым/последним кадром повторно применяется на этом более высоком разрешении для точной фиксации начальных и конечных кадров. Вы также можете ввести средний кадр здесь, чтобы сохранить стабильность характеристик через увеличение. Результатом является более четкий AV латент, который сохраняет запланированное движение.
Модель
Эта группа Модель загружает латентный увеличитель LTX-2, используемый группой Увеличение. Она подготавливает конкретную x2 пространственную модель и предоставляет её узлу латентного увеличителя. Переключайте модели здесь, если у вас несколько увеличителей. Оставьте эту группу нетронутой, если вас устраивает поведение по умолчанию x2.
Выборка Увеличения (2x)
Второй проход выполняет направляемую выборку на увеличенном латенте, используя отдельный выборщик и расписание сигма. Гид, учитывающий обрезку, выравнивает условие с новым разрешением, чтобы детали оставались согласованными. Выход снова разделяется на видео и аудио для декодирования. Этот проход в основном улучшает края, улучшает мелкий текст или текстуры и поддерживает соответствие первого/последнего кадра.
LTX-2-19b-IC-LoRA-Detailer
Эта группа применяет LoRA, ориентированную на детали, настроенную для пути условного изображения LTX-2. Включите её, когда вам нужны микро-детали или более плотные текстуры после условия на реальные изображения. Держите силу умеренной, чтобы не перегружать вашу подсказку или ограничения кадров. Если ваши входные данные уже четкие и хорошо освещенные, вы можете обойти эту LoRA.
Управление Камерой-Долли-Вперед
Используйте эту LoRA, когда камера должна двигаться к объекту со временем. Она смещает модель к переднему движению, уважая цели первого/последнего кадров. Сочетайте с текстовыми подсказками, описывающими движение, для достижения наибольшего эффекта. Уменьшите силу, если движение превышает ваше предполагаемое кадрирование.
Управление Камерой-Долли-Назад
Выберите это, когда кадр должен отдаляться от объекта. Это помогает создать отрицательный параллакс и расширяющийся контекст по мере развития последовательности. Держите последний кадр выровненным с вашей выходной композицией, чтобы чисто завершить движение. Сочетайте с атмосферными аудиоподсказками для кинематографических раскрытий.
Управление Камерой-Долли-Влево
Применяет боковое движение влево, которое воспринимается как долли или грузовик. Хорошо подходит для разговорных моментов или раскрытий по декорациям. Если объекты размазываются или дрейфуют, немного увеличьте силу первого/последнего кадра или добавьте средний кадр. Балансируйте с небольшими текстовыми подсказками, такими как "медленное движение влево", чтобы дополнить LoRA.
Управление Камерой-Долли-Вправо
Зеркало Долли-Влево, это смещает движение вправо. Хорошо работает для следования за персонажем или панорамирования к новому объекту. Держите силу LoRA умеренной, если вы также запрашиваете движение вперед, чтобы избежать конфликтующих сигналов. Убедитесь, что композиция последнего кадра соответствует вашей желаемой конечной точке.
Управление Камерой-Жиб-Вверх
Создает вертикальный подъем, полезный для раскрытий или установочных кадров. Сочетайте с поверхностными подсказками о изменении перспективы и сдвиге горизонта для ясности. Когда движение сильное, следите за потолками или экспозицией неба; настройте отрицательную подсказку, чтобы избежать пересвета. Если необходимо, добавьте средний кадр, показывающий кадрирование в середине подъема.
Управление Камерой-Жиб-Вниз
Обеспечивает контролируемое снижение, часто используемое для сосредоточения на детали или персонаже. Это можно сочетать с более тихой аудиопостелью для акцента. Убедитесь, что последний кадр содержит целевой объект или лицо, чтобы движение решительно завершилось. Настройте силу LoRA, если снижение кажется слишком быстрым.
Управление Камерой-Статическое
Фиксирует виртуальную камеру на месте, когда вы хотите действие без движения камеры. Это полезно для диалогов или продуктовых кадров, где движется только объект. Сочетайте с управлением первым/последним кадром, чтобы сохранить композицию идеально стабильной. Добавьте тонкое движение через текстовую подсказку, а не LoRA камеры.
Ключевые узлы в рабочем процессе ComfyUI LTX-2 Первый Последний Кадр
LTXVFirstLastFrameControl_TTP (#227)
Вводит ограничения первого и последнего изображения в базовый AV латент. Настройте first_strength, чтобы контролировать, насколько строго совпадает первый кадр, и last_strength, чтобы определить, насколько твердо последовательность приземляется на последний кадр. Если середина клипа дрейфует, предоставьте средний кадр через LTXVMiddleFrame_TTP и держите силы умеренными, чтобы избежать чрезмерного ограничения движения.
LTXVMiddleFrame_TTP (#181)
Опционально вставляет направляющий кадр в выбранной позиции между началом и концом для стабилизации идентичности или позы. Увеличьте strength, когда объект слишком сильно меняется в середине кадра. Используйте с осторожностью; лучшие результаты достигаются от одного, хорошо выбранного среднего эталона, а не от множества конкурирующих ограничений.
LTXVLatentUpsampler (#217)
Выполняет пространственное увеличение x2 в латентном пространстве с использованием пространственного увеличителя LTX-2. Используйте это перед проходом выборки 2x, чтобы более высокоразрешенные детали уточнялись моделью, а не растягивались. Если память ограничена, минимизируйте использование LoRA в этом этапе.
LTXVFirstLastFrameControl_TTP (#223)
Повторно применяет руководство началом/концом (и при необходимости серединой) после увеличения x2. Это гарантирует, что финальные декодированные кадры точно совпадают с вашими первыми и последними эталонами на разрешении доставки. Если увеличение вводит микро-сдвиги, слегка увеличьте last_strength здесь, а не на базовом этапе.
LTXVSpatioTemporalTiledVAEDecode (#230)
Декодирует высокоразрешенный видеолатент в кадры с использованием пространственно-временной мозаики. Настройте параметры плитки и перекрытия только тогда, когда вы видите швы или временное мерцание; большее перекрытие стоит больше VRAM, но улучшает согласованность. Держите last_frame_fix для крайних случаев, когда последний кадр показывает незначительный дрейф.
VHS_VideoCombine (#254)
Мультиплексирует декодированные кадры и сгенерированное аудио в один MP4. Установите выходной формат, pix_fmt и crf для вашей целевой доставки и выберите frame_rate, соответствующую условию. Включите сохранение метаданных, чтобы сохранить записи воспроизводимости с каждым рендером.
Дополнительные возможности
- Используйте FP8 веса LTX-2, если ваш GPU ограничен; переключайтесь обратно на полную точность для наивысшей четкости, когда VRAM позволяет. Веса находятся в Lightricks/LTX-2.
- Размеры работают лучше всего, когда ширина и высота имеют форму 32n + 1; общее количество кадров работает лучше всего как 8n + 1. Рабочий процесс автоматически корректирует до ближайших допустимых значений, если это необходимо.
- Описывайте аудиоподсказки напрямую в вашей положительной подсказке (диалоги, эффекты, атмосфера). Совместный AV латент модели сохраняет синхронизацию губ, действий и звуков.
- Начинайте с умеренных сил первого/последнего; увеличьте силу последнего, чтобы зафиксировать финальную позу, или добавьте средний кадр для стабилизации идентичности.
- Применяйте только одну LoRA камеры за раз для четкого намерения. Просмотрите официальные варианты в Lightricks LTX-2 LoRA collection.
Признания
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем @AIKSK за их вклад и поддержку в Справочнике по Рабочему Процессу LTX-2 Первый Последний Кадр. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- RunningHub/LTX-2 First Last Frame Workflow Reference
- Документы / Примечания кjson
выпуску: LTX-2 First Last Frame Workflow Reference from AIKSK
Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.


