LTX-2 Первый Последний Кадр: управление от начала до конца, синхронизированная по аудио генерация видео в ComfyUI#
LTX-2 Первый Последний Кадр — это рабочий процесс ComfyUI для создателей, которые хотят точное, кинематографическое движение между определенным начальным кадром и конечным кадром при генерации синхронизированного аудио и визуализации в одном проходе. Условие на обоих изображениях (и при необходимости направляющем среднем кадре) позволяет конвейеру сохранять идентичность, кадрирование и освещение на протяжении всего кадра, затем направляет движение, чтобы точно приземлиться на последний кадр. Он предназначен для сюжетных моментов, переходов титров или сцен, движений камеры и любых моментов, где важны временная непрерывность и согласование аудио.
Работая на модели LTX-2 в реальном времени, рабочий процесс сохраняет быструю итерацию, предлагая тонкий контроль над подсказками, поведением камеры через LoRAs и силой первого/последнего кадра. Результатом является плавная, согласованная последовательность, чье время, внешний вид и звук следуют вашим указаниям от первого кадра до последнего.
Примечание: Для типов машин ниже 2x Large, пожалуйста, используйте модель "ltx-2-19b-dev-fp8.safetensors"!
Ключевые модели в рабочем процессе ComfyUI LTX-2 Первый Последний Кадр#
- LTX-2 19B (dev). Основная модель генерации видео, которая производит совместные аудио-видео латенты из текста и контролей кадров; поддерживает итерацию в реальном времени и LoRAs, учитывающие камеру. См. официальное репозитарий и веса: Lightricks/LTX-2 на GitHub и Lightricks/LTX-2 на Hugging Face.
- Gemma 3 12B Инструктивный текстовый энкодер для LTX-2. Обеспечивает надежное, адаптированное к инструкциям понимание языка для визуальных и аудиоподсказок в этом конвейере; упакован для ComfyUI как совместимый с LTX текстовый энкодер. Ссылка на веса: Comfy-Org/ltx-2 split text encoders.
- LTXV Audio VAE (24 кГц вокодер). Кодирует и декодирует аудио латенты, чтобы саундтрек генерировался вместе с видео и оставался в синхронизации с действиями на экране. См. контекст семейства моделей в Lightricks/LTX-2.
- LTX-2 Пространственный Увеличитель x2. Латентный увеличитель для более чистых высокоразрешенных результатов после базового прохода, используемый во время стадии выборки увеличения. Веса доступны под Lightricks/LTX-2.
- Пакет LTX-2 LoRA для управления камерой и деталями. Дополнительные LoRAs, такие как Долли Вперед/Назад/Влево/Вправо, Жиб Вверх/Вниз, Статический и Детализатор с Условием на Изображение формируют движение камеры и мелкие детали. Просмотрите официальную коллекцию: Lightricks LTX-2 LoRAs.
Как использовать рабочий процесс ComfyUI LTX-2 Первый Последний Кадр#
Этот рабочий процесс переходит от входных данных и подсказок к базовому аудио-видео образцу, затем выполняет направляемый 2x проход увеличения перед декодированием и мультиплексированием в MP4 с аудио. Он полагается на управление первым/последним кадром как на базовой, так и на стадии увеличения, с возможностью использования среднего кадра для стабилизации траектории.
Модель#
Группа Модель загружает контрольную точку LTX-2, инструктивный текстовый энкодер Gemma 3 12B и LTXV Audio VAE. Используйте панель ckpt_name, чтобы выбрать между стандартными и FP8 вариантами в зависимости от вашего GPU. Текстовый энкодер предоставляется LTXAVTextEncoderLoader и подает как положительные, так и отрицательные подсказки. Аудио VAE позволяет совместную генерацию аудио-видео, так что диалоги, эффекты или атмосфера, описанные в подсказке, возникают вместе с визуализацией.
Подсказка#
Напишите сцену в положительной подсказке и перечислите нежелательные черты в отрицательной подсказке. Описывайте действия во времени, ключевые визуальные особенности и звуковые события в порядке их возникновения. Блок LTXVConditioning применяет вашу подсказку вместе с выбранной частотой кадров, чтобы время и движение интерпретировались последовательно. Рассматривайте аудио как часть подсказки, когда вам нужны речь, эффекты или атмосфера.
Настройки Видео#
Установите Ширину, Высоту и общее количество Кадров Видео, затем выберите Длину для управления расстоянием первого/последнего кадра, если это необходимо. Рабочий процесс гарантирует, что размеры соответствуют требованиям модели и масштабирует входные данные соответствующим образом. Если ваши входные изображения больше, график считывает их размер для инициализации латентного холста и изменяет размер предоставленных кадров для соответствия. Выберите частоту кадров, соответствующую вашему предполагаемому выводу.
Латент#
Эта группа создает пустой видеолатент и соответствующий аудиолатент, затем объединяет их, чтобы модель могла одновременно образцы аудио и видео. Здесь впервые вводится руководство первым/последним кадром на базовом проходе. Предоставление среднего кадра необязательно, но полезно для стабилизации идентичности или ключевой позы в середине кадра. Результатом является единый AV латент, готовый для базового образца.
Базовый Образец#
Базовый проход использует случайный шум, расписание и настроенный гид для преобразования вашей подсказки в согласованный AV латент. Гид получает положительное и отрицательное условие, плюс любую модель, модифицированную LoRA. После выборки латент разделяется обратно на видео и аудио, так что видео может быть увеличено, а аудио остается согласованным. Этот этап устанавливает глобальное движение, темп и ритм аудио, который будет уточнен проходом увеличения.
Увеличение#
Увеличитель поднимает латент до более высокого пространственного разрешения перед вторым проходом выборки. Управление первым/последним кадром повторно применяется на этом более высоком разрешении для точной фиксации начальных и конечных кадров. Вы также можете ввести средний кадр здесь, чтобы сохранить стабильность характеристик через увеличение. Результатом является более четкий AV латент, который сохраняет запланированное движение.
Модель#
Эта группа Модель загружает латентный увеличитель LTX-2, используемый группой Увеличение. Она подготавливает конкретную x2 пространственную модель и предоставляет её узлу латентного увеличителя. Переключайте модели здесь, если у вас несколько увеличителей. Оставьте эту группу нетронутой, если вас устраивает поведение по умолчанию x2.
Выборка Увеличения (2x)#
Второй проход выполняет направляемую выборку на увеличенном латенте, используя отдельный выборщик и расписание сигма. Гид, учитывающий обрезку, выравнивает условие с новым разрешением, чтобы детали оставались согласованными. Выход снова разделяется на видео и аудио для декодирования. Этот проход в основном улучшает края, улучшает мелкий текст или текстуры и поддерживает соответствие первого/последнего кадра.
LTX-2-19b-IC-LoRA-Detailer#
Эта группа применяет LoRA, ориентированную на детали, настроенную для пути условного изображения LTX-2. Включите её, когда вам нужны микро-детали или более плотные текстуры после условия на реальные изображения. Держите силу умеренной, чтобы не перегружать вашу подсказку или ограничения кадров. Если ваши входные данные уже четкие и хорошо освещенные, вы можете обойти эту LoRA.
Управление Камерой-Долли-Вперед#
Используйте эту LoRA, когда камера должна двигаться к объекту со временем. Она смещает модель к переднему движению, уважая цели первого/последнего кадров. Сочетайте с текстовыми подсказками, описывающими движение, для достижения наибольшего эффекта. Уменьшите силу, если движение превышает ваше предполагаемое кадрирование.
Управление Камерой-Долли-Назад#
Выберите это, когда кадр должен отдаляться от объекта. Это помогает создать отрицательный параллакс и расширяющийся контекст по мере развития последовательности. Держите последний кадр выровненным с вашей выходной композицией, чтобы чисто завершить движение. Сочетайте с атмосферными аудиоподсказками для кинематографических раскрытий.
Управление Камерой-Долли-Влево#
Применяет боковое движение влево, которое воспринимается как долли или грузовик. Хорошо подходит для разговорных моментов или раскрытий по декорациям. Если объекты размазываются или дрейфуют, немного увеличьте силу первого/последнего кадра или добавьте средний кадр. Балансируйте с небольшими текстовыми подсказками, такими как "медленное движение влево", чтобы дополнить LoRA.
Управление Камерой-Долли-Вправо#
Зеркало Долли-Влево, это смещает движение вправо. Хорошо работает для следования за персонажем или панорамирования к новому объекту. Держите силу LoRA умеренной, если вы также запрашиваете движение вперед, чтобы избежать конфликтующих сигналов. Убедитесь, что композиция последнего кадра соответствует вашей желаемой конечной точке.
Управление Камерой-Жиб-Вверх#
Создает вертикальный подъем, полезный для раскрытий или установочных кадров. Сочетайте с поверхностными подсказками о изменении перспективы и сдвиге горизонта для ясности. Когда движение сильное, следите за потолками или экспозицией неба; настройте отрицательную подсказку, чтобы избежать пересвета. Если необходимо, добавьте средний кадр, показывающий кадрирование в середине подъема.
Управление Камерой-Жиб-Вниз#
Обеспечивает контролируемое снижение, часто используемое для сосредоточения на детали или персонаже. Это можно сочетать с более тихой аудиопостелью для акцента. Убедитесь, что последний кадр содержит целевой объект или лицо, чтобы движение решительно завершилось. Настройте силу LoRA, если снижение кажется слишком быстрым.
Управление Камерой-Статическое#
Фиксирует виртуальную камеру на месте, когда вы хотите действие без движения камеры. Это полезно для диалогов или продуктовых кадров, где движется только объект. Сочетайте с управлением первым/последним кадром, чтобы сохранить композицию идеально стабильной. Добавьте тонкое движение через текстовую подсказку, а не LoRA камеры.
Ключевые узлы в рабочем процессе ComfyUI LTX-2 Первый Последний Кадр#
LTXVFirstLastFrameControl_TTP (#227)#
Вводит ограничения первого и последнего изображения в базовый AV латент. Настройте first_strength, чтобы контролировать, насколько строго совпадает первый кадр, и last_strength, чтобы определить, насколько твердо последовательность приземляется на последний кадр. Если середина клипа дрейфует, предоставьте средний кадр через LTXVMiddleFrame_TTP и держите силы умеренными, чтобы избежать чрезмерного ограничения движения.
LTXVMiddleFrame_TTP (#181)#
Опционально вставляет направляющий кадр в выбранной позиции между началом и концом для стабилизации идентичности или позы. Увеличьте strength, когда объект слишком сильно меняется в середине кадра. Используйте с осторожностью; лучшие результаты достигаются от одного, хорошо выбранного среднего эталона, а не от множества конкурирующих ограничений.
LTXVLatentUpsampler (#217)#
Выполняет пространственное увеличение x2 в латентном пространстве с использованием пространственного увеличителя LTX-2. Используйте это перед проходом выборки 2x, чтобы более высокоразрешенные детали уточнялись моделью, а не растягивались. Если память ограничена, минимизируйте использование LoRA в этом этапе.
LTXVFirstLastFrameControl_TTP (#223)#
Повторно применяет руководство началом/концом (и при необходимости серединой) после увеличения x2. Это гарантирует, что финальные декодированные кадры точно совпадают с вашими первыми и последними эталонами на разрешении доставки. Если увеличение вводит микро-сдвиги, слегка увеличьте last_strength здесь, а не на базовом этапе.
LTXVSpatioTemporalTiledVAEDecode (#230)#
Декодирует высокоразрешенный видеолатент в кадры с использованием пространственно-временной мозаики. Настройте параметры плитки и перекрытия только тогда, когда вы видите швы или временное мерцание; большее перекрытие стоит больше VRAM, но улучшает согласованность. Держите last_frame_fix для крайних случаев, когда последний кадр показывает незначительный дрейф.
VHS_VideoCombine (#254)#
Мультиплексирует декодированные кадры и сгенерированное аудио в один MP4. Установите выходной формат, pix_fmt и crf для вашей целевой доставки и выберите frame_rate, соответствующую условию. Включите сохранение метаданных, чтобы сохранить записи воспроизводимости с каждым рендером.
Дополнительные возможности#
- Используйте FP8 веса LTX-2, если ваш GPU ограничен; переключайтесь обратно на полную точность для наивысшей четкости, когда VRAM позволяет. Веса находятся в Lightricks/LTX-2.
- Размеры работают лучше всего, когда ширина и высота имеют форму 32n + 1; общее количество кадров работает лучше всего как 8n + 1. Рабочий процесс автоматически корректирует до ближайших допустимых значений, если это необходимо.
- Описывайте аудиоподсказки напрямую в вашей положительной подсказке (диалоги, эффекты, атмосфера). Совместный AV латент модели сохраняет синхронизацию губ, действий и звуков.
- Начинайте с умеренных сил первого/последнего; увеличьте силу последнего, чтобы зафиксировать финальную позу, или добавьте средний кадр для стабилизации идентичности.
- Применяйте только одну LoRA камеры за раз для четкого намерения. Просмотрите официальные варианты в Lightricks LTX-2 LoRA collection.
Признания#
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем @AIKSK за их вклад и поддержку в Справочнике по Рабочему Процессу LTX-2 Первый Последний Кадр. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы#
- RunningHub/LTX-2 First Last Frame Workflow Reference
- Документы / Примечания кjson
выпуску: LTX-2 First Last Frame Workflow Reference from AIKSK
Примечание: Использование указанных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

