LTX 2.3 Первый Последний Кадр в Видео
LTX 2.3 Первый Последний Кадр в Видео — это рабочий процесс ComfyUI, который превращает два неподвижных изображения в плавное, непрерывное видео с синхронизированным аудио. Вы предоставляете первый кадр, последний кадр и запрос на естественном языке, описывающий движение, детали сцены и звук. С помощью LTX-2.3 22B distilled FP8 checkpoint, конвейер интерполирует между изображениями, поддерживая согласованное внешнее и временное соответствие. Это идеально подходит для редакторов, дизайнеров движения и художников раскадровок, которым нужен плавный переход или короткий зацикленный клип, созданный прямо в ComfyUI.
Этот рабочий процесс LTX 2.3 Первый Последний Кадр акцентирует внимание на эффективном выводе и высокой точности выполнения запроса. Вес FP8 позволяет контролировать использование VRAM, в то время как текстовый кодировщик Gemma 3 12B улучшает семантическое понимание как визуальных, так и аудиоинструкций. Результатом является согласованный визуальный переход от первого к последнему кадру, который соответствует вашему запросу и синхронизируется с генерируемым аудио.
Ключевые модели в рабочем процессе Comfyui LTX 2.3 Первый Последний Кадр
- LTX-2.3 22B Distilled FP8 checkpoint от Lightricks. Основная модель генерации видео, дистиллированная для эффективного вывода, используется здесь для синтеза временно согласованных кадров, учитывая два направляющих изображения и текстовый запрос. Model card
- Gemma 3 12B IT текстовый кодировщик. Обеспечивает надежное понимание языка как для визуальных, так и для аудио аспектов запроса, позволяя точно интерпретировать движение, атрибуты сцены и звуковые подсказки. Model card
- LTX-2.3 латентные VAEs для видео и аудио. Эти компоненты отображают изображения и звуковые волны в компактные латенты и обратно во время декодирования, сохраняя качество, поддерживая при этом эффективное семплирование. Поставляется с выпуском LTX-2.3 FP8. Model card
Как использовать рабочий процесс Comfyui LTX 2.3 Первый Последний Кадр
Этот рабочий процесс принимает два эталонных изображения и запрос, создает кондиционирование с направляющими первого и последнего кадров, семплирует видео латент с синхронизированным аудио и декодирует всё в воспроизводимый файл.
Настройки
- Установите ваше целевое разрешение, количество кадров и частоту кадров в группе Настройки. Ширина и высота определяют рабочее полотно; входные кадры изменяются в размере, чтобы соответствовать, чтобы модель могла чисто интерполировать. Количество кадров контролирует, как долго длится переход, а частота кадров устанавливает скорость воспроизведения. Выберите соотношение сторон, соответствующее вашим источникам, чтобы избежать нежелательного обрезания. Узлы
WIDTH(#113),HEIGHT(#98),Length(#102) иFrame Rate(int)(#114) закрепляют эти выборы.
Первый Кадр
- Загрузите ваше начальное изображение в
Load First Frame(#31). Оно изменяется в размере узломResizeImageMaskNode(#124) до целевых размеров и нормализуется узломLTXVPreprocess(#104). Это подготавливает первый кадр для того, чтобы он служил сильным структурным и цветовым направляющим в начале клипа. Используйте четкое, хорошо освещенное изображение для достижения наилучших результатов.
Последний Кадр
- Загрузите ваше конечное изображение в
Load Last Frame(#39). Изображение соответствует тому же размеру с помощью узлаResizeImageMaskNode(#125) и нормализуется узломLTXVPreprocess(#99). Это обеспечивает финальный вид и макет, который вы хотите в конце перехода. Для циклов сделайте последний кадр визуально совместимым с первым.
Запрос
- Узел
LTXAVTextEncoderLoader(#103) предоставляет текстовый кодировщик, и два узлаCLIPTextEncodeфиксируют ваши положительные и отрицательные запросы. В положительном запросе (CLIPTextEncode(#128)) опишите движение камеры, предметы, освещение, а также включите аудиоподсказки, например, "Музыка: атмосферные подушки с мягким перкуссией" или "Диалог: краткий шёпот". В отрицательном запросе (CLIPTextEncode(#112)) можно перечислить артефакты или черты, которые вы хотите подавить.
Кондиционирование
- Узел
LTXVConditioning(#109) объединяет текстовое кондиционирование с временной информацией, чтобы движение и аудио соответствовали выбранной частоте кадров. УзелEmptyLTXVLatentVideo(#108) создаёт видео латент на вашем разрешении и длительности. Два прохода узлаLTXVAddGuideсначала прикрепляют первый кадр (LTXVAddGuide(#115)), а затем последний кадр (LTXVAddGuide(#111)), чтобы модель знала, где начать и где закончить. УзелLTXVEmptyLatentAudio(#101) инициализирует аудио латент соответствующей продолжительности, а узелLTXVConcatAVLatent(#119) объединяет аудио и видео латенты для семплирования.
Модель
- Узел
CheckpointLoaderSimple(#127) загружает LTX-2.3 22B distilled FP8 веса и видео VAE, в то время как узелLTXVAudioVAELoader(#126) предоставляет аудио VAE. Эти настройки предварительно настроены, чтобы вы могли сосредоточиться на творческих вводах, а не на деталях настройки.
Семплирование
- Узел
CFGGuider(#116) балансирует между соблюдением вашего текста и направляющих кадров и творческой свободой. УзелRandomNoise(#100) устанавливает семя для воспроизводимости. Семплер используетSamplerEulerAncestral(#117) с пользовательским расписанием из узлаManualSigmas(#118), организованным узломSamplerCustomAdvanced(#120), чтобы постепенно уточнять латент в согласованную последовательность, следуя вашим инструкциям по движению и аудио.
Декодирование
- После семплирования узел
LTXVSeparateAVLatent(#121) разделяет комбинированный латент обратно на видео и аудио. УзелLTXVCropGuides(#106) уточняет пространственные направляющие, чтобы уменьшить артефакты на краях перед декодированием изображений. УзелVAEDecodeTiled(#105) производит последовательность кадров, а узелLTXVAudioVAEDecode(#107) генерирует аудиоволновую форму. УзелCreateVideo(#122) объединяет кадры и звук с выбранной частотой кадров, а узелSaveVideo(#68) записывает готовый файл в ваш вывод ComfyUI.
Ключевые узлы в рабочем процессе Comfyui LTX 2.3 Первый Последний Кадр
EmptyLTXVLatentVideo (#108)
- Определяет рабочее разрешение и длительность вашего клипа. Настройте ширину, высоту и длину здесь, чтобы установить визуальный масштаб и время перехода. Более длительные длительности требуют более сильных подсказок движения в запросе, чтобы избежать застоя.
LTXVAddGuide (#115)
- Вводит первый кадр в качестве структурного и цветового якоря в начале последовательности. Если открытие отклоняется от вашего источника, увеличьте влияние этого направляющего; если оно кажется слишком жёстким, слегка уменьшите его, чтобы позволить больше движения.
LTXVAddGuide (#111)
- Закрепляет целевой вид в конце клипа, используя последний кадр. Если переход превышает или никогда не достигает вашего последнего кадра, увеличьте влияние направляющего; если он слишком сильно схватывает в конце, ослабьте его.
CFGGuider (#116)
- Управляет тем, насколько сильно модель следует текстовому и изображению кондиционированию. Более высокое руководство подчеркивает ваш запрос и направляющие, но может уменьшить плавность; более низкие значения кажутся более свободными, но могут отклоняться от предполагаемого вида. Настраивайте небольшими шагами и используйте одно и то же семя при сравнении.
SamplerCustomAdvanced (#120) с SamplerEulerAncestral (#117) и ManualSigmas (#118)
- Управляет денойзингом с согласованным расписанием для стабильного движения. Более короткие расписания рендерятся быстрее, но могут быть грубыми; более длинные или мягкие расписания улучшают согласованность с дополнительными вычислительными затратами. Держите расписание согласованным при A/B тестировании других параметров.
CreateVideo (#122)
- Объединяет декодированные кадры и аудио в финальный клип с выбранной частотой кадров. Используйте ту же частоту кадров, с которой вы проводили кондиционирование, чтобы формы губ, шаги или музыкальные пульсы оставались выровненными.
Дополнительные возможности
- Пишите запросы с глаголами и временем: "камера двигается вперёд", "свет тускнеет, когда мы приближаемся", "Музыка: редкое пианино с мягким реверберацией". Чёткие глаголы помогают конвейеру LTX 2.3 Первый Последний Кадр интерпретировать движение и ритм.
- Сопоставьте соотношение сторон и ориентацию ваших двух изображений. Большие несоответствия могут привести к нежелательному обрезанию или растяжению.
- Для бесшовных циклов сделайте последний кадр почти таким же, как первый, и держите движение камеры цикличным.
- Повторно используйте семя в
RandomNoiseдля воспроизведения вида при итерации на запросах или силе направляющих; измените семя, чтобы исследовать свежие вариации. - Если вам нужны детали реализации или ссылки на пользовательские узлы, смотрите интеграции и утилиты ComfyUI, такие как ComfyUI-LTXTricks. Repository
Благодарности
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаём Lightricks за LTX-2.3 22B Distilled FP8 Checkpoint, Google за Gemma 3 12B IT FP4 Text Encoder, logtd за ComfyUI-LTXTricks Custom Nodes и Comfy.org за Comfy.org Official Workflow за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведённым ниже.
Ресурсы
- Lightricks/LTX-2.3 22B Distilled FP8 Checkpoint
- Hugging Face: Lightricks/LTX-2.3-fp8
- Google/Gemma 3 12B IT FP4 Text Encoder
- Hugging Face: google/gemma-3-12b-it
- logtd/ComfyUI-LTXTricks Custom Nodes
- GitHub: logtd/ComfyUI-LTXTricks
- Comfy.org/Comfy.org Official Workflow
- Docs / Release Notes: comfy.org/workflows/video_ltx2_3_flf2v
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.
