LTX 2.3 Sulphur изображение в видео рабочий процесс: кинематографическое изображение в видео с управляемым движением#
Этот LTX 2.3 Sulphur изображение в видео рабочий процесс превращает одиночное неподвижное изображение в готовый к публикации кинематографический кадр с естественными микро-выражениями, правдоподобным движением персонажей и стабильной атмосферной непрерывностью. Он специально создан для кадров повествования, где вы хотите контролировать ощущение камеры, настроение и динамику сцены, не теряясь в деталях настройки.
Рабочий процесс запускает двухэтапный диффузионный конвейер вокруг LTX-2.3: проход низкого разрешения для установления движения и времени, за которым следует латентное повышение разрешения и проход уточнения высокого разрешения для окончательной детализации. Стиль Sulphur LoRA управляет внешним видом и оттенком кожи, а сегментация подсказок поддерживает развитие ритмов по всему кадру. Переключите один переключатель, чтобы запустить классическое изображение в видео или чистый текст в видео по мере необходимости.
Ключевые модели в Comfyui LTX 2.3 Sulphur изображение в видео рабочий процесс#
- Lightricks LTX-2.3-22B dev FP8. Основной контрольный пункт видео-диффузии, который управляет генерацией и декодированием, сохраняя практичное использование памяти. Model card
- LTX-2.3 Spatial Upscaler x2. Латентная модель суперразрешения, используемая между проходами для сохранения движения при добавлении пространственной точности. Model page
- Gemma 3 12B настроенный текстовый кодировщик для LTX-2. Обеспечивает богатую, обоснованную настройку для глобальных и сегментных подсказок. Repository
- Стиль Sulphur LoRA и LTX-2.3 дистиллированный LoRA 1.1. Парные LoRA, которые стабилизируют реализм лиц и кинематографический тон, сохраняя контроль над подсказками.
Как использовать Comfyui LTX 2.3 Sulphur изображение в видео рабочий процесс#
Общий поток: установите размеры и длину кадра, подготовьте ваше неподвижное изображение, определите глобальную подсказку плюс дополнительные локальные подсказки ритмов, затем рендерите. Этап низкого разрешения строит движение и время, латентный апскейлер поднимает детали, а этап высокого разрешения завершает текстуру и освещение перед декодированием в MP4.
Настройки видео#
Выберите вашу целевую Ширину, Высоту, Длину (кадры) и Частоту кадров. Размеры установлены для делимости на общие размеры сетки диффузии, чтобы избежать артефактов. Один булевый параметр, Переключиться на текст в видео? (#28), контролирует, будет ли неподвижное изображение внедрено или обойдено. Сохраняйте соотношение сторон согласованным с входным изображением для чистейшего кадрирования, особенно для лиц и рук.
Предварительная обработка изображения#
Ваше исходное неподвижное изображение загружается, изменяется размер и слегка сжимается для готовности к диффузии с использованием ImageResizeKJv2 (#75) и LTXVPreprocess (#76). Масштабированная версия подается на проход низкого разрешения для стабильного посева движения, в то время как версия с более высокой детализацией доступна для прохода высокого разрешения. Используйте этот раздел для выравнивания кадрирования и свободного пространства перед генерацией. Небольшие корректировки предварительного обрезания здесь окупаются в более последовательных линиях глаз и непрерывности фона.
Пустое латентное состояние#
EmptyLTXVLatentVideo (#21) и LTXVEmptyLatentAudio (#33) создают синхронизированные видео и аудиолатенты, используя ваши настройки кадра. Они объединяются LTXVConcatAVLatent (#32), чтобы установить временную основу, которую будут уточнять нижестоящие узлы. Аудио-ветка создает тихий, действительный трек, чтобы финальный MP4 надежно воспроизводился везде. Эти латенты также закрепляют сегменты подсказок, чтобы изменения движения происходили там, где вы ожидаете.
Подсказка#
Напишите описание вашего кадра в PromptRelayEncode (#80). Используйте лаконичную глобальную подсказку для общего вида, затем добавьте строку, специфичную для ритма, как локальные подсказки, разделенные символом |, чтобы развивать микро-действия по всему клипу. Текстовый кодировщик LTX из LTXAVTextEncoderLoader (#5) обрабатывает семантику, в то время как CLIPTextEncode (#41) предоставляет сильную реализм-ориентированную негативную подсказку. LTXVConditioning (#31) смешивает положительную и негативную настройку и синхронизирует их с частотой кадров.
Модель#
CheckpointLoaderSimple (#44) загружает базу LTX-2.3. PathchSageAttentionKJ (#67) оптимизирует внимание для больших изображений. Короткая цепочка LoRA применяет стиль Sulphur и дистиллированную стабильность LoRA перед каждым этапом выборки. Этот дизайн балансирует согласованность внешнего вида с отзывчивостью подсказок, так что идентичность персонажа и освещение остаются согласованными между проходами.
Генерация низкого разрешения#
Этот первый диффузионный проход устанавливает движение. LTXVImgToVideoInplace (#22) внедряет ваше предварительно обработанное неподвижное изображение в временную шкалу; если Переключиться на текст в видео? активировано, его вход bypass чисто отключает внедрение изображения для чистого T2V. LTXVScheduler (#47) формирует расписание сигмы, чтобы контролировать амплитуду движения и временную плавность. SamplerCustomAdvanced (#9), управляемый CFGGuider (#42) и KSamplerSelect (#17), синтезирует согласованный низкоразрешенный A/V латент. LTXVSeparateAVLatent (#35) затем разделяет пути видео и аудио и передает информацию о кадрировании в LTXVCropGuides (#10) для композиции, учитывающей направляющие.
Латентное повышение разрешения#
LTXVLatentUpsampler (#13) с LTX-2.3 Spatial Upscaler поднимает пространственные детали в латентном пространстве, сохраняя изученное движение с первого прохода. Повышение разрешения здесь избегает повторного изобретения времени и уменьшает мерцание, часто наблюдаемое при наивной регенерации второго прохода. Он передает более четкий, согласованный с движением латент на финальный этап уточнения.
Генерация высокого разрешения#
Уточненный этап рекомбинирует повышенный видео латент и аудио латент через LTXVConcatAVLatent (#3). CFGGuider (#8) и KSamplerSelect (#6) направляют быстрый, ориентированный на детали выборщик в SamplerCustomAdvanced (#36) с использованием настроенного расписания сигмы для завершения. Если вы оставили внедрение изображения включенным, второй LTXVImgToVideoInplace (#14) помогает модели уважать неподвижное изображение в высоком разрешении, не теряя уже установленное движение. Результат - стабильная, кинематографическая последовательность с естественной динамикой глаз и рта.
Вывод#
VAEDecode (#68) преобразует финальный видео латент в кадры, а LTXVAudioVAEDecode (#23) восстанавливает тихую аудио дорожку. CreateVideo (#38) объединяет кадры и аудио на вашей выбранной частоте кадров, а SaveVideo (#45) записывает H.264 MP4 для немедленного просмотра и обмена. Используйте описательное префиксное имя файла для каждого кадра, чтобы сохранять итерации организованными.
Преобразование чисел#
Небольшой блок утилиты вычисляет половинные размеры для создания латентов, чтобы управлять VRAM и скоростью. Обычно вам не нужно трогать их, но они обеспечивают, чтобы ширина и высота в верхнем потоке все управляют последовательно. Если вы измените базовое разрешение, эти параметры адаптируются автоматически.
Ключевые узлы в Comfyui LTX 2.3 Sulphur изображение в видео рабочий процесс#
PromptRelayEncode(#80). Централизует глобальную подсказку и локальные подсказки, согласованные с временной шкалой. Используйте его для сценариев микро-выражений и небольших раскрытий камеры по всему кадру. Держите локальные подсказки короткими и конкретными, чтобы они дополняли, а не боролись с глобальным видом.LTXVImgToVideoInplace(#22, #14). Внедряет неподвижное изображение в низко- и высокоразрешенные латенты. Увеличьтеstrength, если вы хотите, чтобы финал плотно прилегал к референтному кадру; уменьшите для большей свободы. Входbypassподключен к переключателю Text-to-Video, чтобы вы могли чисто отключить внедрение изображения для запусков T2V.LTXVScheduler(#47). Контролирует, как уровни шума эволюционируют во время прохода низкого разрешения, что непосредственно влияет на интенсивность и плавность движения. Используйте его, чтобы укротить чрезмерно активные кадры или добавить небольшой толчок, когда все кажется статичным. Корректировки здесь наиболее заметны на лицах, волосах и энергией камеры, похожей на ручную.LTXVLatentUpsampler(#13). Выполняет x2 латентное повышение разрешения с пространственным апскейлером LTX, сохраняя сигналы движения, изученные на первом проходе. Используйте его, чтобы добавить четкую текстуру и определение краев перед уточнением высокого разрешения без повторного перекатывания времени.CFGGuider(#42, #8). Балансирует, насколько сильно модель следует вашим подсказкам по сравнению с её изученными приоритетами. Если лица смещаются или стиль ослабевает, поднимите руководство; если детали выглядят чрезмерно принужденными или пластиковыми, уменьшите его. Изменения сочетайте с быстрым взглядом на негативную подсказку, чтобы сохранить реализм.KSamplerSelect(#17, #6). Позволяет выбрать алгоритм выборки для каждого этапа. Предпочитайте надежный, выразительный выборщик для прохода низкого разрешения и быстрый, ориентированный на детали вариант для завершающего прохода. Держите выбор последовательным в итерациях при сравнении видов.
Дополнительные возможности#
- Для преднамеренного поведения камеры вы можете добавить LoRA управления камерой, такую как Dolly-Left из семейства LTX в вашу цепочку загрузчика LoRA, когда вы хотите постоянного бокового толчка. Model page
- Сохраняйте ширину и высоту, делимые на 32, чтобы избежать несоответствия в латентных операциях и поддерживать эффективность VRAM.
- Используйте короткие, активные глаголы в локальных подсказках, чтобы хореографировать ритмы, например "затянуть захват", "отвести взгляд", "смягчить улыбку".
- Если вы нацелены на очень высокие размеры вывода, рассмотрите возможность замены
VAEDecodeнаVAEDecodeTiled(#43) для более эффективного декодирования кадров с памятью. - Когда лица наиболее важны, повторяйте, регулируя только текст подсказок и
CFGGuiderперед изменением выборщика или разрешения. Это делает сравнения значимыми и выявляет лучшие формулировки для LTX 2.3 Sulphur изображение в видео рабочий процесс.
Признания#
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем RunningHub за ссылку на рабочий процесс, Lightricks за семейство LTX 2.3 (модель, пространственный апскейлер и LoRA управления камерой) и Comfy-Org за текстовый кодировщик LTX за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.
Ресурсы#
- RunningHub/RunningHub ссылка на рабочий процесс
- Документы / Примечания к выпуску: runninghub.ai post
- Lightricks/LTX 2.3 источник модели
- Hugging Face: Lightricks/LTX-2.3-fp8
- Lightricks/LTX 2.3 источник пространственного апскейлера
- Hugging Face: Lightricks/LTX-2.3
- Lightricks/LTX источник управления камерой LoRA
- Hugging Face: Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
- Comfy-Org/LTX источник текстового кодировщика
- Hugging Face: Comfy-Org/ltx-2
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

