LTX 2.3 Prompt Relay: многоударная генерация видео из изображений в ComfyUI#
LTX 2.3 Prompt Relay — это рабочий процесс ComfyUI для управления преобразованием изображений в видео с сегментированной маршрутизацией подсказок через несколько ударов в одном клипе. Он использует PromptRelayEncode в качестве контроллера без обучения во время вывода, чтобы назначать различные текстовые инструкции разным временным периодам, таким образом, вы можете скриптовать движения камеры и действия по каждому удару, сохраняя при этом непрерывность сюжета и плавные переходы. Помощник Qwen VLM может автоматически составлять или уточнять сюжетные удары из эталонного изображения перед генерацией.
Этот рабочий процесс LTX 2.3 Prompt Relay в ComfyUI идеально подходит для короткометражных фильмов, продуктовых съемок и сюжетных тизеров, где вы хотите контролировать каждую сцену без точной настройки. Он создает синхронизированное видео с декодированным аудио и записывает его в формате H.264 MP4 с сохранением метаданных.
Ключевые модели в рабочем процессе Comfyui LTX 2.3 Prompt Relay#
- Базовая контрольная точка LTX‑Video 2.3. Генеративный каркас, который синтезирует временно согласованное видео из текста и необязательной эталонной рамки. См. сообщество build и контекст весов на Hugging Face для пользователей ComfyUI. Kijai/LTX2.3_comfy
- LTX‑Video 2.3 Video VAE и Audio VAE. Декодеры, которые превращают латентное видео и латентное аудио модели в RGB-кадры и звуковую волну для мультиплексирования, используемые здесь для экспорта в MP4. Kijai/LTX2.3_comfy
- Qwen VLM (Instruct). Модель зрения и языка, читающая эталонное изображение и составляющая многоударные линии действий, которые рабочий процесс использует в качестве локальных подсказок. Интегрирована через расширение ComfyUI‑QwenVL. 1038lab/ComfyUI-QwenVL
- Опциональные LTX 2.3 LoRAs. Адаптеры стиля или эффективности, такие как дистиллированная LoRA и четко-усиливающая LoRA, предварительно подключены для легкого переключения для изменения текстуры и резкости без изменения ваших подсказок. Kijai/LTX2.3_comfy
Как использовать рабочий процесс Comfyui LTX 2.3 Prompt Relay#
Общий поток#
Рабочий процесс считывает одно изображение в качестве начального кадра, собирает глобальную подсказку и локальные подсказки, специфичные для удара, кодирует их с помощью Prompt Relay, выбирает совместное латентное аудио-видео, затем декодирует и комбинирует кадры и аудио в MP4. Группы организованы как Модели, Настройки Входного Видео, VLM, Условие, Создание Латентного, Выборка и Декодирование.
Модели#
Сначала загружается базовая контрольная точка LTX‑Video 2.3, затем последовательно применяются две опциональные LoRAs для настройки четкости и эффективности. Включено патчирование внимания для улучшения верности при длинных подсказках. Вы можете оставить обе LoRAs, отключить одну из них или полностью обойти, если предпочитаете нейтральный базовый вид.
Настройки Входного Видео#
Выберите ширину, высоту, общее количество секунд и FPS для клипа. Рабочий процесс автоматически вычисляет количество кадров как произведение секунд и FPS, поддерживая синхронизацию длины изображения и аудио. Установите их перед написанием подсказок, чтобы знать, сколько ударов удобно поместится.
VLM#
Загрузите или сбросьте эталонное изображение. Изображение предварительно обрабатывается и отправляется в Qwen VLM, который следует краткому шаблону инструкции для предложения четырех кратких линий ударов, разделенных символом "|". Вы можете просмотреть и отредактировать сгенерированный текст на экране просмотра перед его продолжением или пропустить VLM и написать свои собственные строки.
Условие с Prompt Relay#
PromptRelayEncode принимает глобальную подсказку для стиля и настройки, а также ваши локальные подсказки для действий по ударам. Разделяйте удары "|" в локальных подсказках; кодировщик направляет каждый сегмент в его временной интервал и смешивает их для плавных переходов. Узел выдает условие подсказки и патченную модель, чтобы выборщик следовал вашему скрипту ударов точно. Справка и использование предоставлены проектом ComfyUI‑PromptRelay. kijai/ComfyUI-PromptRelay
Создание Латентного#
Пустое латентное видео инициализируется с вашим выбранным разрешением и длиной. Предварительно обработанное эталонное изображение записывается в первую рамку временной шкалы для закрепления идентичности, позы и освещения. Создается пустое аудио латентное с соответствующей продолжительностью, чтобы декодирование производило готовую к мультиплексированию звуковую волну вместе с кадрами.
Выборка#
Планировщик создает график шума, визуализатор предварительно его просматривает, и выборщик запускается на объединенном латентном аудио-видео с использованием патченной модели LTX 2.3 и условием Prompt Relay. Вы можете изменить тип выборщика, если предпочитаете другой компромисс между резкостью и стабильностью. Результатом является единое латентное, которое уже кодирует как видео, так и аудио.
Декодирование и экспорт#
Латентное разделяется на видео и аудио ветви, затем декодируется с помощью LTX 2.3 Video VAE и Audio VAE. VideoHelperSuite объединяет кадры и звуковую волну в H.264 MP4 со стандартным форматом пикселей для широкой совместимости проигрывателей и сохраняет метаданные для воспроизводимости. ComfyUI-VideoHelperSuite
Ключевые узлы в рабочем процессе Comfyui LTX 2.3 Prompt Relay#
PromptRelayEncode (#605)#
Основной контроллер, который применяет сегментированную маршрутизацию подсказок во время вывода. Используйте global_prompt для стиля, настройки, темы и языка объектива, который должен сохраняться, и используйте local_prompts для действий, специфичных для ударов, разделенных |. Держите удары краткими и сфокусированными; 3 до 6 ударов обычно читаются чисто. Если вы хотите вручную управлять переходами, держите соседние удары семантически совместимыми, чтобы смешивание было естественным. Справка: kijai/ComfyUI-PromptRelay
AILab_QwenVL_Advanced (#610)#
Ассистент VLM, который читает эталонное изображение и расширяет вашу идею в линии ударов, используя краткую инструкцию. Отредактируйте текст инструкции, чтобы подтолкнуть тон или словарь камеры, затем просмотрите сгенерированные удары в просмотрщике. Вывод направляется прямо в local_prompts, и вы можете в любой момент заменить его на свое собственное письмо. Справка: 1038lab/ComfyUI-QwenVL
LTXVImgToVideoInplaceKJ (#582)#
Заполняет первый кадр латентного видео вашим входным изображением, обеспечивая стабильность идентичности и освещения на протяжении ударов. Для чистого преобразования текста в видео обойдите этот узел и начните с пустого латентного видео. Для более сильного соблюдения исходного кадра держите вашу глобальную подсказку согласованной с содержимым изображения.
BasicScheduler (#514) и VisualizeSigmasKJ (#358)#
Контролируйте и предварительно просматривайте график удаления шума, используемого выборщиком. Используйте визуализатор, чтобы проверить форму кривой при переключении выборщиков или количестве шагов. Более плавный график часто дает более устойчивое движение, в то время как более агрессивные графики повышают детализацию.
VHS_VideoCombine (#604)#
Объединяет декодированные кадры и аудио в один MP4 с широко совместимым форматом пикселей. Убедитесь, что его частота кадров совпадает с вашей группой настроек входного видео для точной синхронизации. Отключите аудиовход здесь, если хотите экспорт без звука. Справка: ComfyUI-VideoHelperSuite
Опциональные дополнения#
- Советы по написанию ударов: пишите в настоящем времени, держите каждый удар на одно действие, добавляйте короткий диалог только если он продвигает удар, и начинайте с глагола камеры, такого как "приближение," "панорама вправо," или "дрейф вручную."
- Используйте глобальную подсказку для художественного направления и оптики (освещение, объектив, настроение); используйте локальные подсказки для движения, жестов и изменений кадрирования.
- Для более быстрого итерационного процесса держите разрешение скромным при составлении ударов, затем увеличьте его для окончательной рендеринга.
- Если LoRAs чрезмерно увеличивают резкость или изменяют цвет, уменьшите их веса или отключите одну из них для восстановления нейтральности.
Благодарности#
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем gordonchen19 за Prompt-Relay, kijai за ComfyUI-PromptRelay, Kijai за LTX2.3_comfy (контекст модели ComfyUI), 1038lab за ComfyUI-QwenVL и автора поста на Patreon (Innovate Futures @ Benji) за источник рабочего процесса, за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы#
- Patreon/Источник рабочего процесса
- Документация / Примечания к выпуску: пост @Benji
- gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- Документация / Примечания к выпуску: сайт
- kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
- Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- Документация / Примечания к выпуску: обсуждение #51
- 1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

