LTX 2.3 Sulphur 2 текст в видео рабочий процесс для кинематографической анимации персонажей#
Эта схема ComfyUI преобразует текстовые подсказки на естественном языке в короткие, кинематографические видео, сосредоточенные на персонажах, с опциональным аудио, созданные на основе компонентов Lightricks LTX-2.3 и Sulphur 2. Генерация происходит в низком разрешении для планирования движения, увеличивает латентную последовательность, затем уточняет в высоком разрешении перед декодированием в кадры и мультиплексированием синхронизированной аудиодорожки.
LTX 2.3 Sulphur 2 текст в видео рабочий процесс идеально подходит для быстрых тестов анимации персонажей, концепций движения в стиле D-Human и отточенных экспериментов "текст-видео". Он не зависит от входных данных "изображение-видео" или передачи подсказок; все начинается с текста, с кондиционированием LTXV, направляющим как видео, так и аудио латенты от начала до конца.
Основные модели в Comfyui LTX 2.3 Sulphur 2 текст в видео рабочем процессе#
- Lightricks LTX-2.3. Основной генератор "текст-видео", используемый для пространственно-временного синтеза и мультимодальных AV латентов. См. официальный репозиторий модели для весов и заметок о возможностях и ограничениях. Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX-2.3 FP8 контрольная точка. Память-эффективный вариант LTX-2.3, который ускоряет вывод и позволяет создавать более длинные клипы или более высокие разрешения на ограниченных GPU. Hugging Face: Lightricks/LTX-2.3-fp8
- Sulphur 2 базовая модель. Обеспечивает стильные приоритеты и детализацию персонажей через LoRA в этом рабочем процессе, помогая достичь четких лиц и кинематографической тональности. Hugging Face: SulphurAI/Sulphur-2-base
- LTX-2.3 Spatial Upscaler x2 1.1. Латентный увеличитель, который увеличивает пространственную детализацию перед проходом уточнения высокого разрешения. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
- LTX текстовый кодировщик (Gemma 3 12B IT, упакованный для LTX). Поставляет текстовое встраивание, соответствующее кондиционированию LTX-2.3 для точного следования подсказкам. Hugging Face: Comfy-Org/ltx-2
- LTX Audio VAE. Декодирует аудио латент, сгенерированный вместе с видео, чтобы финальный рендер мог включать синхронизированный саундтрек. Hugging Face: Lightricks/LTX-2.3
Как использовать Comfyui LTX 2.3 Sulphur 2 текст в видео рабочий процесс#
Общая логика Схема работает в три акта: генерация низкого разрешения для установления движения и композиции, латентное увеличение для повышения пространственной детализации и проход уточнения высокого разрешения, который также дает финальное аудио. Латенты декодируются в кадры и волновую форму, затем мультиплексируются в MP4 контейнер, готовый к доставке.
Настройки видео Используйте группу "Настройки видео", чтобы определить ширину, высоту, частоту кадров и продолжительность. Количество кадров вычисляется автоматически из вашей продолжительности и fps, поэтому время и ритм остаются последовательными. Эти значения управляют выделением и декодированием латентов, поэтому сначала установите их, чтобы они соответствовали вашей целевой пропорции и времени воспроизведения. Регулировка fps здесь также информирует кондиционирование, чтобы плавность движения и синхронизация аудио использовали те же часы.
Подсказка В "Подсказке" загрузите LTX текстовый кодировщик с помощью LTXAVTextEncoderLoader (#316), затем напишите ваше положительное описание в CLIPTextEncode (#303) и любые нежелательные черты в CLIPTextEncode (#312). Узел LTXVConditioning (#304) объединяет положительное и отрицательное кондиционирование и добавляет выбранную частоту кадров, чтобы временное руководство соответствовало вашему fps. Обращайтесь с положительной подсказкой как с кратким описанием сцены: субъект, камера, освещение, настроение и стилистические подсказки. Держите негативный список сосредоточенным на артефактах, которые вы регулярно видите и хотите удалить.
Модель Группа "Модель" загружает основную контрольную точку через CheckpointLoaderSimple (#315) и применяет Sulphur 2 LoRA с помощью LoraLoaderModelOnly (#285) для добавления кинематографической текстуры и верности персонажей. Здесь вы можете сменить контрольные точки или LoRA, чтобы изменить общий вид и приоритеты движения. Вывод модели направляется как на начальные, так и на уточняющие направляющие, чтобы стиль и идентичность были последовательны на всех проходах. Совмещение LTX-2.3 с Sulphur 2 дает контрастные и детализированные лица, которые хорошо читаются в движении.
Преобразование чисел Утилита выражений преобразует ваши fps и секунды в целочисленное количество кадров, используемое далее. Это поддерживает синхронизацию аудио и видео без ручных вычислений. Если вы пересмотрите fps или продолжительность позже, граф автоматически обновляет зависимые узлы.
Пустой Латент "Пустой Латент" создает согласованные контейнеры для генерации: EmptyLTXVLatentVideo (#295) определяет пространственный размер и длину видео латента, LTXVEmptyLatentAudio (#305) выделяет аудио латент на той же частоте кадров, а LTXVConcatAVLatent (#321) объединяет их в единый AV латент. Начало с пустых латентов гарантирует, что диффузионный проход полностью отражает вашу подсказку и кондиционирование, а не какой-либо уже существующий контент.
Генерация низкого разрешения Первый этап выборки устанавливает движение и композицию с меньшими затратами. CFGGuider (#313), KSamplerSelect (#291) и ManualSigmas (#306) регулируют, насколько сильно подсказка влияет на генерацию и общее расписание шума. SamplerCustomAdvanced (#283) затем удаляет шум из AV латента, создавая связный клип. Результат разделяется LTXVSeparateAVLatent (#307), а LTXVCropGuides (#284) уточняет пространственное внимание, чтобы композиция кадра, которую вы хотите, сохранялась при последующем увеличении.
Латентное увеличение LTXVLatentUpsampler (#287) использует увеличитель LTX-2.3 x2 для повышения пространственной детализации, оставаясь в латентном пространстве для скорости и стабильности. Поддержка увеличенного видео латента улучшает текстуру и читаемость перед уточнением высокого разрешения. Это сохраняет движение, которое вам понравилось с первого прохода, открывая возможности для более четких краев и более богатых материалов.
Генерация высокого разрешения Увеличенный видео латент соединяется с аудио латентом в LTXVConcatAVLatent (#278) и снова направляется для окончательного качества. CFGGuider (#282), KSamplerSelect (#280) и ManualSigmas (#281) дают последнее слово о силе подсказки, детализации и временной согласованности, с SamplerCustomAdvanced (#308), производящим уточненный AV латент. LTXVSeparateAVLatent (#309) передает видео в VAEDecodeTiled (#314) для декодирования кадров с экономией памяти, а аудио в LTXVAudioVAEDecode (#297) для восстановления волновой формы. CreateVideo (#310) мультиплексирует кадры и аудио с вашей целевой частотой кадров, а SaveVideo (#75) записывает файл MP4/H.264.
Предварительная обработка изображений Эта область маршрутизирует базовые модели VAE и увеличителя, чтобы плитка и латентное увеличение работали в пределах вашего бюджета VRAM. Если вы испытываете давление памяти, отдайте предпочтение FP8 LTX-2.3 весам и держите плиточное декодирование включенным, чтобы поддерживать пропускную способность и качество.
Основные узлы в Comfyui LTX 2.3 Sulphur 2 текст в видео рабочем процессе#
LTXVConditioning (#304) Объединяет положительное и отрицательное текстовое кондиционирование и прикрепляет рабочую частоту кадров, чтобы временное руководство соответствовало вашему рендеру. Сильный, конкретный язык сцены улучшает структуру кадра; краткие негативы уменьшают артефакты. См. карточку модели LTX-2.3 для заметок о кондиционировании. Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) Мягко направляет композицию, чтобы основной субъект оставался в кадре, как задумано. Используйте его, чтобы защитить размер лица, расположение горизонта или центрированный субъект перед увеличением и уточнением. Это особенно полезно для кадров в стиле диалога и средних планов.
CFGGuider (#313, #282) Контролирует, насколько агрессивно подсказка влияет на траекторию диффузии в обоих проходах. Используйте первый направляющий, чтобы зафиксировать движение и постановку, затем второй, чтобы добавить четкость, не отклоняясь от установленного кадра.
ManualSigmas (#306, #281) Определяет расписание шума. Предварительная загрузка большего количества шума поощряет более широкое исследование движения; более мягкое расписание подчеркивает временную согласованность. Держите расписания низкого и высокого разрешения комплементарными, а не идентичными.
LTXVLatentUpsampler (#287) Выполняет x2 латентное увеличение с использованием официального увеличителя LTX, чтобы вы получили детализацию перед уточняющим выборщиком. Замена на другой вариант увеличителя LTX-2.3 может слегка изменить резкость и зернистость. Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) Декодирует длинные или большие клипы в управляемых плитках, чтобы избежать скачков VRAM. Если вы измените пространственный размер или длину клипа, отрегулируйте плитку, чтобы сбалансировать запас памяти и скорость декодирования.
LoraLoaderModelOnly (#285) Применяет Sulphur 2 LoRA к пути базовой модели, чтобы верность персонажей и стилистические подсказки переносились в оба этапа выборки. Используйте это, чтобы быстро сменить внешний вид, сохраняя тот же костяк LTX-2.3. Hugging Face: SulphurAI/Sulphur-2-base
Дополнительные опции#
- Контроль семян: установите фиксированные значения в обоих узлах
RandomNoise, чтобы дубли были воспроизводимыми; измените одно семя, чтобы исследовать альтернативы. - Подсказки: пишите подсказки как указания для съемки (субъект, камера, освещение, настроение). Держите негативный список сосредоточенным и коротким.
- Производительность: если VRAM ограничен, отдайте предпочтение весам FP8 LTX-2.3 и держите плиточное декодирование включенным.
- Вывод: граф записывает MP4/H.264; измените контейнер или кодек в
SaveVideo, если вам нужны рабочие процессы прокси ProRes.
Этот LTX 2.3 Sulphur 2 текст в видео рабочий процесс предлагает чистый, от начала до конца путь от подсказки до отточенного видео с синхронизированным аудио, созданный для быстрой итерации на кинематографической анимации персонажей.
Благодарности#
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим RunningHub за базовый рабочий процесс Sulphur2 для видеопроизводства, SulphurAI за базовую модель Sulphur-2, Lightricks за модели LTX-2.3 и LTX-2.3-fp8, а также Comfy-Org за текстовый кодировщик LTX-2 за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы#
- RunningHub/Sulphur2 Basic Workflow for Video Production
- Документы / Примечания к выпуску: Sulphur2 Basic Workflow for Video Production
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

