logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Рабочие процессы>LTX-2 ControlNet | Генератор точного видео

LTX-2 ControlNet | Генератор точного видео

Workflow Name: RunComfy/LTX-2-ControlNet
Workflow ID: 0000...1336
Этот рабочий процесс LTX-2 с поддержкой ControlNet позволяет очень точно генерировать видео, руководствуясь явными структурными условиями, такими как карты глубины, контуры и позы человека. Используя кондиционирование IC LoRA в стиле ControlNet, он обеспечивает сильные пространственные и двигательные ограничения на всех кадрах, одновременно генерируя синхронизированные аудио и визуальные эффекты в едином латентном пространстве. Рабочий процесс поддерживает текст-видео, изображение-видео и видео-видео конвейеры, позволяя создателям точно контролировать структуру сцены, движение и непрерывность. Его двухэтапная архитектура обеспечивает эффективное масштабирование и оптимизированное использование памяти, что делает его идеальным для изысканного, управляемого и готового к производству синтеза видео.

LTX-2 ControlNet: создание видео, управляемого структурой, с синхронизацией аудио в ComfyUI

LTX-2 ControlNet — это управляемый рабочий процесс ComfyUI для расширения ComfyUI-LTXVideo, который позволяет вам управлять генерацией видео LTX-2 с помощью глубины, краев и поз, сохраняя синхронизацию аудио и визуальных эффектов. Он работает в едином аудио-визуальном латентном пространстве, так что речь, фоли и движение генерируются вместе и остаются выровненными от первого кадра до последнего.

Создан для текст-видео, изображение-видео и видео-видео, рабочий процесс добавляет кондиционирование ControlNet на основе IC LoRA для точного управления макетом и движением, инициализации первого кадра для непрерывности сцены и двухэтапного конвейера с латентным масштабированием для четких результатов без увеличения VRAM. LTX-2 ControlNet полностью открыт, быстр в итерации и ориентирован на производство для создателей, которым нужны повторяемые, высококачественные выходы.

Ключевые модели в рабочем процессе Comfyui LTX-2 ControlNet

  • LTX-2 19B (dev FP8 и дистиллированный). Основная аудио-визуальная генеративная модель, используемая для выборки видео и аудио в едином латентном пространстве. Семейство моделей
  • Gemma 3 12B IT текстовый энкодер. Обеспечивает надежное понимание языка для подсказок и негативов через упакованный энкодер, используемый LTX-2. Файл энкодера
  • LTX-2 Spatial Upscaler x2. Латентная модель масштабирования, используемая на втором этапе для уточнения пространственной детализации. Масштабатор
  • LTX-2 Audio VAE. Специализированный аудио декодер-энкодер, который поддерживает выровненный звук с кадрами. Включено с контрольными точками LTX-2. Контрольные точки
  • Семейство IC LoRA для LTX-2. Добавляет кондиционирование в стиле ControlNet:
    • Контроль глубины LoRA: ltx-2-19b-IC-LoRA-Depth-Control
    • Контроль краев LoRA: ltx-2-19b-IC-LoRA-Canny-Control
    • Контроль позы LoRA: ltx-2-19b-IC-LoRA-Pose-Control
    • Дистиллированная LoRA для компромиссов качества/эффективности: ltx-2-19b-distilled-lora-384
  • Lotus Depth D v1.1. Оценщик глубины, используемый в пути контроля глубины. Модель
  • SD VAE FT MSE (Stability AI). Изображение VAE, используемое для предварительной обработки глубины и декодирования с мозаикой. VAE
  • Расширение ComfyUI-LTXVideo. Предоставляет семплеры LTX-2, AV латенты, аудио VAE и управляющие узлы, используемые повсюду. Репозиторий

Как использовать рабочий процесс Comfyui LTX-2 ControlNet

На высоком уровне, LTX-2 ControlNet принимает вашу подсказку и необязательные ссылки, строит аудио-визуальную латентность с руководством в стиле ControlNet, выполняет первую проходку, затем масштабирует латентность для четкого видео и синхронизированного аудио. Выберите один из трех направляемых путей (Глубина, Края, Поза) или используйте их независимо, затем установите длину и размер перед экспортом.

  • Предварительная обработка изображений/видео
    • Если вы выполняете преобразование изображения в видео или видео в видео, используйте загрузчики, чтобы добавить ваше эталонное медиа. VHS_LoadVideo (#196, #197, #198) разбивает кадры для анализа, в то время как LoadImage (#189) обрабатывает статические изображения. Группа предоставляет удобное масштабирование, чтобы нижестоящие руководства видели согласованные размеры кадров.
    • Изображение "первого кадра" может быть передано вперед для инициализации сцены; вы включите это позже в группе генерации.
  • Предварительная обработка глубины изображения
    • Для руководства по глубине подграф "Изображение в карту глубины (Lotus)" преобразует ваш вход в нормализованную карту глубины с использованием Lotus Depth. Это подготавливает однокадровое или многокадровое представление глубины, которое LTX-2 может следовать.
    • Путь включает в себя необязательное изменение размера и управления интенсивностью, чтобы руководство кодировало общую структуру без излишней подгонки к мелким артефактам.
  • Предварительная обработка позы видео
    • Для руководства по позе DWPreprocessor (#158) обнаруживает ключевые точки всего тела из входного видео и масштабирует их для стабильного кондиционирования. Это дает чистую последовательность изображений позы, подчеркивающую ориентацию скелета и конечностей.
    • Узлы предварительного просмотра помогают быстро проверить, что обнаружения и соотношения сторон выглядят правильно перед генерацией.
  • Края к видео
    • Этот путь контроля извлекает края с помощью Canny (#169), затем строит AV латентность с последовательностью управляющих изображений. Используйте его, когда хотите сохранить силуэты, основные контуры или края типографики из ссылки.
    • Входное изображение первого кадра доступно для согласованной инициализации; включайте его только когда хотите, чтобы открывающий кадр соответствовал определенному статическому изображению.
  • Глубина к видео
    • Этот путь подает карты глубины Lotus в качестве управляющих изображений. Контроль глубины идеален для обеспечения геометрии камеры, крупномасштабного макета и расстояния до объекта, позволяя генератору выбирать текстуры и освещение.
    • Вы можете предоставить первый кадр, чтобы зафиксировать начальную композицию, а затем позволить движению развиваться, руководствуясь подсказками глубины.
  • Поза к видео
    • Путь позы использует рендеринг ключевых точек из препроцессора, управляя ориентацией тела и синхронизацией движений. Он особенно эффективен для блокировки персонажей, синхронизации поднятия рук и циклов ходьбы.
    • Как и в других режимах, вы можете сочетать синхронизацию подсказок с необязательной кондиционированием первого кадра для непрерывности.
  • Настройки видео и длина
    • Установите рабочую ширину, высоту и количество кадров в группах "Настройки видео" и "длина видео". Рабочий процесс автоматически корректирует недопустимые значения до ближайших совместимых размеров для латентной сетки и шага LTX-2, чтобы вы могли безопасно итеративно работать.
    • Держите вашу целевую частоту кадров согласованной между узлами; узлы кондиционирования и финальный мукс уважают её для плавной синхронизации аудио и видео.
  • Генерация, масштабирование и экспорт
    • Во время семплирования LTXVAddGuide интегрирует ваше положительное/отрицательное кондиционирование с выбранными управляющими изображениями, затем SamplerCustomAdvanced выполняет расписание от LTXVScheduler как для видео, так и для аудио латентов. Необязательный первый кадр вводится с помощью LTXVImgToVideoInplace, где это включено.
    • На втором этапе LTXVLatentUpsampler уточняет детали с помощью x2 латентного масштабатора. Финальное декодирование происходит с помощью мозаичного VAEDecodeTiled для кадров и LTXVAudioVAEDecode для аудио, затем видео записывается с VHS_VideoCombine или CreateVideo в зависимости от выбранной ветви.

Ключевые узлы в рабочем процессе Comfyui LTX-2 ControlNet

  • LTXVAddGuide (#132)
    • Объединяет текстовое кондиционирование и IC LoRA контролы в AV латент, действуя как сердце руководства LTX-2 ControlNet. Настройте только те немногие контролы, которые имеют значение: выберите контроль LoRA, соответствующий вашему пути (глубина, края или поза), и, когда доступно, image_strength, который настраивает, насколько плотно модель следует за руководствами. Реализация ссылки и поведение узла предоставлены расширением LTXVideo. Документация/Код
  • LTXVImgToVideoInplace (#149, #155)
    • Вставляет изображение первого кадра в AV латент для согласованной инициализации сцены. Используйте strength, чтобы сбалансировать верность первому кадру и свободу развиваться; держите его ниже для большего движения и выше для более жестких якорей. Пропустите его, когда хотите чисто текстовые или управляемые открывающие кадры. Документация/Код
  • LTXVScheduler (#95)
    • Управляет траекторией снижения шума для единой латентности, чтобы как аудио, так и видео сходились вместе. Увеличьте шаги для сложных сцен и тонких деталей; сократите для черновиков и быстрой итерации. Настройки расписания взаимодействуют с силой руководства, поэтому избегайте экстремальных значений, когда руководство сильно. Документация/Код
  • LTXVLatentUpsampler (#112)
    • Выполняет вторую стадию латентного масштабирования с помощью пространственного масштабатора LTX-2 x2, улучшая резкость с минимальным ростом VRAM. Используйте это после первого прохода, а не увеличивая базовое разрешение, чтобы итерации оставались отзывчивыми. Модель масштабатора
  • DWPreprocessor (#158)
    • Генерирует чистые ключевые точки человеческой позы для пути контроля позы. Проверьте обнаружения с предварительным просмотром; если руки или мелкие конечности шумные, масштабируйте входные данные до умеренного максимального размера перед предварительной обработкой. Предоставлено вспомогательным набором ControlNet. Репо
  • VHS_VideoCombine / CreateVideo (#195, #106)
    • Объединяет декодированные кадры и аудио в MP4 с выбранной частотой кадров и форматом пикселей. Используйте их только после подтверждения, что ваше аудио-декодирование выглядит выровненным в предварительном просмотре. Предоставлено Video Helper Suite. Репо

Дополнительные возможности

  • Подсказки для LTX-2 ControlNet
    • Описывайте действия во времени, а не только статические атрибуты.
    • Включайте необходимые звуковые подсказки или диалоги, чтобы аудио генерировалось в такт.
    • Используйте краткую негативную подсказку, чтобы подавить артефакты, которые вы видите неоднократно.
  • Размеры и длины
    • Используйте размеры изображений вида 32k + 1 для ширины/высоты; граф автоматически корректирует, если вы ошиблись, но точные значения ускоряют итерацию.
    • Количество кадров вида 8k + 1, как правило, наиболее устойчиво для планирования.
  • Согласованность первого кадра
    • Включайте первый кадр только когда вам нужна зафиксированная начальная композиция; сочетайте его с умеренной image_strength, чтобы избежать излишнего ограничения.
  • VRAM и пропускная способность
    • Рабочий процесс включает последовательные и компиляционные опции torch в патчере LTXVideo для многоядерных или ограниченных по памяти настроек. Держите их включенными для длинных клипов, выключайте при отладке поведения узлов. Расширение

Благодарности

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем вклад и поддержку Lightricks за ComfyUI-LTXVideo. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы

  • Репозиторий ComfyUI-LTXVideo на GitHub: https://github.com/Lightricks/ComfyUI-LTXVideo
    • GitHub: Lightricks/ComfyUI-LTXVideo

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

Pyramid Flow | Генерация видео

Включает режимы от текста к видео и от изображения к видео.

CogvideoX Fun | Модель видео-видео

CogVideoX Fun: Продвинутая модель видео-видео для генерации видео высокого качества.

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

Mochi 1 | Genmo Текст-видео

Демонстрация преобразования текста в видео с использованием модели Genmo Mochi 1

Mochi Edit UnSampling | Видео-в-Видео

Mochi Edit: Изменяйте видео с помощью текстовых подсказок и увеличения разрешения.

Qwen Edit 2509 MultipleAngles | Создатель изображений с несколькими видами

Превратите одно фото в полные визуализации с несколькими углами мгновенно.

Face Restore + ControlNet + Reactor | Восстановите старые фотографии

Face Restore + ControlNet + Reactor | Восстановите старые фотографии

Возродите выцветшие фотографии в яркие воспоминания, сохраняя каждую деталь для дорогих воспоминаний.

IPAdapter V1 + AnimateDiff + ControlNet | Искусство движения

Откройте для себя инновационное использование IPAdapter для создания потрясающих анимаций движущегося искусства.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.