LTX-2 — это базовая модель Diffusion Transformer (DiT) с открытыми весами, предназначенная для генерации синхронизированного видео и аудио в рамках одной модели. В отличие от «немых» видеомоделей, она построена как совместная аудио-видео система, позволяющая синхронизировать движение и звук во времени. В официальном релизе основное семейство чекпоинтов — класс 19B (с обучаемым вариантом «dev», несколькими квантованными вариантами и ускоренным дистиллированным вариантом).
Это руководство посвящено Обучению LoRA LTX-2 с использованием Ostris AI Toolkit. Цель — быстро сделать вас продуктивным: понять, в чём LTX-2 хорош, какие данные готовить, какие настройки AI Toolkit важны и какие «безопасны» для первого запуска.
Если вы не хотите устанавливать AI Toolkit локально, можете запустить его в браузере на облачных GPU RunComfy (H100 / H200).
▶ Начните здесь: RunComfy cloud AI Toolkit
Содержание
- 1. Почему LTX-2 ведёт себя иначе, чем другие цели для видео LoRA
- 2. Для чего лучше всего подходят LoRA LTX-2
- 3. Подготовка датасета для Обучения LoRA LTX-2
- 4. Как Ostris AI Toolkit понимает обучение
- 5. Пошагово: Как обучить LoRA для LTX-2 в AI Toolkit
- 6. Ожидаемое время Обучения LoRA LTX-2
- 7. Типичные проблемы при Обучении LoRA LTX-2 (и как их исправить)
- 8. Обучение LoRA LTX-2: Быстрый FAQ
- 9. Узнать больше: Другие руководства по обучению LoRA с AI Toolkit
1. Почему LTX-2 ведёт себя иначе, чем другие цели для видео LoRA
Несколько особенностей LTX-2 напрямую влияют на подход к Обучению LoRA LTX-2:
- Аудио-видео нативно: LTX-2 создан для генерации синхронизированного аудио и визуала в одной модели (не надстройка). Это отлично для «готовых кадров» (диалог, атмосфера, фоли), но также означает, что аудио-осознанный файнтюнинг зависит от того, обновляет ли ваш тренер аудио-путь и кросс-модальные компоненты (многие сторонние стеки обучения начинают с файнтюнинга только видео).
- Он большой (чекпоинты класса 19B): Вы почувствуете это в VRAM, времени шага и том факте, что «маленькие ранги» часто недообучаются. Официальный список чекпоинтов включает:
- ltx-2-19b-dev (обучаемый в bf16),
- квантованные варианты dev (fp8 / nvfp4),
- и ltx-2-19b-distilled (ускоренный инференс, 8 шагов, CFG=1).
- Строгие ограничения формы: Ширина/высота должны делиться на 32, и количество кадров должно делиться на 8 + 1 (т.е. 8n+1: 1, 9, 17, 25, …, 121, …). Если ваш вход не соответствует, обычно нужно сделать padding (часто с
-1) и затем обрезать до целевого размера/количества кадров.
2. Для чего лучше всего подходят LoRA LTX-2
На практике при LTX-2 19B обучении LoRA наибольшую ценность представляют следующие направления:
- LoRA персонажа/идентичности: стабильное лицо, костюм, реквизит, «брендовый персонаж» и устойчивая идентичность при движении камеры.
- LoRA стиля: арт-дирекшн (световой язык, стиль рендеринга, объективы, атмосфера плёночного материала), при этом субъекты остаются гибкими.
- LoRA движения/хореографии: определённый паттерн движения (стиль цикла ходьбы, танцевальный характер, локомоция существа) или «как движется мир» (тряска ручной камеры, тайминг анимации).
- LoRA поведения камеры: долли-ин/аут, ощущение крана/стрелы, орбитальный язык камеры, стабилизированная vs ручная камера.
- (Продвинутый) LoRA аудио: стабильная палитра атмосферы, стиль фоли или голосоподобные характеристики—только если ваш стек обучения поддерживает файнтюнинг аудио-ветки.
Если у вас только изображения (не видео), вы всё равно можете эффективно обучить идентичность/стиль, но не ожидайте, что модель выучит временные паттерны движения из отдельных кадров.
3. Подготовка датасета для Обучения LoRA LTX-2
3.1 Выбор правильного «бюджета» длины клипа + разрешения
Стоимость дообучения LoRA LTX-2 масштабируется как с пространственным размером, так и с количеством кадров. Для первого LoRA держите всё просто:
- Старт для идентичности/стиля:
- Разрешение: 512–768-ish (в зависимости от GPU)
- Кадры: 49 или 81 (короткие клипы обучаются быстрее; достаточно для временной согласованности)
- Старт для движения/камеры:
- Разрешение: 512 (или 768 если есть запас)
- Кадры: 121 (хорошо для изучения движения; ~5 секунд при 24 fps)
Помните ограничение: кадры должны быть 8n+1.
3.2 Видео vs изображения (оба валидны)
Многие предполагают, что Обучение LoRA LTX-2 требует датасетов только из видео. На самом деле большинство практических стеков обучения могут работать с обоими:
- Датасеты только из изображений (каждый сэмпл как «клип из 1 кадра»), или
- Видео-датасеты (короткие связные клипы).
При использовании AI Toolkit обычно проще держать каждую запись датасета однородной (все изображения или все видео) и использовать отдельные записи, если нужно смешивать модальности.
- Для изображений:
frames = 1удовлетворяет 8n+1. - Для видео: используйте короткие, связные клипы; избегайте длинных мульти-сценных сегментов.
Это важно для работы с персонажами: вы можете начать идентичность с изображений, затем уточнить движение короткими клипами.
3.3 Сколько данных нужно (реалистичный масштаб)?
Нет единого «официального минимума», но эти диапазоны — реалистичные отправные точки для ltx-2-19b LoRA:
- LoRA на основе изображений (идентичность/реквизит/стиль): начните с ~20–50 чистых, разнообразных изображений. Если хотите большую устойчивость к освещению, объективам и композициям, ~50–150 курированных изображений обычно помогает больше, чем повторение почти-дубликатов.
- LoRA на основе видео (движение/камера/временная согласованность): нацельтесь на ~20–60 коротких, связных клипов (кадры с одним действием), а не пару длинных видео. Для более широких или богатых движением целей масштабирование до ~50–150 коротких клипов (или примерно ~10–30 минут «хорошего» материала) даёт заметно более стабильные результаты.
3.4 Качество подписей важнее, чем вы думаете
LTX-2 хорошо реагирует на более длинные, описательные подписи, особенно если вам нужны контролируемые результаты. Если ваши клипы включают речь или ключевые звуковые сигналы, включите их в подписи (или выдержки из транскрипции), когда ваш стек обучения это поддерживает.
Практические советы по подписям:
- Для LoRA идентичности: включайте стабильные токены идентичности (и варьируйте всё остальное: освещение, гардероб, фон, объектив).
- Для LoRA стиля: держите дескрипторы стиля стабильными и варьируйте субъекты/действия.
- Для LoRA движения: описывайте действие точно (темп, механика тела, движение камеры).
3.5 Регуляризация — ваш инструмент «анти-утечки» (используйте когда LoRA узкий)
Если вы обучаете узкую концепцию (один персонаж, один продукт), легко переобучиться и получить «всё выглядит как мой датасет». В AI Toolkit Differential Output Preservation (DOP) разработан для снижения такого дрейфа и естественно сочетается с датасетом «регуляризации».
Простой набор для регуляризации:
- Общие клипы/изображения в похожем кадрировании с вашим основным датасетом
- Подписи, соответствующие общему домену (но не ваш уникальный токен идентичности)
4. Как Ostris AI Toolkit понимает обучение
AI Toolkit — это по сути согласованный движок обучения, обёрнутый в UI: вы выбираете семейство модели, присоединяете датасеты, определяете цель LoRA + ранг и настраиваете оптимизацию + сэмплинг. Панели UI чётко соответствуют конфигурации обучения: Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.
Что это значит для вас: вам не нужны специфичные для модели скрипты для базовых операций, та же ментальная модель (ранг/шаги/LR/кэширование/регуляризация) применяется, но размер и видео-природа LTX-2 делают некоторые настройки более «чувствительными» (ранг, оптимизации VRAM, кадры).
Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA в AI Toolkit, чтобы панели UI и основные параметры имели смысл, прежде чем настраивать специфику LTX-2:
Обзор обучения LoRA в AI Toolkit
Если вы решаете, где запускать:
- Локальный AI Toolkit: лучше, если у вас уже есть совместимый GPU и вы хотите полный контроль над средой.
- RunComfy cloud AI Toolkit: лучше, если хотите пропустить настройку, обучать на GPU с высоким VRAM и итерировать быстрее с меньшим количеством проблем «не работает на моей машине»—особенно полезно для больших чекпоинтов LTX-2 и видео-нагрузок. ▶ Откройте RunComfy cloud AI Toolkit
5. Пошагово: Как обучить LoRA для LTX-2 в AI Toolkit
5.1 Создайте датасет в AI Toolkit
В панели Datasets / секции Dataset задания:
- Target Dataset: ваш загруженный датасет
- Default Caption: оставьте пустым, если не нужен глобальный суффикс
- Caption Dropout Rate: начните около 0.05 (помогает обобщению)
- Cache Latents: ON, если можете выделить дисковое пространство (большой выигрыш в скорости на повторах, но кэши латентов видео быстро растут)
- Num Frames:
- 1 для датасетов только из изображений
- 49 / 81 / 121 для видео, в зависимости от цели
- Resolutions: начните с 512 + 768 включёнными; избегайте 1024+ пока не проверите свою конфигурацию
Если вы делаете узкий LoRA идентичности, добавьте вторую запись датасета и отметьте её как Is Regularization (и держите её вес ниже или равным, в зависимости от желаемой агрессивности сохранения).
5.2 Новое Training Job → Model
В секции Model:
- Model Architecture: LTX-2 (если доступно в вашей сборке)
- Name or Path: Hugging Face model id для базовой модели (напр.
Lightricks/LTX-2) - Выбор чекпоинта: выберите чекпоинт dev для LTX-2 trainer LoRA:
- ltx-2-19b-dev — полная модель, обучаемая в bf16.
- Чекпоинт distilled предназначен в основном для быстрого инференса (8 шагов, CFG=1) и не является точкой старта по умолчанию для обучения LoRA, если только вы специально не хотите адаптировать дистиллированное поведение.
5.3 Квантование + опции VRAM
LTX-2 большой, поэтому вы часто будете использовать квантование/offload:
- Если у вас VRAM класса H100/H200, часто можно комфортнее работать в bf16.
- На GPU 24–48 GB квантование и режимы «Low VRAM» становятся необходимыми.
Две практические заметки:
- LTX-2 сам поставляется с официальными квантованными вариантами (fp8 / nvfp4) полной модели; можете ли вы обучать с этих весов, зависит от реализации вашего тренера.
- Отдельно, 8-битные оптимизаторы (напр. AdamW8bit) обычно используются для практичного обучения на потребительском оборудовании.
5.4 Target = LoRA + Ранг
Здесь Обучение LoRA LTX-2 отличается от меньших моделей.
- Target Type: LoRA
- Linear Rank: начните с 32
- Многие тренеры LoRA LTX-2 сообщают, что ранг 32 — практический минимум для хороших результатов.
- Если у вас есть запас VRAM и нужно больше ёмкости (сложный стиль, мульти-концепт), протестируйте 64.
5.5 Гиперпараметры обучения (надёжный первый запуск)
Начните с значений, которые не взорвутся:
- Batch Size: 1 (видео почти всегда здесь)
- Gradient Accumulation: 2–4, если хотите более стабильный эффективный батч (и можете позволить себе время)
- Steps:
- 2000–3000 для первого прохода
- больше, если у вас большой датасет или тонкий стиль
- Optimizer: AdamW8bit (обычный выбор для эффективности VRAM)
- Learning Rate: 0.0001 для начала, 0.00005 если видите переобучение или слишком быстрое «впечатывание» идентичности
- Weight Decay: ~0.0001
- Timestep Type / Bias: держите по умолчанию, если не знаете, зачем менять
- DOP / Blank Prompt Preservation: включите DOP, если видите утечку стиля или потерю базовой универсальности.
5.6 Сэмплинг во время обучения (не пропускайте)
Сэмплинг — ваша система раннего предупреждения для Обучения LoRA LTX-2. Используйте его.
- Sample Every: 250 шагов (хорошая каденция)
- Sampler / Scheduler: начните с того, что ваш пресет LTX-2 использует по умолчанию, экспериментируйте только после получения базовой линии.
- Guidance + шаги зависят от того, какой чекпоинт вы сэмплируете:
- Для запусков dev типичная отправная точка —
guidance ~4с25–30шагами сэмплинга. - Для distilled опубликованное поведение — 8 шагов, CFG=1, поэтому сэмплируйте с
guidance = 1иsteps = 8(иначе получите путаницу «почему это выглядит хуже?»). - Width/Height/Frames: соответствуйте вашему обучающему бакету (или репрезентативной цели)
Пишите сэмпл-промпты, соответствующие вашему реальному использованию:
- Включайте ваше триггер-слово (для LoRA идентичности).
- Включайте дескрипторы камеры/движения, если это важно.
- Держите один «скучный» промпт, который выявляет переобучение (простое освещение, простое действие).
6. Ожидаемое время Обучения LoRA LTX-2
Универсального числа нет — относитесь к времени выполнения как к практической оценке, которая может меняться в зависимости от кадров/разрешения, выбора offload/квантования и частоты сэмплирования.
Реалистичная ментальная модель:
- Кадры часто самый большой рычаг: 121 → 81 → 49 может быть разницей между «это обучается» и «это ползёт / OOM».
- Накладные расходы на сэмплинг могут соперничать со временем обучения, если вы часто сэмплируете большие видео.
Как грубый ориентир: на H100, с небольшим видео-датасетом (~20 клипов, 3–5с каждый), batch=1, rank=32 и включённым gradient checkpointing, типично видеть однозначные секунды на шаг обучения на бакете разрешения 768-ish со средней длиной бакета кадров (напр., 49–81 кадр). Ваше точное время шага будет сильно зависеть от I/O, кэширования и того, делаете ли вы предобработку с учётом аудио.
Также планируйте сэмплинг: превью «3 промпта × 25 шагов × 121 кадр @ 1024×768» легко может занять минуты каждый раз. Если вы сэмплируете каждые 250 шагов, эти накладные расходы быстро накапливаются на протяжении 2000-шагового запуска.
7. Типичные проблемы при Обучении LoRA LTX-2 (и как их исправить)
- Неправильное количество кадров: если ваш датасет использует 120 кадров вместо 121, вы получите ошибки или тихое несоответствие. Придерживайтесь количества кадров 8n+1 (1, 9, 17, 25, …, 49, 81, 121, …).
- Неправильные размеры: ширина/высота должны делиться на 32. Если вы используете пайплайн без автоматического padding, измените размер/бакет соответственно.
- Слишком низкий ранг: симптомы — «обучается, но ничего не меняется» или слабая сила идентичности/стиля даже при масштабе LoRA 1.0. Попробуйте ранг 32.
- Переобучение / утечка LoRA: ваш субъект появляется в несвязанных промптах. Включите DOP и добавьте датасет регуляризации.
- Слишком короткие подписи: соответствие промпту разрушается. Расширьте подписи (что, где, камера, движение, настроение; плюс аудио-подсказки/транскрипт если релевантно).
- Путаница с дистиллированным сэмплингом: если вы сэмплируете дистиллированный чекпоинт с 25+ шагами или CFG>1, вы тестируете его не так, как задумано. Используйте 8 шагов, CFG=1 для дистиллированных превью.
- VRAM OOM: сначала уменьшите кадры (121 → 81 → 49), затем разрешение (768 → 512), затем включите offload/квантование/кэширование.
8. Обучение LoRA LTX-2: Быстрый FAQ
Можно ли обучить LoRA LTX-2 только на изображениях?
Да, используйте датасет только из изображений и установите количество кадров в 1. Отлично для идентичности и стиля. Не подходит для изучения движения.
Dev vs дистиллированный чекпоинт для обучения LoRA?
Начните с ltx-2-19b-dev для Обучения LoRA LTX-2; он явно описан как гибкий/обучаемый в bf16. Дистиллированные чекпоинты предназначены в основном для быстрого инференса (8 шагов, CFG=1).
Какой ранг использовать?
Начните с 32. Это то, где многие ранние тренеры LTX-2 останавливаются для «реально учится».
Почему мои сэмплы выглядят дёргаными или непоследовательными?
Обычно комбинация: слишком длинные клипы для вашей VRAM (принудительный агрессивный offload), подписи не описывают движение/камеру, или настройки сэмплинга не соответствуют чекпоинту (особенно сэмплирование дистиллированного как dev). Уменьшите кадры, подтяните подписи и выровняйте guidance/шаги с чекпоинтом, который сэмплируете.
9. Узнать больше: Другие руководства по обучению LoRA с AI Toolkit
Если хотите сравнить рабочие процессы, датасеты и компромиссы параметров между семействами моделей, эти руководства — хорошие точки отсчёта:
- Wan 2.2 T2V 14B обучение LoRA текст-в-видео
- Wan 2.2 I2V 14B обучение LoRA изображение-в-видео
- Qwen Image 2512 обучение LoRA
- Qwen-Image-Edit-2511 обучение LoRA с AI Toolkit (мульти-изображение редактирование)
- Qwen-Image-Edit-2509 обучение LoRA с AI Toolkit (мульти-изображение редактирование)
- FLUX.2 Dev обучение LoRA с AI Toolkit
- Z-Image Turbo обучение LoRA с AI Toolkit (8-step Turbo)
Ready to start training?

