Гид по обучению LoRA для LTX-2 в Ostris AI Toolkit

LTX-2 — это базовая модель Diffusion Transformer (DiT) с открытыми весами, предназначенная для генерации синхронизированного видео и аудио в рамках одной модели. В отличие от «немых» видеомоделей, она построена как совместная аудио-видео система, позволяющая синхронизировать движение и звук во времени. В официальном релизе основное семейство чекпоинтов — класс 19B (с обучаемым вариантом «dev», несколькими квантованными вариантами и ускоренным дистиллированным вариантом).

Это руководство посвящено Обучению LoRA LTX-2 с использованием Ostris AI Toolkit. Цель — быстро сделать вас продуктивным: понять, в чём LTX-2 хорош, какие данные готовить, какие настройки AI Toolkit важны и какие «безопасны» для первого запуска.

Если вы не хотите устанавливать AI Toolkit локально, можете запустить его в браузере на облачных GPU RunComfy (H100 / H200).

▶ Начните здесь: RunComfy cloud AI Toolkit

Содержание

1. Почему LTX-2 ведёт себя иначе, чем другие цели для видео LoRA
2. Для чего лучше всего подходят LoRA LTX-2
3. Подготовка датасета для Обучения LoRA LTX-2
4. Как Ostris AI Toolkit понимает обучение
5. Пошагово: Как обучить LoRA для LTX-2 в AI Toolkit
6. Ожидаемое время Обучения LoRA LTX-2
7. Типичные проблемы при Обучении LoRA LTX-2 (и как их исправить)
8. Обучение LoRA LTX-2: Быстрый FAQ
9. Использование вашей LoRA LTX-2 после обучения
10. Узнать больше: Другие руководства по обучению LoRA с AI Toolkit

1. Почему LTX-2 ведёт себя иначе, чем другие цели для видео LoRA

Несколько особенностей LTX-2 напрямую влияют на подход к Обучению LoRA LTX-2:

Аудио-видео нативно: LTX-2 создан для генерации синхронизированного аудио и визуала в одной модели (не надстройка). Это отлично для «готовых кадров» (диалог, атмосфера, фоли), но также означает, что аудио-осознанный файнтюнинг зависит от того, обновляет ли ваш тренер аудио-путь и кросс-модальные компоненты (многие сторонние стеки обучения начинают с файнтюнинга только видео).
Он большой (чекпоинты класса 19B): Вы почувствуете это в VRAM, времени шага и том факте, что «маленькие ранги» часто недообучаются. Официальный список чекпоинтов включает:

ltx-2-19b-dev (обучаемый в bf16),
квантованные варианты dev (fp8 / nvfp4),
и ltx-2-19b-distilled (ускоренный инференс, 8 шагов, CFG=1).

Строгие ограничения формы: Ширина/высота должны делиться на 32, и количество кадров должно делиться на 8 + 1 (т.е. 8n+1: 1, 9, 17, 25, …, 121, …). Если ваш вход не соответствует, обычно нужно сделать padding (часто с -1) и затем обрезать до целевого размера/количества кадров.

2. Для чего лучше всего подходят LoRA LTX-2

На практике при LTX-2 19B обучении LoRA наибольшую ценность представляют следующие направления:

LoRA персонажа/идентичности: стабильное лицо, костюм, реквизит, «брендовый персонаж» и устойчивая идентичность при движении камеры.
LoRA стиля: арт-дирекшн (световой язык, стиль рендеринга, объективы, атмосфера плёночного материала), при этом субъекты остаются гибкими.
LoRA движения/хореографии: определённый паттерн движения (стиль цикла ходьбы, танцевальный характер, локомоция существа) или «как движется мир» (тряска ручной камеры, тайминг анимации).
LoRA поведения камеры: долли-ин/аут, ощущение крана/стрелы, орбитальный язык камеры, стабилизированная vs ручная камера.
(Продвинутый) LoRA аудио: стабильная палитра атмосферы, стиль фоли или голосоподобные характеристики—только если ваш стек обучения поддерживает файнтюнинг аудио-ветки.

Если у вас только изображения (не видео), вы всё равно можете эффективно обучить идентичность/стиль, но не ожидайте, что модель выучит временные паттерны движения из отдельных кадров.

3. Подготовка датасета для Обучения LoRA LTX-2

3.1 Выбор правильного «бюджета» длины клипа + разрешения

Стоимость дообучения LoRA LTX-2 масштабируется как с пространственным размером, так и с количеством кадров. Для первого LoRA держите всё просто:

Старт для идентичности/стиля:

Разрешение: 512–768-ish (в зависимости от GPU)
Кадры: 49 или 81 (короткие клипы обучаются быстрее; достаточно для временной согласованности)

Старт для движения/камеры:

Разрешение: 512 (или 768 если есть запас)
Кадры: 121 (хорошо для изучения движения; ~5 секунд при 24 fps)

Помните ограничение: кадры должны быть 8n+1.

3.2 Видео vs изображения (оба валидны)

Многие предполагают, что Обучение LoRA LTX-2 требует датасетов только из видео. На самом деле большинство практических стеков обучения могут работать с обоими:

Датасеты только из изображений (каждый сэмпл как «клип из 1 кадра»), или
Видео-датасеты (короткие связные клипы).

При использовании AI Toolkit обычно проще держать каждую запись датасета однородной (все изображения или все видео) и использовать отдельные записи, если нужно смешивать модальности.

Для изображений: frames = 1 удовлетворяет 8n+1.
Для видео: используйте короткие, связные клипы; избегайте длинных мульти-сценных сегментов.

Это важно для работы с персонажами: вы можете начать идентичность с изображений, затем уточнить движение короткими клипами.

3.3 Сколько данных нужно (реалистичный масштаб)?

Нет единого «официального минимума», но эти диапазоны — реалистичные отправные точки для ltx-2-19b LoRA:

LoRA на основе изображений (идентичность/реквизит/стиль): начните с ~20–50 чистых, разнообразных изображений. Если хотите большую устойчивость к освещению, объективам и композициям, ~50–150 курированных изображений обычно помогает больше, чем повторение почти-дубликатов.
LoRA на основе видео (движение/камера/временная согласованность): нацельтесь на ~20–60 коротких, связных клипов (кадры с одним действием), а не пару длинных видео. Для более широких или богатых движением целей масштабирование до ~50–150 коротких клипов (или примерно ~10–30 минут «хорошего» материала) даёт заметно более стабильные результаты.

3.4 Качество подписей важнее, чем вы думаете

LTX-2 хорошо реагирует на более длинные, описательные подписи, особенно если вам нужны контролируемые результаты. Если ваши клипы включают речь или ключевые звуковые сигналы, включите их в подписи (или выдержки из транскрипции), когда ваш стек обучения это поддерживает.

Практические советы по подписям:

Для LoRA идентичности: включайте стабильные токены идентичности (и варьируйте всё остальное: освещение, гардероб, фон, объектив).
Для LoRA стиля: держите дескрипторы стиля стабильными и варьируйте субъекты/действия.
Для LoRA движения: описывайте действие точно (темп, механика тела, движение камеры).

3.5 Регуляризация — ваш инструмент «анти-утечки» (используйте когда LoRA узкий)

Если вы обучаете узкую концепцию (один персонаж, один продукт), легко переобучиться и получить «всё выглядит как мой датасет». В AI Toolkit Differential Output Preservation (DOP) разработан для снижения такого дрейфа и естественно сочетается с датасетом «регуляризации».

Простой набор для регуляризации:

Общие клипы/изображения в похожем кадрировании с вашим основным датасетом
Подписи, соответствующие общему домену (но не ваш уникальный токен идентичности)

4. Как Ostris AI Toolkit понимает обучение

AI Toolkit — это по сути согласованный движок обучения, обёрнутый в UI: вы выбираете семейство модели, присоединяете датасеты, определяете цель LoRA + ранг и настраиваете оптимизацию + сэмплинг. Панели UI чётко соответствуют конфигурации обучения: Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.

Что это значит для вас: вам не нужны специфичные для модели скрипты для базовых операций, та же ментальная модель (ранг/шаги/LR/кэширование/регуляризация) применяется, но размер и видео-природа LTX-2 делают некоторые настройки более «чувствительными» (ранг, оптимизации VRAM, кадры).

Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA в AI Toolkit, чтобы панели UI и основные параметры имели смысл, прежде чем настраивать специфику LTX-2:

Обзор обучения LoRA в AI Toolkit

Если вы решаете, где запускать:

Локальный AI Toolkit: лучше, если у вас уже есть совместимый GPU и вы хотите полный контроль над средой.
RunComfy cloud AI Toolkit: лучше, если хотите пропустить настройку, обучать на GPU с высоким VRAM и итерировать быстрее с меньшим количеством проблем «не работает на моей машине»—особенно полезно для больших чекпоинтов LTX-2 и видео-нагрузок. ▶ Откройте RunComfy cloud AI Toolkit

5. Пошагово: Как обучить LoRA для LTX-2 в AI Toolkit

5.1 Создайте датасет в AI Toolkit

В панели Datasets / секции Dataset задания:

Target Dataset: ваш загруженный датасет
Default Caption: оставьте пустым, если не нужен глобальный суффикс
Caption Dropout Rate: начните около 0.05 (помогает обобщению)
Cache Latents: ON, если можете выделить дисковое пространство (большой выигрыш в скорости на повторах, но кэши латентов видео быстро растут)
Num Frames:

1 для датасетов только из изображений
49 / 81 / 121 для видео, в зависимости от цели

Resolutions: начните с 512 + 768 включёнными; избегайте 1024+ пока не проверите свою конфигурацию

Если вы делаете узкий LoRA идентичности, добавьте вторую запись датасета и отметьте её как Is Regularization (и держите её вес ниже или равным, в зависимости от желаемой агрессивности сохранения).

5.2 Новое Training Job → Model

В секции Model:

Model Architecture: LTX-2 (если доступно в вашей сборке)
Name or Path: Hugging Face model id для базовой модели (напр. Lightricks/LTX-2)
Выбор чекпоинта: выберите чекпоинт dev для LTX-2 trainer LoRA:

ltx-2-19b-dev — полная модель, обучаемая в bf16.
Чекпоинт distilled предназначен в основном для быстрого инференса (8 шагов, CFG=1) и не является точкой старта по умолчанию для обучения LoRA, если только вы специально не хотите адаптировать дистиллированное поведение.

5.3 Квантование + опции VRAM

LTX-2 большой, поэтому вы часто будете использовать квантование/offload:

Если у вас VRAM класса H100/H200, часто можно комфортнее работать в bf16.
На GPU 24–48 GB квантование и режимы «Low VRAM» становятся необходимыми.

Две практические заметки:

LTX-2 сам поставляется с официальными квантованными вариантами (fp8 / nvfp4) полной модели; можете ли вы обучать с этих весов, зависит от реализации вашего тренера.
Отдельно, 8-битные оптимизаторы (напр. AdamW8bit) обычно используются для практичного обучения на потребительском оборудовании.

5.4 Target = LoRA + Ранг

Здесь Обучение LoRA LTX-2 отличается от меньших моделей.

Target Type: LoRA
Linear Rank: начните с 32

Многие тренеры LoRA LTX-2 сообщают, что ранг 32 — практический минимум для хороших результатов.
Если у вас есть запас VRAM и нужно больше ёмкости (сложный стиль, мульти-концепт), протестируйте 64.

5.5 Гиперпараметры обучения (надёжный первый запуск)

Начните с значений, которые не взорвутся:

Batch Size: 1 (видео почти всегда здесь)
Gradient Accumulation: 2–4, если хотите более стабильный эффективный батч (и можете позволить себе время)
Steps:

2000–3000 для первого прохода
больше, если у вас большой датасет или тонкий стиль

Optimizer: AdamW8bit (обычный выбор для эффективности VRAM)
Learning Rate: 0.0001 для начала, 0.00005 если видите переобучение или слишком быстрое «впечатывание» идентичности
Weight Decay: ~0.0001
Timestep Type / Bias: держите по умолчанию, если не знаете, зачем менять
DOP / Blank Prompt Preservation: включите DOP, если видите утечку стиля или потерю базовой универсальности.

5.6 Сэмплинг во время обучения (не пропускайте)

Сэмплинг — ваша система раннего предупреждения для Обучения LoRA LTX-2. Используйте его.

Sample Every: 250 шагов (хорошая каденция)
Sampler / Scheduler: начните с того, что ваш пресет LTX-2 использует по умолчанию, экспериментируйте только после получения базовой линии.
Guidance + шаги зависят от того, какой чекпоинт вы сэмплируете:

Для запусков dev типичная отправная точка — guidance ~4 с 25–30 шагами сэмплинга.
Для distilled опубликованное поведение — 8 шагов, CFG=1, поэтому сэмплируйте с guidance = 1 и steps = 8 (иначе получите путаницу «почему это выглядит хуже?»).

Width/Height/Frames: соответствуйте вашему обучающему бакету (или репрезентативной цели)

Пишите сэмпл-промпты, соответствующие вашему реальному использованию:

Включайте ваше триггер-слово (для LoRA идентичности).
Включайте дескрипторы камеры/движения, если это важно.
Держите один «скучный» промпт, который выявляет переобучение (простое освещение, простое действие).

6. Ожидаемое время Обучения LoRA LTX-2

Универсального числа нет — относитесь к времени выполнения как к практической оценке, которая может меняться в зависимости от кадров/разрешения, выбора offload/квантования и частоты сэмплирования.

Реалистичная ментальная модель:

Кадры часто самый большой рычаг: 121 → 81 → 49 может быть разницей между «это обучается» и «это ползёт / OOM».
Накладные расходы на сэмплинг могут соперничать со временем обучения, если вы часто сэмплируете большие видео.

Как грубый ориентир: на H100, с небольшим видео-датасетом (~20 клипов, 3–5с каждый), batch=1, rank=32 и включённым gradient checkpointing, типично видеть однозначные секунды на шаг обучения на бакете разрешения 768-ish со средней длиной бакета кадров (напр., 49–81 кадр). Ваше точное время шага будет сильно зависеть от I/O, кэширования и того, делаете ли вы предобработку с учётом аудио.

Также планируйте сэмплинг: превью «3 промпта × 25 шагов × 121 кадр @ 1024×768» легко может занять минуты каждый раз. Если вы сэмплируете каждые 250 шагов, эти накладные расходы быстро накапливаются на протяжении 2000-шагового запуска.

7. Типичные проблемы при Обучении LoRA LTX-2 (и как их исправить)

Неправильное количество кадров: если ваш датасет использует 120 кадров вместо 121, вы получите ошибки или тихое несоответствие. Придерживайтесь количества кадров 8n+1 (1, 9, 17, 25, …, 49, 81, 121, …).
Неправильные размеры: ширина/высота должны делиться на 32. Если вы используете пайплайн без автоматического padding, измените размер/бакет соответственно.
Слишком низкий ранг: симптомы — «обучается, но ничего не меняется» или слабая сила идентичности/стиля даже при масштабе LoRA 1.0. Попробуйте ранг 32.
Переобучение / утечка LoRA: ваш субъект появляется в несвязанных промптах. Включите DOP и добавьте датасет регуляризации.
Слишком короткие подписи: соответствие промпту разрушается. Расширьте подписи (что, где, камера, движение, настроение; плюс аудио-подсказки/транскрипт если релевантно).
Путаница с дистиллированным сэмплингом: если вы сэмплируете дистиллированный чекпоинт с 25+ шагами или CFG>1, вы тестируете его не так, как задумано. Используйте 8 шагов, CFG=1 для дистиллированных превью.
VRAM OOM: сначала уменьшите кадры (121 → 81 → 49), затем разрешение (768 → 512), затем включите offload/квантование/кэширование.

8. Обучение LoRA LTX-2: Быстрый FAQ

Можно ли обучить LoRA LTX-2 только на изображениях?

Да, используйте датасет только из изображений и установите количество кадров в 1. Отлично для идентичности и стиля. Не подходит для изучения движения.

Dev vs дистиллированный чекпоинт для обучения LoRA?

Начните с ltx-2-19b-dev для Обучения LoRA LTX-2; он явно описан как гибкий/обучаемый в bf16. Дистиллированные чекпоинты предназначены в основном для быстрого инференса (8 шагов, CFG=1).

Какой ранг использовать?

Начните с 32. Это то, где многие ранние тренеры LTX-2 останавливаются для «реально учится».

Почему мои сэмплы выглядят дёргаными или непоследовательными?

Обычно комбинация: слишком длинные клипы для вашей VRAM (принудительный агрессивный offload), подписи не описывают движение/камеру, или настройки сэмплинга не соответствуют чекпоинту (особенно сэмплирование дистиллированного как dev). Уменьшите кадры, подтяните подписи и выровняйте guidance/шаги с чекпоинтом, который сэмплируете.

9. Использование вашей LoRA LTX-2 после обучения

После завершения обучения вы можете использовать вашу LoRA LTX-2 двумя простыми способами:

Run LoRA – откройте страницу Run LoRA для LTX-2. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который вы обучили на RunComfy, или импортировать LoRA‑файл, обученный в AI Toolkit, а затем запускать инференс через playground или API. RunComfy использует ту же базовую модель и полное определение пайплайна AI Toolkit из вашей training‑конфигурации, поэтому что вы видели во время обучения, то и получите в инференсе — такое выравнивание training/inference помогает сохранять результаты согласованными с вашими training‑samples.
Рабочие процессы ComfyUI – запустите ComfyUI, соберите свой workflow, подключите LoRA и настройте её вес и другие параметры для более детального контроля.

10. Узнать больше: Другие руководства по обучению LoRA с AI Toolkit

Если хотите сравнить рабочие процессы, датасеты и компромиссы параметров между семействами моделей, эти руководства — хорошие точки отсчёта:

Обучение LoRA LTX-2 с Ostris AI Toolkit

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample