AI Toolkit LoRA Training Guides

Обучение LoRA LTX-2 с Ostris AI Toolkit

Руководство по обучению LoRA для LTX-2 в Ostris AI Toolkit. Разбираем особенности LTX-2 (нативный аудио-видео DiT, 19B чекпоинты), подготовку датасета для изображений или видео (8n+1 кадров, размеры кратны 32), безопасные стартовые параметры (rank 32, 2 000–3 000 steps, LR 1e-4/5e-5), сэмплинг во время обучения и типичные решения проблем VRAM, OOM и переобучения.

Train Diffusion Models with Ostris AI Toolkit

Прокрутите горизонтально, чтобы увидеть всю форму

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

LTX-2 — это базовая модель Diffusion Transformer (DiT) с открытыми весами, предназначенная для генерации синхронизированного видео и аудио в рамках одной модели. В отличие от «немых» видеомоделей, она построена как совместная аудио-видео система, позволяющая синхронизировать движение и звук во времени. В официальном релизе основное семейство чекпоинтов — класс 19B (с обучаемым вариантом «dev», несколькими квантованными вариантами и ускоренным дистиллированным вариантом).

Это руководство посвящено Обучению LoRA LTX-2 с использованием Ostris AI Toolkit. Цель — быстро сделать вас продуктивным: понять, в чём LTX-2 хорош, какие данные готовить, какие настройки AI Toolkit важны и какие «безопасны» для первого запуска.

Если вы не хотите устанавливать AI Toolkit локально, можете запустить его в браузере на облачных GPU RunComfy (H100 / H200).

▶ Начните здесь: RunComfy cloud AI Toolkit


Содержание


1. Почему LTX-2 ведёт себя иначе, чем другие цели для видео LoRA

Несколько особенностей LTX-2 напрямую влияют на подход к Обучению LoRA LTX-2:

  • Аудио-видео нативно: LTX-2 создан для генерации синхронизированного аудио и визуала в одной модели (не надстройка). Это отлично для «готовых кадров» (диалог, атмосфера, фоли), но также означает, что аудио-осознанный файнтюнинг зависит от того, обновляет ли ваш тренер аудио-путь и кросс-модальные компоненты (многие сторонние стеки обучения начинают с файнтюнинга только видео).
  • Он большой (чекпоинты класса 19B): Вы почувствуете это в VRAM, времени шага и том факте, что «маленькие ранги» часто недообучаются. Официальный список чекпоинтов включает:
    • ltx-2-19b-dev (обучаемый в bf16),
    • квантованные варианты dev (fp8 / nvfp4),
    • и ltx-2-19b-distilled (ускоренный инференс, 8 шагов, CFG=1).
  • Строгие ограничения формы: Ширина/высота должны делиться на 32, и количество кадров должно делиться на 8 + 1 (т.е. 8n+1: 1, 9, 17, 25, …, 121, …). Если ваш вход не соответствует, обычно нужно сделать padding (часто с -1) и затем обрезать до целевого размера/количества кадров.

2. Для чего лучше всего подходят LoRA LTX-2

На практике при LTX-2 19B обучении LoRA наибольшую ценность представляют следующие направления:

  • LoRA персонажа/идентичности: стабильное лицо, костюм, реквизит, «брендовый персонаж» и устойчивая идентичность при движении камеры.
  • LoRA стиля: арт-дирекшн (световой язык, стиль рендеринга, объективы, атмосфера плёночного материала), при этом субъекты остаются гибкими.
  • LoRA движения/хореографии: определённый паттерн движения (стиль цикла ходьбы, танцевальный характер, локомоция существа) или «как движется мир» (тряска ручной камеры, тайминг анимации).
  • LoRA поведения камеры: долли-ин/аут, ощущение крана/стрелы, орбитальный язык камеры, стабилизированная vs ручная камера.
  • (Продвинутый) LoRA аудио: стабильная палитра атмосферы, стиль фоли или голосоподобные характеристики—только если ваш стек обучения поддерживает файнтюнинг аудио-ветки.

Если у вас только изображения (не видео), вы всё равно можете эффективно обучить идентичность/стиль, но не ожидайте, что модель выучит временные паттерны движения из отдельных кадров.


3. Подготовка датасета для Обучения LoRA LTX-2

3.1 Выбор правильного «бюджета» длины клипа + разрешения

Стоимость дообучения LoRA LTX-2 масштабируется как с пространственным размером, так и с количеством кадров. Для первого LoRA держите всё просто:

  • Старт для идентичности/стиля:
    • Разрешение: 512–768-ish (в зависимости от GPU)
    • Кадры: 49 или 81 (короткие клипы обучаются быстрее; достаточно для временной согласованности)
  • Старт для движения/камеры:
    • Разрешение: 512 (или 768 если есть запас)
    • Кадры: 121 (хорошо для изучения движения; ~5 секунд при 24 fps)

Помните ограничение: кадры должны быть 8n+1.

3.2 Видео vs изображения (оба валидны)

Многие предполагают, что Обучение LoRA LTX-2 требует датасетов только из видео. На самом деле большинство практических стеков обучения могут работать с обоими:

  • Датасеты только из изображений (каждый сэмпл как «клип из 1 кадра»), или
  • Видео-датасеты (короткие связные клипы).

При использовании AI Toolkit обычно проще держать каждую запись датасета однородной (все изображения или все видео) и использовать отдельные записи, если нужно смешивать модальности.

  • Для изображений: frames = 1 удовлетворяет 8n+1.
  • Для видео: используйте короткие, связные клипы; избегайте длинных мульти-сценных сегментов.

Это важно для работы с персонажами: вы можете начать идентичность с изображений, затем уточнить движение короткими клипами.

3.3 Сколько данных нужно (реалистичный масштаб)?

Нет единого «официального минимума», но эти диапазоны — реалистичные отправные точки для ltx-2-19b LoRA:

  • LoRA на основе изображений (идентичность/реквизит/стиль): начните с ~20–50 чистых, разнообразных изображений. Если хотите большую устойчивость к освещению, объективам и композициям, ~50–150 курированных изображений обычно помогает больше, чем повторение почти-дубликатов.
  • LoRA на основе видео (движение/камера/временная согласованность): нацельтесь на ~20–60 коротких, связных клипов (кадры с одним действием), а не пару длинных видео. Для более широких или богатых движением целей масштабирование до ~50–150 коротких клипов (или примерно ~10–30 минут «хорошего» материала) даёт заметно более стабильные результаты.

3.4 Качество подписей важнее, чем вы думаете

LTX-2 хорошо реагирует на более длинные, описательные подписи, особенно если вам нужны контролируемые результаты. Если ваши клипы включают речь или ключевые звуковые сигналы, включите их в подписи (или выдержки из транскрипции), когда ваш стек обучения это поддерживает.

Практические советы по подписям:

  • Для LoRA идентичности: включайте стабильные токены идентичности (и варьируйте всё остальное: освещение, гардероб, фон, объектив).
  • Для LoRA стиля: держите дескрипторы стиля стабильными и варьируйте субъекты/действия.
  • Для LoRA движения: описывайте действие точно (темп, механика тела, движение камеры).

3.5 Регуляризация — ваш инструмент «анти-утечки» (используйте когда LoRA узкий)

Если вы обучаете узкую концепцию (один персонаж, один продукт), легко переобучиться и получить «всё выглядит как мой датасет». В AI Toolkit Differential Output Preservation (DOP) разработан для снижения такого дрейфа и естественно сочетается с датасетом «регуляризации».

Простой набор для регуляризации:

  • Общие клипы/изображения в похожем кадрировании с вашим основным датасетом
  • Подписи, соответствующие общему домену (но не ваш уникальный токен идентичности)

4. Как Ostris AI Toolkit понимает обучение

AI Toolkit — это по сути согласованный движок обучения, обёрнутый в UI: вы выбираете семейство модели, присоединяете датасеты, определяете цель LoRA + ранг и настраиваете оптимизацию + сэмплинг. Панели UI чётко соответствуют конфигурации обучения: Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.

Что это значит для вас: вам не нужны специфичные для модели скрипты для базовых операций, та же ментальная модель (ранг/шаги/LR/кэширование/регуляризация) применяется, но размер и видео-природа LTX-2 делают некоторые настройки более «чувствительными» (ранг, оптимизации VRAM, кадры).

Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA в AI Toolkit, чтобы панели UI и основные параметры имели смысл, прежде чем настраивать специфику LTX-2:

Обзор обучения LoRA в AI Toolkit

Если вы решаете, где запускать:

  • Локальный AI Toolkit: лучше, если у вас уже есть совместимый GPU и вы хотите полный контроль над средой.
  • RunComfy cloud AI Toolkit: лучше, если хотите пропустить настройку, обучать на GPU с высоким VRAM и итерировать быстрее с меньшим количеством проблем «не работает на моей машине»—особенно полезно для больших чекпоинтов LTX-2 и видео-нагрузок. ▶ Откройте RunComfy cloud AI Toolkit

5. Пошагово: Как обучить LoRA для LTX-2 в AI Toolkit

5.1 Создайте датасет в AI Toolkit

В панели Datasets / секции Dataset задания:

  • Target Dataset: ваш загруженный датасет
  • Default Caption: оставьте пустым, если не нужен глобальный суффикс
  • Caption Dropout Rate: начните около 0.05 (помогает обобщению)
  • Cache Latents: ON, если можете выделить дисковое пространство (большой выигрыш в скорости на повторах, но кэши латентов видео быстро растут)
  • Num Frames:
    • 1 для датасетов только из изображений
    • 49 / 81 / 121 для видео, в зависимости от цели
  • Resolutions: начните с 512 + 768 включёнными; избегайте 1024+ пока не проверите свою конфигурацию

Если вы делаете узкий LoRA идентичности, добавьте вторую запись датасета и отметьте её как Is Regularization (и держите её вес ниже или равным, в зависимости от желаемой агрессивности сохранения).

5.2 Новое Training Job → Model

В секции Model:

  • Model Architecture: LTX-2 (если доступно в вашей сборке)
  • Name or Path: Hugging Face model id для базовой модели (напр. Lightricks/LTX-2)
  • Выбор чекпоинта: выберите чекпоинт dev для LTX-2 trainer LoRA:
    • ltx-2-19b-dev — полная модель, обучаемая в bf16.
    • Чекпоинт distilled предназначен в основном для быстрого инференса (8 шагов, CFG=1) и не является точкой старта по умолчанию для обучения LoRA, если только вы специально не хотите адаптировать дистиллированное поведение.

5.3 Квантование + опции VRAM

LTX-2 большой, поэтому вы часто будете использовать квантование/offload:

  • Если у вас VRAM класса H100/H200, часто можно комфортнее работать в bf16.
  • На GPU 24–48 GB квантование и режимы «Low VRAM» становятся необходимыми.

Две практические заметки:

  • LTX-2 сам поставляется с официальными квантованными вариантами (fp8 / nvfp4) полной модели; можете ли вы обучать с этих весов, зависит от реализации вашего тренера.
  • Отдельно, 8-битные оптимизаторы (напр. AdamW8bit) обычно используются для практичного обучения на потребительском оборудовании.

5.4 Target = LoRA + Ранг

Здесь Обучение LoRA LTX-2 отличается от меньших моделей.

  • Target Type: LoRA
  • Linear Rank: начните с 32
    • Многие тренеры LoRA LTX-2 сообщают, что ранг 32 — практический минимум для хороших результатов.
    • Если у вас есть запас VRAM и нужно больше ёмкости (сложный стиль, мульти-концепт), протестируйте 64.

5.5 Гиперпараметры обучения (надёжный первый запуск)

Начните с значений, которые не взорвутся:

  • Batch Size: 1 (видео почти всегда здесь)
  • Gradient Accumulation: 2–4, если хотите более стабильный эффективный батч (и можете позволить себе время)
  • Steps:
    • 2000–3000 для первого прохода
    • больше, если у вас большой датасет или тонкий стиль
  • Optimizer: AdamW8bit (обычный выбор для эффективности VRAM)
  • Learning Rate: 0.0001 для начала, 0.00005 если видите переобучение или слишком быстрое «впечатывание» идентичности
  • Weight Decay: ~0.0001
  • Timestep Type / Bias: держите по умолчанию, если не знаете, зачем менять
  • DOP / Blank Prompt Preservation: включите DOP, если видите утечку стиля или потерю базовой универсальности.

5.6 Сэмплинг во время обучения (не пропускайте)

Сэмплинг — ваша система раннего предупреждения для Обучения LoRA LTX-2. Используйте его.

  • Sample Every: 250 шагов (хорошая каденция)
  • Sampler / Scheduler: начните с того, что ваш пресет LTX-2 использует по умолчанию, экспериментируйте только после получения базовой линии.
  • Guidance + шаги зависят от того, какой чекпоинт вы сэмплируете:
    • Для запусков dev типичная отправная точка — guidance ~4 с 25–30 шагами сэмплинга.
    • Для distilled опубликованное поведение — 8 шагов, CFG=1, поэтому сэмплируйте с guidance = 1 и steps = 8 (иначе получите путаницу «почему это выглядит хуже?»).
  • Width/Height/Frames: соответствуйте вашему обучающему бакету (или репрезентативной цели)

Пишите сэмпл-промпты, соответствующие вашему реальному использованию:

  • Включайте ваше триггер-слово (для LoRA идентичности).
  • Включайте дескрипторы камеры/движения, если это важно.
  • Держите один «скучный» промпт, который выявляет переобучение (простое освещение, простое действие).

6. Ожидаемое время Обучения LoRA LTX-2

Универсального числа нет — относитесь к времени выполнения как к практической оценке, которая может меняться в зависимости от кадров/разрешения, выбора offload/квантования и частоты сэмплирования.

Реалистичная ментальная модель:

  • Кадры часто самый большой рычаг: 121 → 81 → 49 может быть разницей между «это обучается» и «это ползёт / OOM».
  • Накладные расходы на сэмплинг могут соперничать со временем обучения, если вы часто сэмплируете большие видео.

Как грубый ориентир: на H100, с небольшим видео-датасетом (~20 клипов, 3–5с каждый), batch=1, rank=32 и включённым gradient checkpointing, типично видеть однозначные секунды на шаг обучения на бакете разрешения 768-ish со средней длиной бакета кадров (напр., 49–81 кадр). Ваше точное время шага будет сильно зависеть от I/O, кэширования и того, делаете ли вы предобработку с учётом аудио.

Также планируйте сэмплинг: превью «3 промпта × 25 шагов × 121 кадр @ 1024×768» легко может занять минуты каждый раз. Если вы сэмплируете каждые 250 шагов, эти накладные расходы быстро накапливаются на протяжении 2000-шагового запуска.


7. Типичные проблемы при Обучении LoRA LTX-2 (и как их исправить)

  • Неправильное количество кадров: если ваш датасет использует 120 кадров вместо 121, вы получите ошибки или тихое несоответствие. Придерживайтесь количества кадров 8n+1 (1, 9, 17, 25, …, 49, 81, 121, …).
  • Неправильные размеры: ширина/высота должны делиться на 32. Если вы используете пайплайн без автоматического padding, измените размер/бакет соответственно.
  • Слишком низкий ранг: симптомы — «обучается, но ничего не меняется» или слабая сила идентичности/стиля даже при масштабе LoRA 1.0. Попробуйте ранг 32.
  • Переобучение / утечка LoRA: ваш субъект появляется в несвязанных промптах. Включите DOP и добавьте датасет регуляризации.
  • Слишком короткие подписи: соответствие промпту разрушается. Расширьте подписи (что, где, камера, движение, настроение; плюс аудио-подсказки/транскрипт если релевантно).
  • Путаница с дистиллированным сэмплингом: если вы сэмплируете дистиллированный чекпоинт с 25+ шагами или CFG>1, вы тестируете его не так, как задумано. Используйте 8 шагов, CFG=1 для дистиллированных превью.
  • VRAM OOM: сначала уменьшите кадры (121 → 81 → 49), затем разрешение (768 → 512), затем включите offload/квантование/кэширование.

8. Обучение LoRA LTX-2: Быстрый FAQ

Можно ли обучить LoRA LTX-2 только на изображениях?

Да, используйте датасет только из изображений и установите количество кадров в 1. Отлично для идентичности и стиля. Не подходит для изучения движения.

Dev vs дистиллированный чекпоинт для обучения LoRA?

Начните с ltx-2-19b-dev для Обучения LoRA LTX-2; он явно описан как гибкий/обучаемый в bf16. Дистиллированные чекпоинты предназначены в основном для быстрого инференса (8 шагов, CFG=1).

Какой ранг использовать?

Начните с 32. Это то, где многие ранние тренеры LTX-2 останавливаются для «реально учится».

Почему мои сэмплы выглядят дёргаными или непоследовательными?

Обычно комбинация: слишком длинные клипы для вашей VRAM (принудительный агрессивный offload), подписи не описывают движение/камеру, или настройки сэмплинга не соответствуют чекпоинту (особенно сэмплирование дистиллированного как dev). Уменьшите кадры, подтяните подписи и выровняйте guidance/шаги с чекпоинтом, который сэмплируете.


9. Узнать больше: Другие руководства по обучению LoRA с AI Toolkit

Если хотите сравнить рабочие процессы, датасеты и компромиссы параметров между семействами моделей, эти руководства — хорошие точки отсчёта:

Ready to start training?