AI Toolkit LoRA Training Guides

Обучение LoRA в Ostris AI Toolkit для диффузионных моделей

Это руководство проводит вас через LoRA fine-tuning в Ostris AI Toolkit для современных диффузионных моделей изображений и видео. Вы разберётесь в структуре тулкита, принципе работы LoRA-адаптеров, настройке ключевых параметров, а также в том, как обучать и дебажить LoRA локально или в облаке RunComfy.

Train Diffusion Models with Ostris AI Toolkit

Прокрутите горизонтально, чтобы увидеть всю форму

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Эта страница — обзор обучения LoRA с помощью Ostris AI Toolkit. Для рецепта под конкретную модель перейдите к одной из инструкций:

К концу этого гайда вы:

  • поймёте ключевые идеи LoRA‑обучения (что реально меняется при fine‑tuning),
  • разберётесь, как устроен AI Toolkit и за что отвечает каждый блок в UI,
  • поймёте, что делают важные параметры (learning rate, rank, steps, noise schedule, DOP и т. д.), чтобы настраивать их осознанно,
  • сможете обучать LoRA локально или в RunComfy Cloud AI Toolkit и затем использовать их в своих обычных генеративных пайплайнах.

Содержание

1. Что такое Ostris AI Toolkit? (LoRA‑тренер для diffusion‑моделей)

Ostris AI Toolkit — это обучающая платформа для diffusion‑моделей изображений и видео. Она не предназначена для языковых или аудиомоделей; всё, что поддерживается, — это либо классические DDPM‑подобные diffusion‑модели (например SD 1.5/SDXL), либо современные diffusion‑transformer семейства (Flux, Wan, Qwen‑Image, Z‑Image, OmniGen2). AI Toolkit ориентирован на обучение адаптеров: фактически вы обучаете небольшую LoRA (или аналогичный лёгкий адаптер) поверх замороженной базы, а не всю сеть целиком.

Ключевые возможности AI Toolkit для обучения LoRA

AI Toolkit даёт единый движок обучения и единый формат конфигурации для всех семейств. У каждой семьи есть пресеты, но структура общая: загрузка модели, квантование, описание адаптера LoRA/LoKr, гиперпараметры, работа с датасетом и правила сэмплирования. Поэтому интерфейс похож независимо от того, учите ли вы LoRA для Flux, Z‑Image Turbo или Wan.

AI Toolkit имеет CLI и полноценный Web UI. CLI запускает джобы из YAML‑конфигов; Web UI — графический слой над этими конфигами. В UI центральная точка — New Job (модель, тип адаптера и rank, learning rate/steps, датасеты, частота генерации sample‑картинок/видео). Панели Job/Model/Quantization/Target/Training/Regularization/Datasets/Sample позволяют почти не трогать YAML напрямую. Локально и в RunComfy Cloud AI Toolkit рабочий процесс одинаковый.


Встроенные инструменты

  • Квантование и Low‑VRAM режимы — 8/6/4‑bit (и 3‑bit с recovery adapter) для transformer + offloading, чтобы большие модели (Flux/Wan) помещались в 24–48GB VRAM с настраиваемым компромиссом скорость/качество.
  • LoRA / LoKr — выбор через Target Type между максимально совместимым LoRA и более компактным LoKr.
  • DOP (Differential Output Preservation) — регуляризация, которая сравнивает выход базы и выход с LoRA на regularization‑изображениях и штрафует нежелательные изменения, уменьшая “bleeding”.
  • Differential Guidance для turbo‑моделей — особенно актуально для Z‑Image Turbo: усиливает обучение “того, что должно измениться” относительно базы.
  • Multi‑stage noise training — отдельные стадии high‑noise/low‑noise для баланса структуры и деталей.
  • Кэш латентов и текстовых эмбеддинговCache Latents / Cache Text Embeddings меняют дисковое место на скорость и VRAM.
  • EMA — опциональная сглаженная копия весов LoRA для более стабильной сходимости.

2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)

AI Toolkit сейчас поддерживает:

  • IMAGE‑модели — одиночные изображения (Flux, Z‑Image Turbo, Qwen‑Image, SD и т. д.)
  • INSTRUCTION / EDIT‑модели — редактирование/инструкции (Qwen‑Image‑Edit, Flux Kontext, HiDream E1)
  • VIDEO‑модели — text‑to‑video и image‑to‑video (Wan 2.x)

2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)

AI Toolkit сейчас поддерживает:

  • IMAGE‑модели — одиночные изображения (Flux, Z‑Image Turbo, Qwen‑Image, SD и т. д.)
  • INSTRUCTION / EDIT‑модели — редактирование/инструкции (Qwen‑Image‑Edit, Flux Kontext, HiDream E1)
  • VIDEO‑модели — text‑to‑video и image‑to‑video (Wan 2.x)
Категория Семейство в UI AI Toolkit Требования / рекомендации по VRAM
IMAGE FLUX.1 / FLUX.2 VRAM: минимум 24GB. Рекомендовано: 48GB+ для rank 32–64 и 1024+ buckets.
INSTRUCTION FLUX.1‑Kontext‑dev VRAM: 24GB+ базово; 48GB+ комфортно при тяжёлых настройках.
IMAGE Qwen‑Image, Qwen Image 2512 VRAM: 24GB+ рекомендовано; 32GB+ комфортно.
INSTRUCTION Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511 VRAM: 32GB+ рекомендовано. 1024px часто ~27–28.5GB; 24GB обычно тяжело.
IMAGE Z‑Image Turbo VRAM: рассчитан на 16–24GB; rank 8–16 обычно достаточно.
VIDEO Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B) VRAM: 24GB возможно с осторожными настройками; 48GB+ комфортно.
VIDEO LTX-2 VRAM: 24–48GB с квантованием/offload; 48GB+ комфортно.
IMAGE SD 1.5, SDXL VRAM: SD 1.5 ~8GB+; SDXL ~12–16GB+.
IMAGE OmniGen2 / Chroma / Lumina2 VRAM: зависит от модели; 24GB — безопасная база, 48GB+ комфортно.
HiDream HiDream / HiDream E1 VRAM: обычно 48GB+ рекомендуемо.
IMAGE Flex.1 / Flex.2 VRAM: часто 12–16GB возможно, зависит от настроек.

3. Установка Ostris AI Toolkit локально и использование RunComfy Cloud AI Toolkit

3.1 Локальная установка (Linux/Windows)

См. официальный README.

Linux:

git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit

python3 -m venv venv
source venv/bin/activate

# PyTorch с CUDA (подберите версии при необходимости)
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
  --index-url https://download.pytorch.org/whl/cu126

pip3 install -r requirements.txt

Запуск Web UI:

cd ui
npm run build_and_start

UI будет на http://localhost:8675. Для удалённого запуска выставьте AI_TOOLKIT_AUTH.


3.2 RunComfy Cloud AI Toolkit (без локальной установки)

В cloud‑режиме:

  • всё запускается в облаке, вы работаете из браузера,
  • доступны большие GPU (80GB/141GB VRAM),
  • датасеты/конфиги/чекпойнты сохраняются в workspace RunComfy.

Открыть: RunComfy Cloud AI Toolkit


4. Обзор Web UI Ostris AI Toolkit (Dashboard, Datasets, New LoRA Job)

4.1 Dashboard и Training Queue

Dashboard — быстрый статус. Training Queue — контрольная точка, где вы смотрите состояние, логи, останавливаете/удаляете джобы и скачиваете результаты.


4.2 Datasets

На странице Datasets вы создаёте именованные датасеты для джобов, включая регуляризационные (для DOP).


4.3 New Job

New Job — центральный экран: Job/Model/Quantization/Target/Save/Training/Regularization/Datasets/Sample.


5. База LoRA‑обучения и ключевые гиперпараметры в AI Toolkit

LoRA добавляет low‑rank обновление к замороженным весам: W_new = W + alpha A B. Rank задаёт ёмкость; learning rate/steps — скорость и длительность обучения; датасет/captions — чему именно учится адаптер.


6. Как сопоставить концепции LoRA с параметрами AI Toolkit

Практические ориентиры:

  • Trigger Word можно “впрыскивать” в captions на уровне джоба.
  • Gated‑модели требуют HF_TOKEN.
  • На 24GB для Flux/Wan часто начинают с Transformer = 6-bit, Text Encoder = float8.
  • Rank обычно 16 для старта, 32 — если “слабо” и данных достаточно.
  • Старайтесь синхронизировать Save Every и Sample Every.
  • Cache Text Embeddings включайте только если текст статичен (без DOP/динамики).
  • DOP требует датасет с Is Regularization и captions без trigger.

7. Быстрый старт: обучаем рабочую LoRA в Ostris AI Toolkit

1) Подготовьте чистые данные, выберите уникальный trigger token.

2) Создайте датасет и проверьте счётчик/captions/разрешения.

3) В New Job меняйте только ключевое: trigger, rank, steps, learning rate, buckets.

4) Для samples используйте 3 промпта: activation / generalization / leak test.

5) Меняйте одну ручку за раз.


8. Troubleshooting LoRA‑обучения в AI Toolkit: частые ошибки и решения

  • Пустой датасет: проверить Datasets и Target Dataset.
  • HF ошибки: принять лицензию (если gated) и указать HF_TOKEN в .env.
  • CUDA OOM: снизить buckets/разрешение → rank → включить Low VRAM/усилить квантование → уменьшить sampling/batch.
  • Overfit/leak: выбрать более ранний чекпойнт, снизить steps/rank, слегка поднять weight decay, использовать DOP с regularization‑датасетом.

Ready to start training?