Обучение LoRA в Ostris AI Toolkit для fine-tuning диффузионных моделей

Эта страница — обзор обучения LoRA с помощью Ostris AI Toolkit. Для рецепта под конкретную модель перейдите к одной из инструкций:

К концу этого гайда вы:

поймёте ключевые идеи LoRA‑обучения (что реально меняется при fine‑tuning),
разберётесь, как устроен AI Toolkit и за что отвечает каждый блок в UI,
поймёте, что делают важные параметры (learning rate, rank, steps, noise schedule, DOP и т. д.), чтобы настраивать их осознанно,
сможете обучать LoRA локально или в RunComfy Cloud AI Toolkit и затем использовать их в своих обычных генеративных пайплайнах.

Содержание

1. Что такое Ostris AI Toolkit? (LoRA‑тренер для diffusion‑моделей)
2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)
3. Установка Ostris AI Toolkit локально и использование RunComfy Cloud AI Toolkit
4. Обзор Web UI Ostris AI Toolkit (Dashboard, Datasets, New LoRA Job)
5. База LoRA‑обучения и ключевые гиперпараметры в AI Toolkit
6. Как сопоставить концепции LoRA с параметрами AI Toolkit
7. Быстрый старт: обучаем рабочую LoRA в Ostris AI Toolkit
8. Troubleshooting LoRA‑обучения в AI Toolkit: частые ошибки и решения

1. Что такое Ostris AI Toolkit? (LoRA‑тренер для diffusion‑моделей)

Ostris AI Toolkit — это обучающая платформа для diffusion‑моделей изображений и видео. Она не предназначена для языковых или аудиомоделей; всё, что поддерживается, — это либо классические DDPM‑подобные diffusion‑модели (например SD 1.5/SDXL), либо современные diffusion‑transformer семейства (Flux, Wan, Qwen‑Image, Z‑Image, OmniGen2). AI Toolkit ориентирован на обучение адаптеров: фактически вы обучаете небольшую LoRA (или аналогичный лёгкий адаптер) поверх замороженной базы, а не всю сеть целиком.

Ключевые возможности AI Toolkit для обучения LoRA

AI Toolkit даёт единый движок обучения и единый формат конфигурации для всех семейств. У каждой семьи есть пресеты, но структура общая: загрузка модели, квантование, описание адаптера LoRA/LoKr, гиперпараметры, работа с датасетом и правила сэмплирования. Поэтому интерфейс похож независимо от того, учите ли вы LoRA для Flux, Z‑Image Turbo или Wan.

AI Toolkit имеет CLI и полноценный Web UI. CLI запускает джобы из YAML‑конфигов; Web UI — графический слой над этими конфигами. В UI центральная точка — New Job (модель, тип адаптера и rank, learning rate/steps, датасеты, частота генерации sample‑картинок/видео). Панели Job/Model/Quantization/Target/Training/Regularization/Datasets/Sample позволяют почти не трогать YAML напрямую. Локально и в RunComfy Cloud AI Toolkit рабочий процесс одинаковый.

Встроенные инструменты

Квантование и Low‑VRAM режимы — 8/6/4‑bit (и 3‑bit с recovery adapter) для transformer + offloading, чтобы большие модели (Flux/Wan) помещались в 24–48GB VRAM с настраиваемым компромиссом скорость/качество.
LoRA / LoKr — выбор через Target Type между максимально совместимым LoRA и более компактным LoKr.
DOP (Differential Output Preservation) — регуляризация, которая сравнивает выход базы и выход с LoRA на regularization‑изображениях и штрафует нежелательные изменения, уменьшая “bleeding”.
Differential Guidance для turbo‑моделей — особенно актуально для Z‑Image Turbo: усиливает обучение “того, что должно измениться” относительно базы.
Multi‑stage noise training — отдельные стадии high‑noise/low‑noise для баланса структуры и деталей.
Кэш латентов и текстовых эмбеддингов — Cache Latents / Cache Text Embeddings меняют дисковое место на скорость и VRAM.
EMA — опциональная сглаженная копия весов LoRA для более стабильной сходимости.

2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)

AI Toolkit сейчас поддерживает:

IMAGE‑модели — одиночные изображения (Flux, Z‑Image Turbo, Qwen‑Image, SD и т. д.)
INSTRUCTION / EDIT‑модели — редактирование/инструкции (Qwen‑Image‑Edit, Flux Kontext, HiDream E1)
VIDEO‑модели — text‑to‑video и image‑to‑video (Wan 2.x)

2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)

AI Toolkit сейчас поддерживает:

IMAGE‑модели — одиночные изображения (Flux, Z‑Image Turbo, Qwen‑Image, SD и т. д.)
INSTRUCTION / EDIT‑модели — редактирование/инструкции (Qwen‑Image‑Edit, Flux Kontext, HiDream E1)
VIDEO‑модели — text‑to‑video и image‑to‑video (Wan 2.x)

Категория	Семейство в UI AI Toolkit	Требования / рекомендации по VRAM
IMAGE	FLUX.1 / FLUX.2	VRAM: минимум 24GB. Рекомендовано: 48GB+ для rank 32–64 и 1024+ buckets.
INSTRUCTION	FLUX.1‑Kontext‑dev	VRAM: 24GB+ базово; 48GB+ комфортно при тяжёлых настройках.
IMAGE	Qwen‑Image, Qwen Image 2512	VRAM: 24GB+ рекомендовано; 32GB+ комфортно.
INSTRUCTION	Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511	VRAM: 32GB+ рекомендовано. 1024px часто ~27–28.5GB; 24GB обычно тяжело.
IMAGE	Z‑Image Turbo	VRAM: рассчитан на 16–24GB; rank 8–16 обычно достаточно.
VIDEO	Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B)	VRAM: 24GB возможно с осторожными настройками; 48GB+ комфортно.
VIDEO	LTX-2	VRAM: 24–48GB с квантованием/offload; 48GB+ комфортно.
IMAGE	SD 1.5, SDXL	VRAM: SD 1.5 ~8GB+; SDXL ~12–16GB+.
IMAGE	OmniGen2 / Chroma / Lumina2	VRAM: зависит от модели; 24GB — безопасная база, 48GB+ комфортно.
HiDream	HiDream / HiDream E1	VRAM: обычно 48GB+ рекомендуемо.
IMAGE	Flex.1 / Flex.2	VRAM: часто 12–16GB возможно, зависит от настроек.

3. Установка Ostris AI Toolkit локально и использование RunComfy Cloud AI Toolkit

3.1 Локальная установка (Linux/Windows)

См. официальный README.

Linux:

git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit

python3 -m venv venv
source venv/bin/activate

# PyTorch с CUDA (подберите версии при необходимости)
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
  --index-url https://download.pytorch.org/whl/cu126

pip3 install -r requirements.txt

Запуск Web UI:

cd ui
npm run build_and_start

UI будет на http://localhost:8675. Для удалённого запуска выставьте AI_TOOLKIT_AUTH.

3.2 RunComfy Cloud AI Toolkit (без локальной установки)

В cloud‑режиме:

всё запускается в облаке, вы работаете из браузера,
доступны большие GPU (80GB/141GB VRAM),
датасеты/конфиги/чекпойнты сохраняются в workspace RunComfy.

Открыть: RunComfy Cloud AI Toolkit

4. Обзор Web UI Ostris AI Toolkit (Dashboard, Datasets, New LoRA Job)

4.1 Dashboard и Training Queue

Dashboard — быстрый статус. Training Queue — контрольная точка, где вы смотрите состояние, логи, останавливаете/удаляете джобы и скачиваете результаты.

4.2 Datasets

На странице Datasets вы создаёте именованные датасеты для джобов, включая регуляризационные (для DOP).

4.3 New Job

New Job — центральный экран: Job/Model/Quantization/Target/Save/Training/Regularization/Datasets/Sample.

5. База LoRA‑обучения и ключевые гиперпараметры в AI Toolkit

LoRA добавляет low‑rank обновление к замороженным весам: W_new = W + alpha A B. Rank задаёт ёмкость; learning rate/steps — скорость и длительность обучения; датасет/captions — чему именно учится адаптер.

6. Как сопоставить концепции LoRA с параметрами AI Toolkit

Практические ориентиры:

Trigger Word можно “впрыскивать” в captions на уровне джоба.
Gated‑модели требуют HF_TOKEN.
На 24GB для Flux/Wan часто начинают с Transformer = 6-bit, Text Encoder = float8.
Rank обычно 16 для старта, 32 — если “слабо” и данных достаточно.
Старайтесь синхронизировать Save Every и Sample Every.
Cache Text Embeddings включайте только если текст статичен (без DOP/динамики).
DOP требует датасет с Is Regularization и captions без trigger.

7. Быстрый старт: обучаем рабочую LoRA в Ostris AI Toolkit

1) Подготовьте чистые данные, выберите уникальный trigger token.

2) Создайте датасет и проверьте счётчик/captions/разрешения.

3) В New Job меняйте только ключевое: trigger, rank, steps, learning rate, buckets.

4) Для samples используйте 3 промпта: activation / generalization / leak test.

5) Меняйте одну ручку за раз.

8. Troubleshooting LoRA‑обучения в AI Toolkit: частые ошибки и решения

Пустой датасет: проверить Datasets и Target Dataset.
HF ошибки: принять лицензию (если gated) и указать HF_TOKEN в .env.
CUDA OOM: снизить buckets/разрешение → rank → включить Low VRAM/усилить квантование → уменьшить sampling/batch.
Overfit/leak: выбрать более ранний чекпойнт, снизить steps/rank, слегка поднять weight decay, использовать DOP с regularization‑датасетом.

Обучение LoRA в Ostris AI Toolkit для диффузионных моделей

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Содержание

1. Что такое Ostris AI Toolkit? (LoRA‑тренер для diffusion‑моделей)

Ключевые возможности AI Toolkit для обучения LoRA

Встроенные инструменты

2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)

2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)

3. Установка Ostris AI Toolkit локально и использование RunComfy Cloud AI Toolkit

3.1 Локальная установка (Linux/Windows)

3.2 RunComfy Cloud AI Toolkit (без локальной установки)

4. Обзор Web UI Ostris AI Toolkit (Dashboard, Datasets, New LoRA Job)

4.1 Dashboard и Training Queue

4.2 Datasets

4.3 New Job

5. База LoRA‑обучения и ключевые гиперпараметры в AI Toolkit

6. Как сопоставить концепции LoRA с параметрами AI Toolkit

7. Быстрый старт: обучаем рабочую LoRA в Ostris AI Toolkit

8. Troubleshooting LoRA‑обучения в AI Toolkit: частые ошибки и решения