Эта страница — обзор обучения LoRA с помощью Ostris AI Toolkit. Для рецепта под конкретную модель перейдите к одной из инструкций:
- Обучение LoRA для FLUX.2 Dev в AI Toolkit
- Обучение LoRA для LTX-2 в AI Toolkit
- Обучение LoRA для Z‑Image Turbo в AI Toolkit
- Обучение LoRA для Qwen Image 2512 в AI Toolkit
- Обучение LoRA для Qwen‑Image‑Edit‑2511 в AI Toolkit
- Обучение LoRA для Qwen‑Image‑Edit‑2509 в AI Toolkit
- Обучение LoRA для Wan 2.2 I2V 14B в AI Toolkit
- Обучение LoRA для Wan 2.2 T2V 14B в AI Toolkit
К концу этого гайда вы:
- поймёте ключевые идеи LoRA‑обучения (что реально меняется при fine‑tuning),
- разберётесь, как устроен AI Toolkit и за что отвечает каждый блок в UI,
- поймёте, что делают важные параметры (learning rate, rank, steps, noise schedule, DOP и т. д.), чтобы настраивать их осознанно,
- сможете обучать LoRA локально или в RunComfy Cloud AI Toolkit и затем использовать их в своих обычных генеративных пайплайнах.
Содержание
- 1. Что такое Ostris AI Toolkit? (LoRA‑тренер для diffusion‑моделей)
- 2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)
- 3. Установка Ostris AI Toolkit локально и использование RunComfy Cloud AI Toolkit
- 4. Обзор Web UI Ostris AI Toolkit (Dashboard, Datasets, New LoRA Job)
- 5. База LoRA‑обучения и ключевые гиперпараметры в AI Toolkit
- 6. Как сопоставить концепции LoRA с параметрами AI Toolkit
- 7. Быстрый старт: обучаем рабочую LoRA в Ostris AI Toolkit
- 8. Troubleshooting LoRA‑обучения в AI Toolkit: частые ошибки и решения
1. Что такое Ostris AI Toolkit? (LoRA‑тренер для diffusion‑моделей)
Ostris AI Toolkit — это обучающая платформа для diffusion‑моделей изображений и видео. Она не предназначена для языковых или аудиомоделей; всё, что поддерживается, — это либо классические DDPM‑подобные diffusion‑модели (например SD 1.5/SDXL), либо современные diffusion‑transformer семейства (Flux, Wan, Qwen‑Image, Z‑Image, OmniGen2). AI Toolkit ориентирован на обучение адаптеров: фактически вы обучаете небольшую LoRA (или аналогичный лёгкий адаптер) поверх замороженной базы, а не всю сеть целиком.
Ключевые возможности AI Toolkit для обучения LoRA
AI Toolkit даёт единый движок обучения и единый формат конфигурации для всех семейств. У каждой семьи есть пресеты, но структура общая: загрузка модели, квантование, описание адаптера LoRA/LoKr, гиперпараметры, работа с датасетом и правила сэмплирования. Поэтому интерфейс похож независимо от того, учите ли вы LoRA для Flux, Z‑Image Turbo или Wan.
AI Toolkit имеет CLI и полноценный Web UI. CLI запускает джобы из YAML‑конфигов; Web UI — графический слой над этими конфигами. В UI центральная точка — New Job (модель, тип адаптера и rank, learning rate/steps, датасеты, частота генерации sample‑картинок/видео). Панели Job/Model/Quantization/Target/Training/Regularization/Datasets/Sample позволяют почти не трогать YAML напрямую. Локально и в RunComfy Cloud AI Toolkit рабочий процесс одинаковый.
Встроенные инструменты
- Квантование и Low‑VRAM режимы — 8/6/4‑bit (и 3‑bit с recovery adapter) для transformer + offloading, чтобы большие модели (Flux/Wan) помещались в 24–48GB VRAM с настраиваемым компромиссом скорость/качество.
- LoRA / LoKr — выбор через
Target Typeмежду максимально совместимым LoRA и более компактным LoKr. - DOP (Differential Output Preservation) — регуляризация, которая сравнивает выход базы и выход с LoRA на regularization‑изображениях и штрафует нежелательные изменения, уменьшая “bleeding”.
- Differential Guidance для turbo‑моделей — особенно актуально для Z‑Image Turbo: усиливает обучение “того, что должно измениться” относительно базы.
- Multi‑stage noise training — отдельные стадии high‑noise/low‑noise для баланса структуры и деталей.
- Кэш латентов и текстовых эмбеддингов —
Cache Latents/Cache Text Embeddingsменяют дисковое место на скорость и VRAM. - EMA — опциональная сглаженная копия весов LoRA для более стабильной сходимости.
2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)
AI Toolkit сейчас поддерживает:
- IMAGE‑модели — одиночные изображения (Flux, Z‑Image Turbo, Qwen‑Image, SD и т. д.)
- INSTRUCTION / EDIT‑модели — редактирование/инструкции (Qwen‑Image‑Edit, Flux Kontext, HiDream E1)
- VIDEO‑модели — text‑to‑video и image‑to‑video (Wan 2.x)
2. Поддерживаемые модели в Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)
AI Toolkit сейчас поддерживает:
- IMAGE‑модели — одиночные изображения (Flux, Z‑Image Turbo, Qwen‑Image, SD и т. д.)
- INSTRUCTION / EDIT‑модели — редактирование/инструкции (Qwen‑Image‑Edit, Flux Kontext, HiDream E1)
- VIDEO‑модели — text‑to‑video и image‑to‑video (Wan 2.x)
| Категория | Семейство в UI AI Toolkit | Требования / рекомендации по VRAM |
|---|---|---|
| IMAGE | FLUX.1 / FLUX.2 | VRAM: минимум 24GB. Рекомендовано: 48GB+ для rank 32–64 и 1024+ buckets. |
| INSTRUCTION | FLUX.1‑Kontext‑dev | VRAM: 24GB+ базово; 48GB+ комфортно при тяжёлых настройках. |
| IMAGE | Qwen‑Image, Qwen Image 2512 | VRAM: 24GB+ рекомендовано; 32GB+ комфортно. |
| INSTRUCTION | Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511 | VRAM: 32GB+ рекомендовано. 1024px часто ~27–28.5GB; 24GB обычно тяжело. |
| IMAGE | Z‑Image Turbo | VRAM: рассчитан на 16–24GB; rank 8–16 обычно достаточно. |
| VIDEO | Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B) | VRAM: 24GB возможно с осторожными настройками; 48GB+ комфортно. |
| VIDEO | LTX-2 | VRAM: 24–48GB с квантованием/offload; 48GB+ комфортно. |
| IMAGE | SD 1.5, SDXL | VRAM: SD 1.5 ~8GB+; SDXL ~12–16GB+. |
| IMAGE | OmniGen2 / Chroma / Lumina2 | VRAM: зависит от модели; 24GB — безопасная база, 48GB+ комфортно. |
| HiDream | HiDream / HiDream E1 | VRAM: обычно 48GB+ рекомендуемо. |
| IMAGE | Flex.1 / Flex.2 | VRAM: часто 12–16GB возможно, зависит от настроек. |
3. Установка Ostris AI Toolkit локально и использование RunComfy Cloud AI Toolkit
3.1 Локальная установка (Linux/Windows)
См. официальный README.
Linux:
git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit
python3 -m venv venv
source venv/bin/activate
# PyTorch с CUDA (подберите версии при необходимости)
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
--index-url https://download.pytorch.org/whl/cu126
pip3 install -r requirements.txt
Запуск Web UI:
cd ui
npm run build_and_start
UI будет на http://localhost:8675. Для удалённого запуска выставьте AI_TOOLKIT_AUTH.
3.2 RunComfy Cloud AI Toolkit (без локальной установки)
В cloud‑режиме:
- всё запускается в облаке, вы работаете из браузера,
- доступны большие GPU (80GB/141GB VRAM),
- датасеты/конфиги/чекпойнты сохраняются в workspace RunComfy.
Открыть: RunComfy Cloud AI Toolkit
4. Обзор Web UI Ostris AI Toolkit (Dashboard, Datasets, New LoRA Job)
4.1 Dashboard и Training Queue
Dashboard — быстрый статус. Training Queue — контрольная точка, где вы смотрите состояние, логи, останавливаете/удаляете джобы и скачиваете результаты.
4.2 Datasets
На странице Datasets вы создаёте именованные датасеты для джобов, включая регуляризационные (для DOP).
4.3 New Job
New Job — центральный экран: Job/Model/Quantization/Target/Save/Training/Regularization/Datasets/Sample.
5. База LoRA‑обучения и ключевые гиперпараметры в AI Toolkit
LoRA добавляет low‑rank обновление к замороженным весам: W_new = W + alpha A B. Rank задаёт ёмкость; learning rate/steps — скорость и длительность обучения; датасет/captions — чему именно учится адаптер.
6. Как сопоставить концепции LoRA с параметрами AI Toolkit
Практические ориентиры:
Trigger Wordможно “впрыскивать” в captions на уровне джоба.- Gated‑модели требуют
HF_TOKEN. - На 24GB для Flux/Wan часто начинают с
Transformer = 6-bit,Text Encoder = float8. - Rank обычно 16 для старта, 32 — если “слабо” и данных достаточно.
- Старайтесь синхронизировать
Save EveryиSample Every. Cache Text Embeddingsвключайте только если текст статичен (без DOP/динамики).- DOP требует датасет с
Is Regularizationи captions без trigger.
7. Быстрый старт: обучаем рабочую LoRA в Ostris AI Toolkit
1) Подготовьте чистые данные, выберите уникальный trigger token.
2) Создайте датасет и проверьте счётчик/captions/разрешения.
3) В New Job меняйте только ключевое: trigger, rank, steps, learning rate, buckets.
4) Для samples используйте 3 промпта: activation / generalization / leak test.
5) Меняйте одну ручку за раз.
8. Troubleshooting LoRA‑обучения в AI Toolkit: частые ошибки и решения
- Пустой датасет: проверить Datasets и
Target Dataset. - HF ошибки: принять лицензию (если gated) и указать
HF_TOKENв.env. - CUDA OOM: снизить buckets/разрешение → rank → включить Low VRAM/усилить квантование → уменьшить sampling/batch.
- Overfit/leak: выбрать более ранний чекпойнт, снизить steps/rank, слегка поднять weight decay, использовать DOP с regularization‑датасетом.
Ready to start training?

