Гид по обучению LoRA FLUX.2 [dev] в Ostris AI Toolkit

Обучение LoRA FLUX.2-dev сильно отличается от обучения старых моделей SD. FLUX.2 [dev] объединяет огромный трансформер выпрямленного потока с 32B параметрами, текстовый кодировщик Mistral на 24B и высококачественный автоэнкодер, обрабатывая генерацию текст-в-изображение и редактирование изображений в одном checkpoint. Это руководство охватывает:

Что делает FLUX.2 [dev] особенным
Как эти проектные решения влияют на обучение LoRA
Как настроить AI Toolkit для различных конфигураций оборудования
Как настроить датасеты, триггеры и параметры для получения желаемого стиля / персонажа / поведения редактирования

Эта статья является частью серии обучения LoRA AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA AI Toolkit перед изучением того, как обучить LoRA для FLUX.2-dev.

Содержание

1. Понимание FLUX.2 [dev] для обучения LoRA
2. Какой тип FLUX.2 LoRA вы обучаете?
3. Специфичные для FLUX.2 детали, влияющие на настройки LoRA
4. Требования к оборудованию и VRAM для обучения LoRA FLUX.2
5. Проектирование датасетов для FLUX.2 LoRA
6. Пошагово: настройка обучения LoRA FLUX.2 dev в AI Toolkit
7. Отладка результатов LoRA FLUX.2 и улучшение качества
8. Использование вашего FLUX.2 LoRA в инференсе

1. Понимание FLUX.2 [dev] для обучения LoRA

Прежде чем трогать ползунки, полезно понять, что вы дообучаете.

1.1 Архитектура высокого уровня

Из официальной карточки модели FLUX.2-dev и анонса Black Forest Labs:

Базовая модель
FLUX.2 [dev] — это трансформер выпрямленного потока на 32B параметров (модель латентного потока в стиле DiT), обученный с нуля. Он объединяет генерацию текст-в-изображение и редактирование изображений (одиночное и мульти-референсное) в одном checkpoint.
Текстовый кодировщик
FLUX.2 [dev] использует Mistral Small 3.1 / 3.2 – 24B как vision-language текстовый кодировщик. Это ещё 24B параметров сверх 32B DiT.
Автоэнкодер (VAE)
Модель использует новый AutoencoderKLFlux2 с 32 латентными каналами (FLUX.1 использовал 16). Он спроектирован для высокоразрешающего редактирования и сохранения тонких текстур.
Унифицированная генерация + редактирование
Одна архитектура обрабатывает чистый текст-в-изображение, редактирование одного изображения и мульти-референсное редактирование.
Guidance-дистиллированный
FLUX.2 [dev] — guidance-дистиллированная модель: нет классического CFG с отдельными проходами.

Что это значит для LoRA:

Центральный трансформер огромен. Ранг LoRA нужно выбирать тщательно.
Текстовый кодировщик тяжёлый и центральный для поведения.
Одни веса обрабатывают T2I и редактирование.
Guidance особенный. Обычно тренируете с guidance_scale = 1.

2. Какой тип FLUX.2 LoRA вы обучаете?

С FLUX.2 [dev] сначала нужно решить, что должен делать адаптер. Базовая модель уже сильна в мульти-референсном редактировании и следовании сложным промптам.

Типичные цели для дообучения LoRA FLUX 2 dev:

Стилевой LoRA (T2I + редактирование) – Научить FLUX.2 определённому стилю живописи, цветокоррекции или виду рендера.
LoRA персонажа / идентичности – Моделировать конкретного человека с последовательными лицами/характеристиками.
LoRA объекта / реквизита / бренда – Захватить определённые продукты, логотипы или формы.
LoRA инструкций / редактирования – Изменить поведение, а не стиль.

3. Специфичные для FLUX.2 детали, влияющие на настройки LoRA

3.1 LoRA на объединённом трансформере (масштабирование ранга)

FLUX.2 [dev] объединяет проекции attention и MLP в очень широкие матрицы. Это означает:

Очень низкие ранги (4–8) часто слишком слабые.
Для стилевых или персонажных LoRA на FLUX.2 [dev] ранг 32 — хороший дефолт.
При ограниченной VRAM используйте ранг 8–16.
Для сложных брендов или идентичностей ранг 32–64 может помочь.

При FLUX.2 [dev] LoRA обучении модель обычно выигрывает от несколько более высоких рангов, чем старые модели, но вы платите VRAM и риском переобучения.

3.2 Guidance-дистиллированная модель: тренировка при `guidance_scale = 1`

Обучение: установите guidance_scale = 1.
Инференс: guidance_scale в диапазоне 2–4 работает хорошо.

3.3 Текстовый кодировщик огромен (и почему важно кэширование эмбеддингов)

Mistral 24B VLM, используемый как текстовый кодировщик FLUX.2, — около 24GB параметров.

В AI Toolkit:

С фиксированными подписями и без DOP: Включите Cache Text Embeddings.
С Differential Output Preservation (DOP): Нельзя кэшировать текстовые эмбеддинги.

3.4 Автоэнкодер и разрешение

FLUX.2 использует AutoencoderKLFlux2 с 32 латентными каналами. На практике тренировать LoRA FLUX2 dev при 768–1024 захватывает большинство преимуществ.

4. Требования к оборудованию и VRAM для обучения LoRA FLUX.2

4.1 Рекомендуемые настройки по уровню VRAM

Уровень A — GPU 16–24 GB (напр. 4070 Ti, 4080, 4090)

Что реалистично: AI Toolkit FLUX.2 dev LoRA возможен, но тесно. Batch Size = 1, 896–1024 px.
Ключевые настройки: Low VRAM ВКЛ, Layer Offloading ВКЛ, Transformer и Text Encoder в float8 (default).

Уровень B — GPU 32–48 GB (напр. RTX 6000 Ada, A6000)

Что реалистично: Обучение становится комфортным. Стилевые и персонажные LoRA при 1024×1024, 20–60+ изображений, 1000–3000 шагов.
Ключевые настройки: Batch Size = 1–2, Steps ≈ 1000–3000, Learning Rate = 0.0001, Linear Rank = 32.

Уровень C — GPU 64–96+ GB (напр. H100, H200 на RunComfy)

Что реалистично: 1024×1024, Batch Size = 2–4, DOP ВКЛ по умолчанию.
Ключевые настройки: Low VRAM ВЫКЛ, Linear Rank = 32–64.

4.2 Локальный AI Toolkit vs облачный AI Toolkit на RunComfy

Локально с AI Toolkit – установите с GitHub репозитория.
Облачный AI Toolkit на RunComfy – откройте облачный AI Toolkit на RunComfy и тренируйте на GPU H100/H200.

5. Проектирование датасетов для FLUX.2 LoRA

5.1 Сколько изображений?

Простой стилевой LoRA: около 15–30 курированных изображений.
LoRA персонажа/идентичности: около 20–60 изображений.
LoRA редактирования/инструкций: 50–200 троек (источник, цель, инструкция).

5.2 Стратегия подписей

То, что вы не описываете в подписи, «свободно» для LoRA привязать к вашему триггеру.

Стилевой LoRA: описывайте что на изображении, не описывайте медиум или стиль.

LoRA персонажа: используйте короткий уникальный триггер (напр. midnight_tarot) и слово класса (person, woman и т.д.).

5.3 Differential Output Preservation (DOP)

Стратегия регуляризации, которая штрафует LoRA за изменения, когда триггер отсутствует.

6. Пошагово: настройка обучения LoRA FLUX.2 [dev] в AI Toolkit

6.1 Первоначальная настройка

Установите AI Toolkit или откройте облачный AI Toolkit на RunComfy.

6.2 Подготовьте датасет

Соберите изображения и поместите в /ai-toolkit/datasets/flux2_midnight_tarot/.
Добавьте файлы подписей .txt. Используйте [trigger] в подписях.

6.3 Создайте новую задачу обучения

6.3.1 Панель JOB

Training Name: напр. flux2_midnight_tarot_v1.
Trigger Word: напр. midnight_tarot.

6.3.2 Панели MODEL & QUANTIZATION

Model Architecture: FLUX.2.
Name or Path: black-forest-labs/FLUX.2-dev.
Low VRAM: ВКЛ для Уровня A/B, ВЫКЛ для Уровня C.
Transformer и Text Encoder: float8 (default).

6.3.3 Панель TARGET

Target Type: LoRA.
Linear Rank: 32 как хороший дефолт.

6.3.4 Панели TRAINING & SAVE

Batch Size: 1 на 24–48GB, 2 на 64GB+.
Steps: стиль 800–2000, персонаж 1000–2500, инструкции 1500–3000.
Learning Rate: 0.0001.
Optimizer: AdamW8Bit.
Cache Text Embeddings: ВКЛ без DOP, ВЫКЛ с DOP.
Data Type: BF16.
Save Every: 250 шагов.

6.3.5 Regularization & Advanced

Differential Output Preservation: ВКЛ для сохранения базового поведения.
Do Differential Guidance: ВКЛ, Scale 3.

6.3.6 Панель DATASETS

Cache Latents: ВКЛ.
Resolutions: [768, 896, 1024] в зависимости от VRAM.

6.4 Настройка превью сэмплирования

Sample Every: 250 шагов.
Guidance Scale: 1.
Prompts: 2–4 репрезентативных промпта.

7. Отладка результатов LoRA FLUX.2 и улучшение качества

7.1 "GatedRepoError / 401" при загрузке FLUX.2-dev

Примите лицензию на Hugging Face, создайте Read токен и добавьте в настройках тренера.

7.2 "Ничего не меняется после 1000+ шагов"

Проверьте, применяется ли LoRA в сэмплировании.
Попробуйте Linear Rank = 16–32.
Learning Rate = 0.0001.
Удалите стилевые дескрипторы из подписей.

7.3 "Мой LoRA перезаписал базовую модель"

Включите Differential Output Preservation.
Уменьшите до 800–1500 шагов.
Linear Rank = 16, Learning Rate = 0.000075.

7.4 "CUDA out of memory"

Разрешение с 1024 → 896 или 768.
Gradient checkpointing и accumulation.
Квантизация FP8/4-bit.
Cache Latents ВКЛ.
Перенесите на H100/H200 на RunComfy.

8. Использование вашего FLUX.2 LoRA в инференсе

Run LoRA – откройте страницу Run LoRA для FLUX.2. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который вы обучили на RunComfy, или импортировать LoRA‑файл, обученный в AI Toolkit, а затем запускать инференс через playground или API. RunComfy использует ту же базовую модель и полное определение пайплайна AI Toolkit из вашей training‑конфигурации, поэтому что вы видели во время обучения, то и получите в инференсе — такое выравнивание training/inference помогает сохранять результаты согласованными с вашими training‑samples.
ComfyUI workflows – загрузите workflow как Flux 2 Dev.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample