AI Toolkit LoRA Training Guides

Гид по обучению LoRA FLUX.2 [dev] в Ostris AI Toolkit

Эта статья пошагово показывает, как делать fine-tuning FLUX.2 [dev] с LoRA через Ostris AI Toolkit. Вы узнаете, чем FLUX.2 отличается, как dual transformer и text encoder влияют на rank и VRAM, и как собрать датасеты и конфиги обучения, которые работают от 24GB видеокарт до H100/H200, с подходящими настройками квантования.

Train Diffusion Models with Ostris AI Toolkit

Прокрутите горизонтально, чтобы увидеть всю форму

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Обучение LoRA FLUX.2-dev сильно отличается от обучения старых моделей SD. FLUX.2 [dev] объединяет огромный трансформер выпрямленного потока с 32B параметрами, текстовый кодировщик Mistral на 24B и высококачественный автоэнкодер, обрабатывая генерацию текст-в-изображение и редактирование изображений в одном checkpoint. Это руководство охватывает:

  • Что делает FLUX.2 [dev] особенным
  • Как эти проектные решения влияют на обучение LoRA
  • Как настроить AI Toolkit для различных конфигураций оборудования
  • Как настроить датасеты, триггеры и параметры для получения желаемого стиля / персонажа / поведения редактирования

Эта статья является частью серии обучения LoRA AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA AI Toolkit перед изучением того, как обучить LoRA для FLUX.2-dev.

Содержание


1. Понимание FLUX.2 [dev] для обучения LoRA

Прежде чем трогать ползунки, полезно понять, что вы дообучаете.

1.1 Архитектура высокого уровня

Из официальной карточки модели FLUX.2-dev и анонса Black Forest Labs:

  • Базовая модель

    FLUX.2 [dev] — это трансформер выпрямленного потока на 32B параметров (модель латентного потока в стиле DiT), обученный с нуля. Он объединяет генерацию текст-в-изображение и редактирование изображений (одиночное и мульти-референсное) в одном checkpoint.

  • Текстовый кодировщик

    FLUX.2 [dev] использует Mistral Small 3.1 / 3.2 – 24B как vision-language текстовый кодировщик. Это ещё 24B параметров сверх 32B DiT.

  • Автоэнкодер (VAE)

    Модель использует новый AutoencoderKLFlux2 с 32 латентными каналами (FLUX.1 использовал 16). Он спроектирован для высокоразрешающего редактирования и сохранения тонких текстур.

  • Унифицированная генерация + редактирование

    Одна архитектура обрабатывает чистый текст-в-изображение, редактирование одного изображения и мульти-референсное редактирование.

  • Guidance-дистиллированный

    FLUX.2 [dev] — guidance-дистиллированная модель: нет классического CFG с отдельными проходами.

Что это значит для LoRA:

  1. Центральный трансформер огромен. Ранг LoRA нужно выбирать тщательно.
  2. Текстовый кодировщик тяжёлый и центральный для поведения.
  3. Одни веса обрабатывают T2I и редактирование.
  4. Guidance особенный. Обычно тренируете с guidance_scale = 1.

2. Какой тип FLUX.2 LoRA вы обучаете?

С FLUX.2 [dev] сначала нужно решить, что должен делать адаптер. Базовая модель уже сильна в мульти-референсном редактировании и следовании сложным промптам.

Типичные цели для дообучения LoRA FLUX 2 dev:

  1. Стилевой LoRA (T2I + редактирование) – Научить FLUX.2 определённому стилю живописи, цветокоррекции или виду рендера.
  2. LoRA персонажа / идентичности – Моделировать конкретного человека с последовательными лицами/характеристиками.
  3. LoRA объекта / реквизита / бренда – Захватить определённые продукты, логотипы или формы.
  4. LoRA инструкций / редактирования – Изменить поведение, а не стиль.

3. Специфичные для FLUX.2 детали, влияющие на настройки LoRA

3.1 LoRA на объединённом трансформере (масштабирование ранга)

FLUX.2 [dev] объединяет проекции attention и MLP в очень широкие матрицы. Это означает:

  • Очень низкие ранги (4–8) часто слишком слабые.
  • Для стилевых или персонажных LoRA на FLUX.2 [dev] ранг 32 — хороший дефолт.
  • При ограниченной VRAM используйте ранг 8–16.
  • Для сложных брендов или идентичностей ранг 32–64 может помочь.

При FLUX.2 [dev] LoRA обучении модель обычно выигрывает от несколько более высоких рангов, чем старые модели, но вы платите VRAM и риском переобучения.


3.2 Guidance-дистиллированная модель: тренировка при guidance_scale = 1

  • Обучение: установите guidance_scale = 1.
  • Инференс: guidance_scale в диапазоне 2–4 работает хорошо.

3.3 Текстовый кодировщик огромен (и почему важно кэширование эмбеддингов)

Mistral 24B VLM, используемый как текстовый кодировщик FLUX.2, — около 24GB параметров.

В AI Toolkit:

  • С фиксированными подписями и без DOP: Включите Cache Text Embeddings.
  • С Differential Output Preservation (DOP): Нельзя кэшировать текстовые эмбеддинги.

3.4 Автоэнкодер и разрешение

FLUX.2 использует AutoencoderKLFlux2 с 32 латентными каналами. На практике тренировать LoRA FLUX2 dev при 768–1024 захватывает большинство преимуществ.


4. Требования к оборудованию и VRAM для обучения LoRA FLUX.2

4.1 Рекомендуемые настройки по уровню VRAM

Уровень A — GPU 16–24 GB (напр. 4070 Ti, 4080, 4090)

  • Что реалистично: AI Toolkit FLUX.2 dev LoRA возможен, но тесно. Batch Size = 1, 896–1024 px.
  • Ключевые настройки: Low VRAM ВКЛ, Layer Offloading ВКЛ, Transformer и Text Encoder в float8 (default).

Уровень B — GPU 32–48 GB (напр. RTX 6000 Ada, A6000)

  • Что реалистично: Обучение становится комфортным. Стилевые и персонажные LoRA при 1024×1024, 20–60+ изображений, 1000–3000 шагов.
  • Ключевые настройки: Batch Size = 1–2, Steps ≈ 1000–3000, Learning Rate = 0.0001, Linear Rank = 32.

Уровень C — GPU 64–96+ GB (напр. H100, H200 на RunComfy)

  • Что реалистично: 1024×1024, Batch Size = 2–4, DOP ВКЛ по умолчанию.
  • Ключевые настройки: Low VRAM ВЫКЛ, Linear Rank = 32–64.

4.2 Локальный AI Toolkit vs облачный AI Toolkit на RunComfy


5. Проектирование датасетов для FLUX.2 LoRA

5.1 Сколько изображений?

  • Простой стилевой LoRA: около 15–30 курированных изображений.
  • LoRA персонажа/идентичности: около 20–60 изображений.
  • LoRA редактирования/инструкций: 50–200 троек (источник, цель, инструкция).

5.2 Стратегия подписей

То, что вы не описываете в подписи, «свободно» для LoRA привязать к вашему триггеру.

Стилевой LoRA: описывайте что на изображении, не описывайте медиум или стиль.

LoRA персонажа: используйте короткий уникальный триггер (напр. midnight_tarot) и слово класса (person, woman и т.д.).

5.3 Differential Output Preservation (DOP)

Стратегия регуляризации, которая штрафует LoRA за изменения, когда триггер отсутствует.


6. Пошагово: настройка обучения LoRA FLUX.2 [dev] в AI Toolkit

6.1 Первоначальная настройка

6.2 Подготовьте датасет

  • Соберите изображения и поместите в /ai-toolkit/datasets/flux2_midnight_tarot/.
  • Добавьте файлы подписей .txt. Используйте [trigger] в подписях.

6.3 Создайте новую задачу обучения

6.3.1 Панель JOB

  • Training Name: напр. flux2_midnight_tarot_v1.
  • Trigger Word: напр. midnight_tarot.

6.3.2 Панели MODEL & QUANTIZATION

  • Model Architecture: FLUX.2.
  • Name or Path: black-forest-labs/FLUX.2-dev.
  • Low VRAM: ВКЛ для Уровня A/B, ВЫКЛ для Уровня C.
  • Transformer и Text Encoder: float8 (default).

6.3.3 Панель TARGET

  • Target Type: LoRA.
  • Linear Rank: 32 как хороший дефолт.

6.3.4 Панели TRAINING & SAVE

  • Batch Size: 1 на 24–48GB, 2 на 64GB+.
  • Steps: стиль 800–2000, персонаж 1000–2500, инструкции 1500–3000.
  • Learning Rate: 0.0001.
  • Optimizer: AdamW8Bit.
  • Cache Text Embeddings: ВКЛ без DOP, ВЫКЛ с DOP.
  • Data Type: BF16.
  • Save Every: 250 шагов.

6.3.5 Regularization & Advanced

  • Differential Output Preservation: ВКЛ для сохранения базового поведения.
  • Do Differential Guidance: ВКЛ, Scale 3.

6.3.6 Панель DATASETS

  • Cache Latents: ВКЛ.
  • Resolutions: [768, 896, 1024] в зависимости от VRAM.

6.4 Настройка превью сэмплирования

  • Sample Every: 250 шагов.
  • Guidance Scale: 1.
  • Prompts: 2–4 репрезентативных промпта.

7. Отладка результатов LoRA FLUX.2 и улучшение качества

7.1 "GatedRepoError / 401" при загрузке FLUX.2-dev

Примите лицензию на Hugging Face, создайте Read токен и добавьте в настройках тренера.

7.2 "Ничего не меняется после 1000+ шагов"

  • Проверьте, применяется ли LoRA в сэмплировании.
  • Попробуйте Linear Rank = 16–32.
  • Learning Rate = 0.0001.
  • Удалите стилевые дескрипторы из подписей.

7.3 "Мой LoRA перезаписал базовую модель"

  • Включите Differential Output Preservation.
  • Уменьшите до 800–1500 шагов.
  • Linear Rank = 16, Learning Rate = 0.000075.

7.4 "CUDA out of memory"

  • Разрешение с 1024 → 896 или 768.
  • Gradient checkpointing и accumulation.
  • Квантизация FP8/4-bit.
  • Cache Latents ВКЛ.
  • Перенесите на H100/H200 на RunComfy.

8. Использование вашего FLUX.2 LoRA в инференсе


Дополнительные руководства по обучению LoRA AI Toolkit

Ready to start training?