Обучение LoRA FLUX.2-dev сильно отличается от обучения старых моделей SD. FLUX.2 [dev] объединяет огромный трансформер выпрямленного потока с 32B параметрами, текстовый кодировщик Mistral на 24B и высококачественный автоэнкодер, обрабатывая генерацию текст-в-изображение и редактирование изображений в одном checkpoint. Это руководство охватывает:
- Что делает FLUX.2 [dev] особенным
- Как эти проектные решения влияют на обучение LoRA
- Как настроить AI Toolkit для различных конфигураций оборудования
- Как настроить датасеты, триггеры и параметры для получения желаемого стиля / персонажа / поведения редактирования
Эта статья является частью серии обучения LoRA AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA AI Toolkit перед изучением того, как обучить LoRA для FLUX.2-dev.
Содержание
- 1. Понимание FLUX.2 [dev] для обучения LoRA
- 2. Какой тип FLUX.2 LoRA вы обучаете?
- 3. Специфичные для FLUX.2 детали, влияющие на настройки LoRA
- 4. Требования к оборудованию и VRAM для обучения LoRA FLUX.2
- 5. Проектирование датасетов для FLUX.2 LoRA
- 6. Пошагово: настройка обучения LoRA FLUX.2 dev в AI Toolkit
- 7. Отладка результатов LoRA FLUX.2 и улучшение качества
- 8. Использование вашего FLUX.2 LoRA в инференсе
1. Понимание FLUX.2 [dev] для обучения LoRA
Прежде чем трогать ползунки, полезно понять, что вы дообучаете.
1.1 Архитектура высокого уровня
Из официальной карточки модели FLUX.2-dev и анонса Black Forest Labs:
- Базовая модель
FLUX.2 [dev]— это трансформер выпрямленного потока на 32B параметров (модель латентного потока в стиле DiT), обученный с нуля. Он объединяет генерацию текст-в-изображение и редактирование изображений (одиночное и мульти-референсное) в одном checkpoint. - Текстовый кодировщик
FLUX.2 [dev] использует Mistral Small 3.1 / 3.2 – 24B как vision-language текстовый кодировщик. Это ещё 24B параметров сверх 32B DiT.
- Автоэнкодер (VAE)
Модель использует новый AutoencoderKLFlux2 с 32 латентными каналами (FLUX.1 использовал 16). Он спроектирован для высокоразрешающего редактирования и сохранения тонких текстур.
- Унифицированная генерация + редактирование
Одна архитектура обрабатывает чистый текст-в-изображение, редактирование одного изображения и мульти-референсное редактирование.
- Guidance-дистиллированный
FLUX.2 [dev] — guidance-дистиллированная модель: нет классического CFG с отдельными проходами.
Что это значит для LoRA:
- Центральный трансформер огромен. Ранг LoRA нужно выбирать тщательно.
- Текстовый кодировщик тяжёлый и центральный для поведения.
- Одни веса обрабатывают T2I и редактирование.
- Guidance особенный. Обычно тренируете с
guidance_scale = 1.
2. Какой тип FLUX.2 LoRA вы обучаете?
С FLUX.2 [dev] сначала нужно решить, что должен делать адаптер. Базовая модель уже сильна в мульти-референсном редактировании и следовании сложным промптам.
Типичные цели для дообучения LoRA FLUX 2 dev:
- Стилевой LoRA (T2I + редактирование) – Научить FLUX.2 определённому стилю живописи, цветокоррекции или виду рендера.
- LoRA персонажа / идентичности – Моделировать конкретного человека с последовательными лицами/характеристиками.
- LoRA объекта / реквизита / бренда – Захватить определённые продукты, логотипы или формы.
- LoRA инструкций / редактирования – Изменить поведение, а не стиль.
3. Специфичные для FLUX.2 детали, влияющие на настройки LoRA
3.1 LoRA на объединённом трансформере (масштабирование ранга)
FLUX.2 [dev] объединяет проекции attention и MLP в очень широкие матрицы. Это означает:
- Очень низкие ранги (4–8) часто слишком слабые.
- Для стилевых или персонажных LoRA на FLUX.2 [dev] ранг 32 — хороший дефолт.
- При ограниченной VRAM используйте ранг 8–16.
- Для сложных брендов или идентичностей ранг 32–64 может помочь.
При FLUX.2 [dev] LoRA обучении модель обычно выигрывает от несколько более высоких рангов, чем старые модели, но вы платите VRAM и риском переобучения.
3.2 Guidance-дистиллированная модель: тренировка при guidance_scale = 1
- Обучение: установите
guidance_scale = 1. - Инференс:
guidance_scaleв диапазоне 2–4 работает хорошо.
3.3 Текстовый кодировщик огромен (и почему важно кэширование эмбеддингов)
Mistral 24B VLM, используемый как текстовый кодировщик FLUX.2, — около 24GB параметров.
В AI Toolkit:
- С фиксированными подписями и без DOP: Включите Cache Text Embeddings.
- С Differential Output Preservation (DOP): Нельзя кэшировать текстовые эмбеддинги.
3.4 Автоэнкодер и разрешение
FLUX.2 использует AutoencoderKLFlux2 с 32 латентными каналами. На практике тренировать LoRA FLUX2 dev при 768–1024 захватывает большинство преимуществ.
4. Требования к оборудованию и VRAM для обучения LoRA FLUX.2
4.1 Рекомендуемые настройки по уровню VRAM
Уровень A — GPU 16–24 GB (напр. 4070 Ti, 4080, 4090)
- Что реалистично: AI Toolkit FLUX.2 dev LoRA возможен, но тесно. Batch Size = 1, 896–1024 px.
- Ключевые настройки: Low VRAM ВКЛ, Layer Offloading ВКЛ, Transformer и Text Encoder в
float8 (default).
Уровень B — GPU 32–48 GB (напр. RTX 6000 Ada, A6000)
- Что реалистично: Обучение становится комфортным. Стилевые и персонажные LoRA при 1024×1024, 20–60+ изображений, 1000–3000 шагов.
- Ключевые настройки: Batch Size = 1–2, Steps ≈ 1000–3000, Learning Rate = 0.0001, Linear Rank = 32.
Уровень C — GPU 64–96+ GB (напр. H100, H200 на RunComfy)
- Что реалистично: 1024×1024, Batch Size = 2–4, DOP ВКЛ по умолчанию.
- Ключевые настройки: Low VRAM ВЫКЛ, Linear Rank = 32–64.
4.2 Локальный AI Toolkit vs облачный AI Toolkit на RunComfy
- Локально с AI Toolkit – установите с GitHub репозитория.
- Облачный AI Toolkit на RunComfy – откройте облачный AI Toolkit на RunComfy и тренируйте на GPU H100/H200.
5. Проектирование датасетов для FLUX.2 LoRA
5.1 Сколько изображений?
- Простой стилевой LoRA: около 15–30 курированных изображений.
- LoRA персонажа/идентичности: около 20–60 изображений.
- LoRA редактирования/инструкций: 50–200 троек (источник, цель, инструкция).
5.2 Стратегия подписей
То, что вы не описываете в подписи, «свободно» для LoRA привязать к вашему триггеру.
Стилевой LoRA: описывайте что на изображении, не описывайте медиум или стиль.
LoRA персонажа: используйте короткий уникальный триггер (напр. midnight_tarot) и слово класса (person, woman и т.д.).
5.3 Differential Output Preservation (DOP)
Стратегия регуляризации, которая штрафует LoRA за изменения, когда триггер отсутствует.
6. Пошагово: настройка обучения LoRA FLUX.2 [dev] в AI Toolkit
6.1 Первоначальная настройка
- Установите AI Toolkit или откройте облачный AI Toolkit на RunComfy.
6.2 Подготовьте датасет
- Соберите изображения и поместите в
/ai-toolkit/datasets/flux2_midnight_tarot/. - Добавьте файлы подписей
.txt. Используйте[trigger]в подписях.
6.3 Создайте новую задачу обучения
6.3.1 Панель JOB
- Training Name: напр.
flux2_midnight_tarot_v1. - Trigger Word: напр.
midnight_tarot.
6.3.2 Панели MODEL & QUANTIZATION
- Model Architecture: FLUX.2.
- Name or Path:
black-forest-labs/FLUX.2-dev. - Low VRAM: ВКЛ для Уровня A/B, ВЫКЛ для Уровня C.
- Transformer и Text Encoder:
float8 (default).
6.3.3 Панель TARGET
- Target Type:
LoRA. - Linear Rank: 32 как хороший дефолт.
6.3.4 Панели TRAINING & SAVE
- Batch Size:
1на 24–48GB,2на 64GB+. - Steps: стиль 800–2000, персонаж 1000–2500, инструкции 1500–3000.
- Learning Rate:
0.0001. - Optimizer:
AdamW8Bit. - Cache Text Embeddings: ВКЛ без DOP, ВЫКЛ с DOP.
- Data Type:
BF16. - Save Every:
250шагов.
6.3.5 Regularization & Advanced
- Differential Output Preservation: ВКЛ для сохранения базового поведения.
- Do Differential Guidance: ВКЛ, Scale
3.
6.3.6 Панель DATASETS
- Cache Latents: ВКЛ.
- Resolutions:
[768, 896, 1024]в зависимости от VRAM.
6.4 Настройка превью сэмплирования
- Sample Every:
250шагов. - Guidance Scale:
1. - Prompts: 2–4 репрезентативных промпта.
7. Отладка результатов LoRA FLUX.2 и улучшение качества
7.1 "GatedRepoError / 401" при загрузке FLUX.2-dev
Примите лицензию на Hugging Face, создайте Read токен и добавьте в настройках тренера.
7.2 "Ничего не меняется после 1000+ шагов"
- Проверьте, применяется ли LoRA в сэмплировании.
- Попробуйте
Linear Rank = 16–32. Learning Rate = 0.0001.- Удалите стилевые дескрипторы из подписей.
7.3 "Мой LoRA перезаписал базовую модель"
- Включите Differential Output Preservation.
- Уменьшите до 800–1500 шагов.
Linear Rank = 16,Learning Rate = 0.000075.
7.4 "CUDA out of memory"
- Разрешение с 1024 → 896 или 768.
- Gradient checkpointing и accumulation.
- Квантизация FP8/4-bit.
- Cache Latents ВКЛ.
- Перенесите на H100/H200 на RunComfy.
8. Использование вашего FLUX.2 LoRA в инференсе
- Model playground – откройте FLUX.2 LoRA playground.
- ComfyUI workflows – загрузите workflow как Flux 2 Dev.
Дополнительные руководства по обучению LoRA AI Toolkit
Ready to start training?

