AI Toolkit LoRA Training Guides

Обучение LoRA Z-Image (Z-Image Turbo + De-Turbo) с Ostris AI Toolkit

Этот гайд объясняет, как обучить качественную LoRA для Z-Image с Ostris AI Toolkit: выбрать правильную базу (Turbo + training adapter vs De-Turbo), затем настроить датасет, rank/LR/steps и параметры сэмплинга, чтобы получить стабильные результаты.

Train Diffusion Models with Ostris AI Toolkit

Прокрутите горизонтально, чтобы увидеть всю форму

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Z‑Image — это модель генерации изображений с 6B параметрами от Tongyi‑MAI, построенная на Scalable Single‑Stream Diffusion Transformer (S3‑DiT). Она необычайно эффективна для своего размера и разработана для работы в разрешении 1024×1024 на потребительских GPU.

Это руководство по Обучению LoRA Z-Image Turbo охватывает два наиболее распространённых практических подхода к Z-image-turbo обучению lora:

1) Z‑Image Turbo (с Training Adapter) — лучший выбор, когда вы хотите, чтобы ваша LoRA работала с настоящей скоростью Turbo в 8 шагов после обучения.

2) Z‑Image De‑Turbo (De‑Distilled) — лучший выбор, когда вам нужна де‑дистиллированная база для обучения без адаптера или для более длительных дообучений.

К концу этого руководства вы сможете:

  • Выбрать правильную базу Z‑Image (Turbo+адаптер vs De‑Turbo) для вашей цели.
  • Подготовить датасет, который работает с обучением в стиле Turbo.
  • Настроить Ostris AI Toolkit (локально или в RunComfy Cloud AI Toolkit) панель за панелью.
  • Понять, почему каждый параметр важен, чтобы вы могли настраивать, а не просто копировать.
Эта статья является частью серии по обучению LoRA с AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA с AI Toolkit перед погружением в это руководство.

Быстрый старт (рекомендуемая базовая конфигурация)

Вариант A — Turbo + training adapter (рекомендуется для большинства LoRA)

Используйте этот вариант для обучения LoRA для Z-Image Turbo, если хотите, чтобы ваша LoRA сохранила быстрое поведение Turbo в 8 шагов после обучения.

Почему это важно:

  • Turbo — это дистиллированная модель «ученик»: она сжимает более медленный многошаговый процесс диффузии в ~8 шагов.
  • Если вы обучаете на Turbo как на обычной модели, ваши обновления могут отменить дистилляцию («дрейф Turbo»), и вам понадобится больше шагов / больше CFG для получения того же качества.
  • Training adapter временно «де‑дистиллирует» Turbo во время обучения, чтобы ваша LoRA изучила концепцию без нарушения 8-шагового поведения Turbo. При инференсе вы удаляете адаптер и оставляете только свою LoRA.

Базовые настройки:

  1. MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
  2. MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
  3. MODEL → Training Adapter Path:
    • Оставьте значение по умолчанию, если ваш UI заполняет его автоматически (RunComfy обычно использует v2 по умолчанию), или установите явно:
      • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
      • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
  4. TARGET → Linear Rank: 16
  5. TRAINING → Learning Rate: 0.0001
  6. TRAINING → Steps: 2500–3000 (для 10–30 изображений)
  7. DATASETS → Resolutions: 512 / 768 / 1024 и Cache Latents = ON
  8. SAMPLE (для превью):
    • 1024×1024, 8 шагов (или 9, если ваш пайплайн обрабатывает 9 как «8 DiT forwards»)
    • Guidance scale = 0 (Turbo дистиллирован по guidance)
    • Сэмплировать каждые 250 шагов

Вариант B — De‑Turbo (де‑дистиллированная база)

Используйте этот вариант, если хотите обучать без training adapter или планируете более длительное обучение.

Что меняется по сравнению с Turbo:

  • De‑Turbo ведёт себя больше как «обычная» диффузионная модель для обучения и сэмплирования.
  • Обычно вы сэмплируете с большим количеством шагов и низким (но ненулевым) CFG.
  1. MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
  2. MODEL → Name or Path: ostris/Z-Image-De-Turbo (или то, что предвыбирает ваша сборка AI Toolkit)
  3. Training Adapter Path: нет (не требуется)
  4. Сохраните те же настройки LoRA (rank/LR/steps) как базовую линию.
  5. SAMPLE (для превью):
    • 20–30 шагов
    • CFG (guidance scale) ≈ 2–3
    • Сэмплировать каждые 250 шагов
Хотите нулевую настройку? Используйте RunComfy Cloud AI Toolkit и следуйте тем же панелям.

Содержание


1. Какую базу Z‑Image выбрать для обучения? (Turbo+адаптер vs De‑Turbo)

AI Toolkit предоставляет два выбора «Model Architecture» для дообучения (fine-tuning) LoRA Z-Image Turbo:

1.1 Z‑Image Turbo (с Training Adapter)

Лучше всего для: типичных LoRA (персонаж, стиль, продукт), где ваша конечная цель — запускать инференс на Turbo за 8 шагов.

Почему он существует:

  • Z‑Image Turbo — это модель, дистиллированная по шагам. Если вы обучаете LoRA на дистиллированной по шагам модели «обычным» способом, дистилляция может быстро разрушиться, и Turbo начнёт вести себя как более медленная не-дистиллированная модель (изменения качества, требуется больше шагов и т.д.).
  • Training adapter действует как временная «де‑дистилляционная LoRA» во время обучения. Ваша LoRA изучает вашу концепцию, пока быстрое 8-шаговое поведение Turbo остаётся стабильным.
  • Во время инференса вы удаляете training adapter и сохраняете свою LoRA поверх реальной базы Turbo.

Практические признаки того, что вы выбрали правильный путь:

  • Ваши превью-сэмплы выглядят хорошо при 8 шагах с guidance ≈ 0.
  • Ваша LoRA не начинает внезапно требовать 20–30 шагов, чтобы выглядеть чисто (распространённый признак дрейфа Turbo).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Лучше всего для: обучения без адаптера или более длительных дообучений, где Turbo+адаптер в конечном итоге дрейфовал бы.

Что это такое:

  • De‑Turbo — это де‑дистиллированная версия Turbo, разработанная для поведения, более похожего на обычную диффузионную модель при обучении.
  • Его можно обучать напрямую без адаптера и также использовать для инференса (обычно 20–30 шагов с низким CFG).

1.3 Краткое руководство по выбору

Выбирайте Turbo + training adapter, если:

  • Вы хотите, чтобы LoRA работала на скорости Turbo (8 шагов) после обучения.
  • Вы проводите обычное обучение LoRA (от нескольких тысяч до десятков тысяч шагов).

Выбирайте De‑Turbo, если:

  • Вам нужно поведение «обычной модели» для обучения и сэмплирования.
  • Вы хотите обучать дольше или экспериментируете с рабочими процессами, которые не поддерживают training adapter чисто.

2. Z‑Image training adapter v1 vs v2 (что меняется, когда использовать)

В репозитории training adapter вы часто увидите два файла:

  • ..._v1.safetensors
  • ..._v2.safetensors

Что нужно знать (практически):

  • v1 — это безопасная базовая линия.
  • v2 — более новый вариант, который может изменить динамику обучения и результаты.

Рекомендация: рассматривайте это как A/B тест:

  • Сохраните датасет, LR, steps, rank идентичными
  • Обучите один раз с v1, один раз с v2
  • Сравните сетки сэмплов на одинаковых чекпоинтах

Если ваш UI RunComfy по умолчанию использует v2 и ваше обучение выглядит стабильно, оставьте как есть. Если вы видите нестабильность (шум, дрейф Turbo, странные артефакты), переключитесь на v1.


3. Z‑Image / Z‑Image‑Turbo вкратце (для обучения LoRA)

Из официальных источников Z‑Image:

  • 6B параметров, архитектура S3‑DiT — текстовые токены, визуальные семантические токены и VAE латенты объединяются в единый трансформер-поток.
  • Семейство моделей — в серии Z‑Image существуют варианты Turbo, Base и Edit.
  • Особенности Turbo — оптимизирован для быстрого инференса; guidance обычно 0 для инференса Turbo.

Полезная ментальная модель для обучения LoRA:

  • Таймстепы с высоким шумом в основном контролируют композицию (макет, поза, общий цветовой тон).
  • Таймстепы с низким шумом в основном контролируют детали (лица, руки, текстуры).

Поэтому настройки таймстепов и bias могут заметно изменить то, ощущается ли LoRA как «глобальный стиль» или «идентичность/детали».


4. Где обучать Z‑Image: локально vs облачный AI Toolkit

4.1 Локальный AI Toolkit

AI Toolkit от Ostris является открытым исходным кодом на GitHub. Он поддерживает AI Toolkit Z-Image Turbo LoRA, FLUX, Wan, Qwen и другие через унифицированную систему UI и конфигурации.

Локальное обучение имеет смысл, если:

  • У вас уже есть NVIDIA GPU и вы не против настройки Python / Git.
  • Вам нужен полный контроль над файлами, логами и пользовательскими изменениями.

Репозиторий: ostris/ai-toolkit


4.2 RunComfy Cloud AI Toolkit

Если вы предпочитаете пропустить установку CUDA и проблемы с драйверами, используйте RunComfy Cloud AI Toolkit:

  • Нулевая настройка — откройте браузер и обучайте.
  • Стабильный VRAM — легче следовать руководствам без аппаратных проблем.
  • Постоянное хранилище — легче итерация и управление чекпоинтами.

👉 Откройте здесь: Cloud AI Toolkit на RunComfy


5. Проектирование датасетов для обучения LoRA Z‑Image

5.1 Сколько изображений вам действительно нужно?

  • 10–30 изображений — хороший диапазон для большинства LoRA персонажей или стилей.
  • Выше ~50 изображений вы часто сталкиваетесь с убывающей отдачей, если только ваш диапазон стилей не очень широк.

Z‑Image сильно учится на градиентах («учится горячо»), поэтому качество и разнообразие датасета важнее, чем просто количество изображений:

  • Слишком мало изображений + слишком много обучения часто проявляется как переобученные лица, повторяющиеся позы или грязные фоны.
  • Небольшой, но разнообразный датасет (ракурсы, освещение, фоны) обычно обобщает лучше, чем большой и повторяющийся.

5.2 LoRA персонажей vs стилей

LoRA персонажа

  • Стремитесь к 12–30 изображениям одного субъекта.
  • Смешивайте крупные планы и полный рост, ракурсы, освещение, наряды.
  • Подписи могут быть буквальными и последовательными; опциональный триггер-токен.

LoRA стиля

  • Стремитесь к 15–40 изображениям различных субъектов (люди, интерьеры, пейзажи, объекты).
  • Подписывайте сцену нормально; не переописывайте стиль, если вы не хотите, чтобы он был только по триггеру.
    • Это учит: «рендерить что угодно в этом стиле», а не «применять стиль только когда я говорю специальное ключевое слово».

5.3 Подписи, триггер-слово и текстовые файлы

  • image_01.pngimage_01.txt
  • Если нет .txt, AI Toolkit использует Default Caption.
  • Вы можете использовать [trigger] в подписях и установить Trigger Word на панели JOB.
    • Это особенно полезно, если вы позже включите DOP (Differential Output Preservation), чтобы сделать LoRA более «opt-in».

6. Конфигурация LoRA Z‑Image в AI Toolkit — параметр за параметром

В этом разделе мы проходим панели UI и объясняем, что делает каждое важное поле для понимания того, как обучить LoRA для Z-Image Turbo.

6.1 Панель JOB

  • Training Name — описательная метка вроде zimage_char_redhair_v1
  • GPU ID — локальный селектор GPU; в облаке оставьте по умолчанию
  • Trigger Word (опционально)zchar_redhair / zstyle_pencil

6.2 Панель MODEL (самая важная)

Здесь важны два выбора базы:

Если вы выбираете Turbo + адаптер

  • Model ArchitectureZ‑Image Turbo (w/ Training Adapter)
  • Name or PathTongyi-MAI/Z-Image-Turbo
    • Это Hugging Face model id (repo id). В большинстве сборок AI Toolkit выбор model architecture автозаполнит это; оставьте как есть, если у вас нет причины менять.
    • Если вы переопределяете, используйте формат Hugging Face repo id: org-or-user/model-name (опционально org-or-user/model-name@revision).
  • Training Adapter Path — оставьте по умолчанию или выберите:
    • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
    • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Совет: если вы случайно обучите Turbo без адаптера, наиболее распространённый симптом — ваша LoRA «работает» только когда вы повышаете steps/CFG, что сводит на нет смысл Turbo.

Если вы выбираете De‑Turbo

  • Model ArchitectureZ‑Image De‑Turbo (De‑Distilled)
  • Name or Pathostris/Z-Image-De-Turbo
  • Training Adapter Path — нет

Опции:

  • Low VRAM / Layer Offloading — включить, если ограничены по VRAM

6.3 Панель QUANTIZATION

  • При 24+ ГБ предпочитайте BF16/none для точности
  • При 16 ГБ float8 обычно лучший компромисс

6.4 Панель TARGET — конфигурация LoRA

  • Target TypeLoRA
  • Linear Rank — начните с 8–16
    • 16 для более сильных стилей/текстур
    • 8 для меньших, более тонких LoRA

6.5 Панель SAVE

  • Data TypeBF16
  • Save Every250
  • Max Step Saves to Keep4–12

6.6 Панель TRAINING — основные гиперпараметры

  • Batch Size1
  • OptimizerAdamW8Bit
  • Learning Rate — начните с 0.0001

    Если нестабильно/шумно, снизьте до 0.00005–0.00008.

    Избегайте слишком высоких значений (напр. 0.0002+) — модели типа Turbo могут быстро стать нестабильными.

  • Weight Decay0.0001
  • Steps2500–3000 для 10–30 изображений

    Если ваш датасет очень маленький (<10 изображений), рассмотрите 1500–2200 для уменьшения переобучения.

  • Loss TypeMean Squared Error
  • Timestep TypeWeighted
  • Timestep BiasBalanced
    • Предпочитайте High Noise, если хотите более сильный глобальный стиль/настроение.
    • Предпочитайте Low Noise, если преследуете идентичность/детали (продвинуто; начните с Balanced).
  • EMA — OFF

Text Encoder:

  • Cache Text Embeddings — ON, если подписи статичны и VRAM ограничен

    (тогда установите Caption Dropout в 0)

  • Unload TE — оставьте OFF для обучения на основе подписей

Регуляризация:

  • DOP — оставьте OFF для первого запуска; добавьте позже для продакшн trigger-only LoRA

    (DOP мощный, но добавляет сложность; легче всего, когда у вас уже есть стабильная базовая линия.)


6.7 Панель DATASETS

  • Caption Dropout Rate
    • 0.05 если не кэшируете text embeddings
    • 0 если кэшируете embeddings
  • Cache Latents — ON
  • Resolutions512 / 768 / 1024 — сильная базовая линия

6.8 Панель SAMPLE (соответствуйте вашей базе!)

Если обучаете Turbo:

  • 1024×1024, 8 шагов, guidance = 0, сэмплировать каждые 250

Если обучаете De‑Turbo:

  • 1024×1024, 20–30 шагов, CFG 2–3, сэмплировать каждые 250

Используйте 5–10 промптов, отражающих реальное использование; включите пару промптов без триггера для обнаружения утечек.


6.9 Панель ADVANCED — Differential Guidance (опционально)

  • Do Differential Guidance — ON, если хотите более быструю сходимость
  • Scale — начните с 3

    Если сэмплы выглядят слишком резкими/шумными рано, уменьшите до 2. Если обучение медленное, можете попробовать 4 позже.


7. Практические рецепты для обучения LoRA Z‑Image

Сильная базовая линия для Turbo LoRA:

  • Turbo + training adapter (v1 или v2)
  • rank=16, lr=1e-4, steps=2500–3000
  • бакеты 512/768/1024, cache latents ON
  • сэмплы каждые 250 шагов, 8 шагов, guidance 0

Если ваша LoRA ощущается «слишком сильной»:

  • Оставьте обучение таким же, но планируйте запускать инференс с более низким весом LoRA (напр. 0.6–0.8).

8. Устранение неполадок

«Моя LoRA разрушила Turbo — теперь мне нужно больше steps / CFG.»

  • Наиболее распространённые причины:
    • обучали на Turbo без training adapter, или
    • LR слишком высокий слишком долго.
  • Решение:
    • используйте архитектуру Turbo + training adapter
    • держите LR ≤ 1e‑4
    • уменьшите steps, если видите дрейф рано

«Стиль слишком сильный.»

  • Понизьте вес LoRA при инференсе (0.6–0.8)
  • Используйте триггер + DOP для продакшн LoRA (поведение opt‑in)

«Руки/фоны грязные.»

  • Добавьте несколько изображений, включающих эти случаи
  • Рассмотрите небольшое предпочтение таймстепов с низким шумом (продвинуто)

«Нет VRAM / слишком медленно.»

  • Отключите высокие бакеты (оставьте 512–1024)
  • Включите Low VRAM + offloading
  • Квантизируйте до float8
  • Кэшируйте латенты (и опционально кэшируйте text embeddings)

9. Используйте вашу LoRA Z‑Image


FAQ

Какой адаптер использовать для Обучения LoRA Z-Image Turbo — v1 или v2?

Начните с значения по умолчанию вашего UI. Если результаты нестабильны или вы видите дрейф Z‑Image Turbo, протестируйте другую версию, сохранив все остальные настройки одинаковыми.

Обучать Z‑Image на Turbo+адаптере или De‑Turbo?

Turbo+адаптер для большинства LoRA Z‑Image, которые должны сохранять 8-шаговое поведение Turbo. De‑Turbo, если вам нужно обучение без адаптера или более длительные дообучения.

Какие настройки инференса Z‑Image использовать после обучения?

Z‑Image Turbo обычно использует низкий/нулевой CFG и ~8 шагов. De‑Turbo ведёт себя больше как обычная модель (20–30 шагов, низкий CFG). Всегда согласовывайте настройки сэмплирования с базой, которую вы фактически используете.


Больше руководств по обучению LoRA с AI Toolkit

Ready to start training?