Обучение LoRA Z-Image (Z-Image Turbo + De-Turbo) в Ostris AI Toolkit

Z‑Image — это модель генерации изображений с 6B параметрами от Tongyi‑MAI, построенная на Scalable Single‑Stream Diffusion Transformer (S3‑DiT). Она необычайно эффективна для своего размера и разработана для работы в разрешении 1024×1024 на потребительских GPU.

Это руководство по Обучению LoRA Z-Image Turbo охватывает два наиболее распространённых практических подхода к Z-image-turbo обучению lora:

1) Z‑Image Turbo (с Training Adapter) — лучший выбор, когда вы хотите, чтобы ваша LoRA работала с настоящей скоростью Turbo в 8 шагов после обучения.

2) Z‑Image De‑Turbo (De‑Distilled) — лучший выбор, когда вам нужна де‑дистиллированная база для обучения без адаптера или для более длительных дообучений.

К концу этого руководства вы сможете:

Выбрать правильную базу Z‑Image (Turbo+адаптер vs De‑Turbo) для вашей цели.
Подготовить датасет, который работает с обучением в стиле Turbo.
Настроить Ostris AI Toolkit (локально или в RunComfy Cloud AI Toolkit) панель за панелью.
Понять, почему каждый параметр важен, чтобы вы могли настраивать, а не просто копировать.

Эта статья является частью серии по обучению LoRA с AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA с AI Toolkit перед погружением в это руководство.

Быстрый старт (рекомендуемая базовая конфигурация)

Вариант A — Turbo + training adapter (рекомендуется для большинства LoRA)

Используйте этот вариант для обучения LoRA для Z-Image Turbo, если хотите, чтобы ваша LoRA сохранила быстрое поведение Turbo в 8 шагов после обучения.

Почему это важно:

Turbo — это дистиллированная модель «ученик»: она сжимает более медленный многошаговый процесс диффузии в ~8 шагов.
Если вы обучаете на Turbo как на обычной модели, ваши обновления могут отменить дистилляцию («дрейф Turbo»), и вам понадобится больше шагов / больше CFG для получения того же качества.
Training adapter временно «де‑дистиллирует» Turbo во время обучения, чтобы ваша LoRA изучила концепцию без нарушения 8-шагового поведения Turbo. При инференсе вы удаляете адаптер и оставляете только свою LoRA.

Базовые настройки:

MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
MODEL → Training Adapter Path:

Оставьте значение по умолчанию, если ваш UI заполняет его автоматически (RunComfy обычно использует v2 по умолчанию), или установите явно:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

TARGET → Linear Rank: 16
TRAINING → Learning Rate: 0.0001
TRAINING → Steps: 2500–3000 (для 10–30 изображений)
DATASETS → Resolutions: 512 / 768 / 1024 и Cache Latents = ON
SAMPLE (для превью):

1024×1024, 8 шагов (или 9, если ваш пайплайн обрабатывает 9 как «8 DiT forwards»)
Guidance scale = 0 (Turbo дистиллирован по guidance)
Сэмплировать каждые 250 шагов

Вариант B — De‑Turbo (де‑дистиллированная база)

Используйте этот вариант, если хотите обучать без training adapter или планируете более длительное обучение.

Что меняется по сравнению с Turbo:

De‑Turbo ведёт себя больше как «обычная» диффузионная модель для обучения и сэмплирования.
Обычно вы сэмплируете с большим количеством шагов и низким (но ненулевым) CFG.

MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
MODEL → Name or Path: ostris/Z-Image-De-Turbo (или то, что предвыбирает ваша сборка AI Toolkit)
Training Adapter Path: нет (не требуется)
Сохраните те же настройки LoRA (rank/LR/steps) как базовую линию.
SAMPLE (для превью):

20–30 шагов
CFG (guidance scale) ≈ 2–3
Сэмплировать каждые 250 шагов

Хотите нулевую настройку? Используйте RunComfy Cloud AI Toolkit и следуйте тем же панелям.

Содержание

1. Какую базу Z‑Image выбрать для обучения? (Turbo+адаптер vs De‑Turbo)
2. Z‑Image training adapter v1 vs v2 (что меняется, когда использовать)
3. Z‑Image / Z‑Image‑Turbo вкратце (для обучения LoRA)
4. Где обучать Z‑Image: локально vs облачный AI Toolkit
5. Проектирование датасетов для обучения LoRA Z‑Image
6. Конфигурация LoRA Z‑Image в AI Toolkit — параметр за параметром
7. Практические рецепты для обучения LoRA Z‑Image
8. Устранение неполадок (дрейф Turbo, переобучение, VRAM, сэмплирование)
9. Экспорт и использование вашей LoRA Z‑Image
FAQ

1. Какую базу Z‑Image выбрать для обучения? (Turbo+адаптер vs De‑Turbo)

AI Toolkit предоставляет два выбора «Model Architecture» для дообучения (fine-tuning) LoRA Z-Image Turbo:

1.1 Z‑Image Turbo (с Training Adapter)

Лучше всего для: типичных LoRA (персонаж, стиль, продукт), где ваша конечная цель — запускать инференс на Turbo за 8 шагов.

Почему он существует:

Z‑Image Turbo — это модель, дистиллированная по шагам. Если вы обучаете LoRA на дистиллированной по шагам модели «обычным» способом, дистилляция может быстро разрушиться, и Turbo начнёт вести себя как более медленная не-дистиллированная модель (изменения качества, требуется больше шагов и т.д.).
Training adapter действует как временная «де‑дистилляционная LoRA» во время обучения. Ваша LoRA изучает вашу концепцию, пока быстрое 8-шаговое поведение Turbo остаётся стабильным.
Во время инференса вы удаляете training adapter и сохраняете свою LoRA поверх реальной базы Turbo.

Практические признаки того, что вы выбрали правильный путь:

Ваши превью-сэмплы выглядят хорошо при 8 шагах с guidance ≈ 0.
Ваша LoRA не начинает внезапно требовать 20–30 шагов, чтобы выглядеть чисто (распространённый признак дрейфа Turbo).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Лучше всего для: обучения без адаптера или более длительных дообучений, где Turbo+адаптер в конечном итоге дрейфовал бы.

Что это такое:

De‑Turbo — это де‑дистиллированная версия Turbo, разработанная для поведения, более похожего на обычную диффузионную модель при обучении.
Его можно обучать напрямую без адаптера и также использовать для инференса (обычно 20–30 шагов с низким CFG).

1.3 Краткое руководство по выбору

Выбирайте Turbo + training adapter, если:

Вы хотите, чтобы LoRA работала на скорости Turbo (8 шагов) после обучения.
Вы проводите обычное обучение LoRA (от нескольких тысяч до десятков тысяч шагов).

Выбирайте De‑Turbo, если:

Вам нужно поведение «обычной модели» для обучения и сэмплирования.
Вы хотите обучать дольше или экспериментируете с рабочими процессами, которые не поддерживают training adapter чисто.

2. Z‑Image training adapter v1 vs v2 (что меняется, когда использовать)

В репозитории training adapter вы часто увидите два файла:

..._v1.safetensors
..._v2.safetensors

Что нужно знать (практически):

v1 — это безопасная базовая линия.
v2 — более новый вариант, который может изменить динамику обучения и результаты.

Рекомендация: рассматривайте это как A/B тест:

Сохраните датасет, LR, steps, rank идентичными
Обучите один раз с v1, один раз с v2
Сравните сетки сэмплов на одинаковых чекпоинтах

Если ваш UI RunComfy по умолчанию использует v2 и ваше обучение выглядит стабильно, оставьте как есть. Если вы видите нестабильность (шум, дрейф Turbo, странные артефакты), переключитесь на v1.

3. Z‑Image / Z‑Image‑Turbo вкратце (для обучения LoRA)

Из официальных источников Z‑Image:

6B параметров, архитектура S3‑DiT — текстовые токены, визуальные семантические токены и VAE латенты объединяются в единый трансформер-поток.
Семейство моделей — в серии Z‑Image существуют варианты Turbo, Base и Edit.
Особенности Turbo — оптимизирован для быстрого инференса; guidance обычно 0 для инференса Turbo.

Полезная ментальная модель для обучения LoRA:

Таймстепы с высоким шумом в основном контролируют композицию (макет, поза, общий цветовой тон).
Таймстепы с низким шумом в основном контролируют детали (лица, руки, текстуры).

Поэтому настройки таймстепов и bias могут заметно изменить то, ощущается ли LoRA как «глобальный стиль» или «идентичность/детали».

4. Где обучать Z‑Image: локально vs облачный AI Toolkit

4.1 Локальный AI Toolkit

AI Toolkit от Ostris является открытым исходным кодом на GitHub. Он поддерживает AI Toolkit Z-Image Turbo LoRA, FLUX, Wan, Qwen и другие через унифицированную систему UI и конфигурации.

Локальное обучение имеет смысл, если:

У вас уже есть NVIDIA GPU и вы не против настройки Python / Git.
Вам нужен полный контроль над файлами, логами и пользовательскими изменениями.

Репозиторий: ostris/ai-toolkit

4.2 RunComfy Cloud AI Toolkit

Если вы предпочитаете пропустить установку CUDA и проблемы с драйверами, используйте RunComfy Cloud AI Toolkit:

Нулевая настройка — откройте браузер и обучайте.
Стабильный VRAM — легче следовать руководствам без аппаратных проблем.
Постоянное хранилище — легче итерация и управление чекпоинтами.

👉 Откройте здесь: Cloud AI Toolkit на RunComfy

5. Проектирование датасетов для обучения LoRA Z‑Image

5.1 Сколько изображений вам действительно нужно?

10–30 изображений — хороший диапазон для большинства LoRA персонажей или стилей.
Выше ~50 изображений вы часто сталкиваетесь с убывающей отдачей, если только ваш диапазон стилей не очень широк.

Z‑Image сильно учится на градиентах («учится горячо»), поэтому качество и разнообразие датасета важнее, чем просто количество изображений:

Слишком мало изображений + слишком много обучения часто проявляется как переобученные лица, повторяющиеся позы или грязные фоны.
Небольшой, но разнообразный датасет (ракурсы, освещение, фоны) обычно обобщает лучше, чем большой и повторяющийся.

5.2 LoRA персонажей vs стилей

LoRA персонажа

Стремитесь к 12–30 изображениям одного субъекта.
Смешивайте крупные планы и полный рост, ракурсы, освещение, наряды.
Подписи могут быть буквальными и последовательными; опциональный триггер-токен.

LoRA стиля

Стремитесь к 15–40 изображениям различных субъектов (люди, интерьеры, пейзажи, объекты).
Подписывайте сцену нормально; не переописывайте стиль, если вы не хотите, чтобы он был только по триггеру.

Это учит: «рендерить что угодно в этом стиле», а не «применять стиль только когда я говорю специальное ключевое слово».

5.3 Подписи, триггер-слово и текстовые файлы

image_01.png → image_01.txt
Если нет .txt, AI Toolkit использует Default Caption.
Вы можете использовать [trigger] в подписях и установить Trigger Word на панели JOB.

Это особенно полезно, если вы позже включите DOP (Differential Output Preservation), чтобы сделать LoRA более «opt-in».

6. Конфигурация LoRA Z‑Image в AI Toolkit — параметр за параметром

В этом разделе мы проходим панели UI и объясняем, что делает каждое важное поле для понимания того, как обучить LoRA для Z-Image Turbo.

6.1 Панель JOB

Training Name — описательная метка вроде zimage_char_redhair_v1
GPU ID — локальный селектор GPU; в облаке оставьте по умолчанию
Trigger Word (опционально) — zchar_redhair / zstyle_pencil

6.2 Панель MODEL (самая важная)

Здесь важны два выбора базы:

Если вы выбираете Turbo + адаптер

Model Architecture — Z‑Image Turbo (w/ Training Adapter)
Name or Path — Tongyi-MAI/Z-Image-Turbo

Это Hugging Face model id (repo id). В большинстве сборок AI Toolkit выбор model architecture автозаполнит это; оставьте как есть, если у вас нет причины менять.
Если вы переопределяете, используйте формат Hugging Face repo id: org-or-user/model-name (опционально org-or-user/model-name@revision).

Training Adapter Path — оставьте по умолчанию или выберите:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

Совет: если вы случайно обучите Turbo без адаптера, наиболее распространённый симптом — ваша LoRA «работает» только когда вы повышаете steps/CFG, что сводит на нет смысл Turbo.

Если вы выбираете De‑Turbo

Model Architecture — Z‑Image De‑Turbo (De‑Distilled)
Name or Path — ostris/Z-Image-De-Turbo
Training Adapter Path — нет

Опции:

Low VRAM / Layer Offloading — включить, если ограничены по VRAM

6.3 Панель QUANTIZATION

При 24+ ГБ предпочитайте BF16/none для точности
При 16 ГБ float8 обычно лучший компромисс

6.4 Панель TARGET — конфигурация LoRA

Target Type — LoRA
Linear Rank — начните с 8–16

16 для более сильных стилей/текстур
8 для меньших, более тонких LoRA

6.5 Панель SAVE

Data Type — BF16
Save Every — 250
Max Step Saves to Keep — 4–12

6.6 Панель TRAINING — основные гиперпараметры

Batch Size — 1
Optimizer — AdamW8Bit
Learning Rate — начните с 0.0001
Если нестабильно/шумно, снизьте до 0.00005–0.00008.

Избегайте слишком высоких значений (напр. 0.0002+) — модели типа Turbo могут быстро стать нестабильными.
Weight Decay — 0.0001
Steps — 2500–3000 для 10–30 изображений
Если ваш датасет очень маленький (<10 изображений), рассмотрите 1500–2200 для уменьшения переобучения.
Loss Type — Mean Squared Error
Timestep Type — Weighted
Timestep Bias — Balanced

Предпочитайте High Noise, если хотите более сильный глобальный стиль/настроение.
Предпочитайте Low Noise, если преследуете идентичность/детали (продвинуто; начните с Balanced).

EMA — OFF

Text Encoder:

Cache Text Embeddings — ON, если подписи статичны и VRAM ограничен
(тогда установите Caption Dropout в 0)
Unload TE — оставьте OFF для обучения на основе подписей

Регуляризация:

DOP — оставьте OFF для первого запуска; добавьте позже для продакшн trigger-only LoRA
(DOP мощный, но добавляет сложность; легче всего, когда у вас уже есть стабильная базовая линия.)

6.7 Панель DATASETS

Caption Dropout Rate

0.05 если не кэшируете text embeddings
0 если кэшируете embeddings

Cache Latents — ON
Resolutions — 512 / 768 / 1024 — сильная базовая линия

6.8 Панель SAMPLE (соответствуйте вашей базе!)

Если обучаете Turbo:

1024×1024, 8 шагов, guidance = 0, сэмплировать каждые 250

Если обучаете De‑Turbo:

1024×1024, 20–30 шагов, CFG 2–3, сэмплировать каждые 250

Используйте 5–10 промптов, отражающих реальное использование; включите пару промптов без триггера для обнаружения утечек.

6.9 Панель ADVANCED — Differential Guidance (опционально)

Do Differential Guidance — ON, если хотите более быструю сходимость
Scale — начните с 3
Если сэмплы выглядят слишком резкими/шумными рано, уменьшите до 2. Если обучение медленное, можете попробовать 4 позже.

7. Практические рецепты для обучения LoRA Z‑Image

Сильная базовая линия для Turbo LoRA:

Turbo + training adapter (v1 или v2)
rank=16, lr=1e-4, steps=2500–3000
бакеты 512/768/1024, cache latents ON
сэмплы каждые 250 шагов, 8 шагов, guidance 0

Если ваша LoRA ощущается «слишком сильной»:

Оставьте обучение таким же, но планируйте запускать инференс с более низким весом LoRA (напр. 0.6–0.8).

8. Устранение неполадок

«Моя LoRA разрушила Turbo — теперь мне нужно больше steps / CFG.»

Наиболее распространённые причины:

обучали на Turbo без training adapter, или
LR слишком высокий слишком долго.

Решение:

используйте архитектуру Turbo + training adapter
держите LR ≤ 1e‑4
уменьшите steps, если видите дрейф рано

«Стиль слишком сильный.»

Понизьте вес LoRA при инференсе (0.6–0.8)
Используйте триггер + DOP для продакшн LoRA (поведение opt‑in)

«Руки/фоны грязные.»

Добавьте несколько изображений, включающих эти случаи
Рассмотрите небольшое предпочтение таймстепов с низким шумом (продвинуто)

«Нет VRAM / слишком медленно.»

Отключите высокие бакеты (оставьте 512–1024)
Включите Low VRAM + offloading
Квантизируйте до float8
Кэшируйте латенты (и опционально кэшируйте text embeddings)

FAQ

Какой адаптер использовать для Обучения LoRA Z-Image Turbo — v1 или v2?

Начните с значения по умолчанию вашего UI. Если результаты нестабильны или вы видите дрейф Z‑Image Turbo, протестируйте другую версию, сохранив все остальные настройки одинаковыми.

Обучать Z‑Image на Turbo+адаптере или De‑Turbo?

Turbo+адаптер для большинства LoRA Z‑Image, которые должны сохранять 8-шаговое поведение Turbo. De‑Turbo, если вам нужно обучение без адаптера или более длительные дообучения.

Какие настройки инференса Z‑Image использовать после обучения?

Z‑Image Turbo обычно использует низкий/нулевой CFG и ~8 шагов. De‑Turbo ведёт себя больше как обычная модель (20–30 шагов, низкий CFG). Всегда согласовывайте настройки сэмплирования с базой, которую вы фактически используете.

9. Используйте вашу LoRA Z‑Image

Run LoRA — откройте страницу Run LoRA для Z‑Image Turbo. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который вы обучили на RunComfy, или импортировать LoRA‑файл, обученный в AI Toolkit, а затем запускать инференс через playground или API. RunComfy использует ту же базовую модель и полное определение пайплайна AI Toolkit из вашей training‑конфигурации, поэтому что вы видели во время обучения, то и получите в инференсе — такое выравнивание training/inference помогает сохранять результаты согласованными с вашими training‑samples.
Рабочие процессы ComfyUI — загрузите вашу LoRA в рабочий процесс вроде Z‑Image workflow в ComfyUI

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample