Z‑Image — это модель генерации изображений с 6B параметрами от Tongyi‑MAI, построенная на Scalable Single‑Stream Diffusion Transformer (S3‑DiT). Она необычайно эффективна для своего размера и разработана для работы в разрешении 1024×1024 на потребительских GPU.
Это руководство по Обучению LoRA Z-Image Turbo охватывает два наиболее распространённых практических подхода к Z-image-turbo обучению lora:
1) Z‑Image Turbo (с Training Adapter) — лучший выбор, когда вы хотите, чтобы ваша LoRA работала с настоящей скоростью Turbo в 8 шагов после обучения.
2) Z‑Image De‑Turbo (De‑Distilled) — лучший выбор, когда вам нужна де‑дистиллированная база для обучения без адаптера или для более длительных дообучений.
К концу этого руководства вы сможете:
- Выбрать правильную базу Z‑Image (Turbo+адаптер vs De‑Turbo) для вашей цели.
- Подготовить датасет, который работает с обучением в стиле Turbo.
- Настроить Ostris AI Toolkit (локально или в RunComfy Cloud AI Toolkit) панель за панелью.
- Понять, почему каждый параметр важен, чтобы вы могли настраивать, а не просто копировать.
Эта статья является частью серии по обучению LoRA с AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA с AI Toolkit перед погружением в это руководство.
Быстрый старт (рекомендуемая базовая конфигурация)
Вариант A — Turbo + training adapter (рекомендуется для большинства LoRA)
Используйте этот вариант для обучения LoRA для Z-Image Turbo, если хотите, чтобы ваша LoRA сохранила быстрое поведение Turbo в 8 шагов после обучения.
Почему это важно:
- Turbo — это дистиллированная модель «ученик»: она сжимает более медленный многошаговый процесс диффузии в ~8 шагов.
- Если вы обучаете на Turbo как на обычной модели, ваши обновления могут отменить дистилляцию («дрейф Turbo»), и вам понадобится больше шагов / больше CFG для получения того же качества.
- Training adapter временно «де‑дистиллирует» Turbo во время обучения, чтобы ваша LoRA изучила концепцию без нарушения 8-шагового поведения Turbo. При инференсе вы удаляете адаптер и оставляете только свою LoRA.
Базовые настройки:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- Оставьте значение по умолчанию, если ваш UI заполняет его автоматически (RunComfy обычно использует v2 по умолчанию), или установите явно:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(для 10–30 изображений) - DATASETS → Resolutions:
512 / 768 / 1024и Cache Latents = ON - SAMPLE (для превью):
1024×1024, 8 шагов (или9, если ваш пайплайн обрабатывает 9 как «8 DiT forwards»)- Guidance scale = 0 (Turbo дистиллирован по guidance)
- Сэмплировать каждые
250шагов
Вариант B — De‑Turbo (де‑дистиллированная база)
Используйте этот вариант, если хотите обучать без training adapter или планируете более длительное обучение.
Что меняется по сравнению с Turbo:
- De‑Turbo ведёт себя больше как «обычная» диффузионная модель для обучения и сэмплирования.
- Обычно вы сэмплируете с большим количеством шагов и низким (но ненулевым) CFG.
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(или то, что предвыбирает ваша сборка AI Toolkit) - Training Adapter Path: нет (не требуется)
- Сохраните те же настройки LoRA (rank/LR/steps) как базовую линию.
- SAMPLE (для превью):
- 20–30 шагов
- CFG (guidance scale) ≈ 2–3
- Сэмплировать каждые
250шагов
Хотите нулевую настройку? Используйте RunComfy Cloud AI Toolkit и следуйте тем же панелям.
Содержание
- 1. Какую базу Z‑Image выбрать для обучения? (Turbo+адаптер vs De‑Turbo)
- 2. Z‑Image training adapter v1 vs v2 (что меняется, когда использовать)
- 3. Z‑Image / Z‑Image‑Turbo вкратце (для обучения LoRA)
- 4. Где обучать Z‑Image: локально vs облачный AI Toolkit
- 5. Проектирование датасетов для обучения LoRA Z‑Image
- 6. Конфигурация LoRA Z‑Image в AI Toolkit — параметр за параметром
- 7. Практические рецепты для обучения LoRA Z‑Image
- 8. Устранение неполадок (дрейф Turbo, переобучение, VRAM, сэмплирование)
- 9. Экспорт и использование вашей LoRA Z‑Image
- FAQ
1. Какую базу Z‑Image выбрать для обучения? (Turbo+адаптер vs De‑Turbo)
AI Toolkit предоставляет два выбора «Model Architecture» для дообучения (fine-tuning) LoRA Z-Image Turbo:
1.1 Z‑Image Turbo (с Training Adapter)
Лучше всего для: типичных LoRA (персонаж, стиль, продукт), где ваша конечная цель — запускать инференс на Turbo за 8 шагов.
Почему он существует:
- Z‑Image Turbo — это модель, дистиллированная по шагам. Если вы обучаете LoRA на дистиллированной по шагам модели «обычным» способом, дистилляция может быстро разрушиться, и Turbo начнёт вести себя как более медленная не-дистиллированная модель (изменения качества, требуется больше шагов и т.д.).
- Training adapter действует как временная «де‑дистилляционная LoRA» во время обучения. Ваша LoRA изучает вашу концепцию, пока быстрое 8-шаговое поведение Turbo остаётся стабильным.
- Во время инференса вы удаляете training adapter и сохраняете свою LoRA поверх реальной базы Turbo.
Практические признаки того, что вы выбрали правильный путь:
- Ваши превью-сэмплы выглядят хорошо при 8 шагах с guidance ≈ 0.
- Ваша LoRA не начинает внезапно требовать 20–30 шагов, чтобы выглядеть чисто (распространённый признак дрейфа Turbo).
1.2 Z‑Image De‑Turbo (De‑Distilled)
Лучше всего для: обучения без адаптера или более длительных дообучений, где Turbo+адаптер в конечном итоге дрейфовал бы.
Что это такое:
- De‑Turbo — это де‑дистиллированная версия Turbo, разработанная для поведения, более похожего на обычную диффузионную модель при обучении.
- Его можно обучать напрямую без адаптера и также использовать для инференса (обычно 20–30 шагов с низким CFG).
1.3 Краткое руководство по выбору
Выбирайте Turbo + training adapter, если:
- Вы хотите, чтобы LoRA работала на скорости Turbo (8 шагов) после обучения.
- Вы проводите обычное обучение LoRA (от нескольких тысяч до десятков тысяч шагов).
Выбирайте De‑Turbo, если:
- Вам нужно поведение «обычной модели» для обучения и сэмплирования.
- Вы хотите обучать дольше или экспериментируете с рабочими процессами, которые не поддерживают training adapter чисто.
2. Z‑Image training adapter v1 vs v2 (что меняется, когда использовать)
В репозитории training adapter вы часто увидите два файла:
..._v1.safetensors..._v2.safetensors
Что нужно знать (практически):
- v1 — это безопасная базовая линия.
- v2 — более новый вариант, который может изменить динамику обучения и результаты.
Рекомендация: рассматривайте это как A/B тест:
- Сохраните датасет, LR, steps, rank идентичными
- Обучите один раз с v1, один раз с v2
- Сравните сетки сэмплов на одинаковых чекпоинтах
Если ваш UI RunComfy по умолчанию использует v2 и ваше обучение выглядит стабильно, оставьте как есть. Если вы видите нестабильность (шум, дрейф Turbo, странные артефакты), переключитесь на v1.
3. Z‑Image / Z‑Image‑Turbo вкратце (для обучения LoRA)
Из официальных источников Z‑Image:
- 6B параметров, архитектура S3‑DiT — текстовые токены, визуальные семантические токены и VAE латенты объединяются в единый трансформер-поток.
- Семейство моделей — в серии Z‑Image существуют варианты Turbo, Base и Edit.
- Особенности Turbo — оптимизирован для быстрого инференса; guidance обычно 0 для инференса Turbo.
Полезная ментальная модель для обучения LoRA:
- Таймстепы с высоким шумом в основном контролируют композицию (макет, поза, общий цветовой тон).
- Таймстепы с низким шумом в основном контролируют детали (лица, руки, текстуры).
Поэтому настройки таймстепов и bias могут заметно изменить то, ощущается ли LoRA как «глобальный стиль» или «идентичность/детали».
4. Где обучать Z‑Image: локально vs облачный AI Toolkit
4.1 Локальный AI Toolkit
AI Toolkit от Ostris является открытым исходным кодом на GitHub. Он поддерживает AI Toolkit Z-Image Turbo LoRA, FLUX, Wan, Qwen и другие через унифицированную систему UI и конфигурации.
Локальное обучение имеет смысл, если:
- У вас уже есть NVIDIA GPU и вы не против настройки Python / Git.
- Вам нужен полный контроль над файлами, логами и пользовательскими изменениями.
Репозиторий: ostris/ai-toolkit
4.2 RunComfy Cloud AI Toolkit
Если вы предпочитаете пропустить установку CUDA и проблемы с драйверами, используйте RunComfy Cloud AI Toolkit:
- Нулевая настройка — откройте браузер и обучайте.
- Стабильный VRAM — легче следовать руководствам без аппаратных проблем.
- Постоянное хранилище — легче итерация и управление чекпоинтами.
👉 Откройте здесь: Cloud AI Toolkit на RunComfy
5. Проектирование датасетов для обучения LoRA Z‑Image
5.1 Сколько изображений вам действительно нужно?
- 10–30 изображений — хороший диапазон для большинства LoRA персонажей или стилей.
- Выше ~50 изображений вы часто сталкиваетесь с убывающей отдачей, если только ваш диапазон стилей не очень широк.
Z‑Image сильно учится на градиентах («учится горячо»), поэтому качество и разнообразие датасета важнее, чем просто количество изображений:
- Слишком мало изображений + слишком много обучения часто проявляется как переобученные лица, повторяющиеся позы или грязные фоны.
- Небольшой, но разнообразный датасет (ракурсы, освещение, фоны) обычно обобщает лучше, чем большой и повторяющийся.
5.2 LoRA персонажей vs стилей
LoRA персонажа
- Стремитесь к 12–30 изображениям одного субъекта.
- Смешивайте крупные планы и полный рост, ракурсы, освещение, наряды.
- Подписи могут быть буквальными и последовательными; опциональный триггер-токен.
LoRA стиля
- Стремитесь к 15–40 изображениям различных субъектов (люди, интерьеры, пейзажи, объекты).
- Подписывайте сцену нормально; не переописывайте стиль, если вы не хотите, чтобы он был только по триггеру.
- Это учит: «рендерить что угодно в этом стиле», а не «применять стиль только когда я говорю специальное ключевое слово».
5.3 Подписи, триггер-слово и текстовые файлы
image_01.png→image_01.txt- Если нет
.txt, AI Toolkit использует Default Caption. - Вы можете использовать
[trigger]в подписях и установить Trigger Word на панели JOB. - Это особенно полезно, если вы позже включите DOP (Differential Output Preservation), чтобы сделать LoRA более «opt-in».
6. Конфигурация LoRA Z‑Image в AI Toolkit — параметр за параметром
В этом разделе мы проходим панели UI и объясняем, что делает каждое важное поле для понимания того, как обучить LoRA для Z-Image Turbo.
6.1 Панель JOB
- Training Name — описательная метка вроде
zimage_char_redhair_v1 - GPU ID — локальный селектор GPU; в облаке оставьте по умолчанию
- Trigger Word (опционально) —
zchar_redhair/zstyle_pencil
6.2 Панель MODEL (самая важная)
Здесь важны два выбора базы:
Если вы выбираете Turbo + адаптер
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - Это Hugging Face model id (repo id). В большинстве сборок AI Toolkit выбор model architecture автозаполнит это; оставьте как есть, если у вас нет причины менять.
- Если вы переопределяете, используйте формат Hugging Face repo id:
org-or-user/model-name(опциональноorg-or-user/model-name@revision). - Training Adapter Path — оставьте по умолчанию или выберите:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Совет: если вы случайно обучите Turbo без адаптера, наиболее распространённый симптом — ваша LoRA «работает» только когда вы повышаете steps/CFG, что сводит на нет смысл Turbo.
Если вы выбираете De‑Turbo
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Training Adapter Path — нет
Опции:
- Low VRAM / Layer Offloading — включить, если ограничены по VRAM
6.3 Панель QUANTIZATION
- При 24+ ГБ предпочитайте
BF16/noneдля точности - При 16 ГБ
float8обычно лучший компромисс
6.4 Панель TARGET — конфигурация LoRA
- Target Type —
LoRA - Linear Rank — начните с
8–16 16для более сильных стилей/текстур8для меньших, более тонких LoRA
6.5 Панель SAVE
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 Панель TRAINING — основные гиперпараметры
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate — начните с
0.0001Если нестабильно/шумно, снизьте до
0.00005–0.00008.Избегайте слишком высоких значений (напр.
0.0002+) — модели типа Turbo могут быстро стать нестабильными. - Weight Decay —
0.0001 - Steps —
2500–3000для 10–30 изображенийЕсли ваш датасет очень маленький (<10 изображений), рассмотрите
1500–2200для уменьшения переобучения. - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - Предпочитайте High Noise, если хотите более сильный глобальный стиль/настроение.
- Предпочитайте Low Noise, если преследуете идентичность/детали (продвинуто; начните с Balanced).
- EMA — OFF
Text Encoder:
- Cache Text Embeddings — ON, если подписи статичны и VRAM ограничен
(тогда установите Caption Dropout в 0)
- Unload TE — оставьте OFF для обучения на основе подписей
Регуляризация:
- DOP — оставьте OFF для первого запуска; добавьте позже для продакшн trigger-only LoRA
(DOP мощный, но добавляет сложность; легче всего, когда у вас уже есть стабильная базовая линия.)
6.7 Панель DATASETS
- Caption Dropout Rate
0.05если не кэшируете text embeddings0если кэшируете embeddings- Cache Latents — ON
- Resolutions —
512 / 768 / 1024— сильная базовая линия
6.8 Панель SAMPLE (соответствуйте вашей базе!)
Если обучаете Turbo:
1024×1024, 8 шагов, guidance = 0, сэмплировать каждые250
Если обучаете De‑Turbo:
1024×1024, 20–30 шагов, CFG 2–3, сэмплировать каждые250
Используйте 5–10 промптов, отражающих реальное использование; включите пару промптов без триггера для обнаружения утечек.
6.9 Панель ADVANCED — Differential Guidance (опционально)
- Do Differential Guidance — ON, если хотите более быструю сходимость
- Scale — начните с
3Если сэмплы выглядят слишком резкими/шумными рано, уменьшите до
2. Если обучение медленное, можете попробовать4позже.
7. Практические рецепты для обучения LoRA Z‑Image
Сильная базовая линия для Turbo LoRA:
- Turbo + training adapter (v1 или v2)
rank=16,lr=1e-4,steps=2500–3000- бакеты
512/768/1024, cache latents ON - сэмплы каждые 250 шагов, 8 шагов, guidance 0
Если ваша LoRA ощущается «слишком сильной»:
- Оставьте обучение таким же, но планируйте запускать инференс с более низким весом LoRA (напр.
0.6–0.8).
8. Устранение неполадок
«Моя LoRA разрушила Turbo — теперь мне нужно больше steps / CFG.»
- Наиболее распространённые причины:
- обучали на Turbo без training adapter, или
- LR слишком высокий слишком долго.
- Решение:
- используйте архитектуру Turbo + training adapter
- держите LR ≤ 1e‑4
- уменьшите steps, если видите дрейф рано
«Стиль слишком сильный.»
- Понизьте вес LoRA при инференсе (0.6–0.8)
- Используйте триггер + DOP для продакшн LoRA (поведение opt‑in)
«Руки/фоны грязные.»
- Добавьте несколько изображений, включающих эти случаи
- Рассмотрите небольшое предпочтение таймстепов с низким шумом (продвинуто)
«Нет VRAM / слишком медленно.»
- Отключите высокие бакеты (оставьте 512–1024)
- Включите Low VRAM + offloading
- Квантизируйте до float8
- Кэшируйте латенты (и опционально кэшируйте text embeddings)
9. Используйте вашу LoRA Z‑Image
- Model playground — попробуйте вашу LoRA на базовой модели через Z‑Image Turbo LoRA playground
- Рабочие процессы ComfyUI — загрузите вашу LoRA в рабочий процесс вроде Z‑Image workflow в ComfyUI
FAQ
Какой адаптер использовать для Обучения LoRA Z-Image Turbo — v1 или v2?
Начните с значения по умолчанию вашего UI. Если результаты нестабильны или вы видите дрейф Z‑Image Turbo, протестируйте другую версию, сохранив все остальные настройки одинаковыми.
Обучать Z‑Image на Turbo+адаптере или De‑Turbo?
Turbo+адаптер для большинства LoRA Z‑Image, которые должны сохранять 8-шаговое поведение Turbo. De‑Turbo, если вам нужно обучение без адаптера или более длительные дообучения.
Какие настройки инференса Z‑Image использовать после обучения?
Z‑Image Turbo обычно использует низкий/нулевой CFG и ~8 шагов. De‑Turbo ведёт себя больше как обычная модель (20–30 шагов, низкий CFG). Всегда согласовывайте настройки сэмплирования с базой, которую вы фактически используете.
Больше руководств по обучению LoRA с AI Toolkit
Ready to start training?

