Обучение LoRA Z‑Image (Base) с Ostris AI Toolkit

Z‑Image (Base) — это полный чекпойнт Z‑Image (не 8‑шаговый Turbo). Он рассчитан на высококачественный text‑to‑image с CFG + негативными промптами и большим числом шагов семплинга, а ещё это лучший выбор, если ваша цель — чистая, полностью контролируемая LoRA (персонаж, стиль, продукт, концепты с большим количеством текста/типографики).

К концу этого гайда по обучению LoRA Z‑Image вы сможете:

Провести обучение LoRA Z‑Image в AI Toolkit от Ostris (локально или в облаке).
Выбрать настройки по умолчанию, которые действительно совпадают с поведением Z‑Image Base на инференсе (steps + CFG + разрешение).
Избежать самых частых ошибок обучения LoRA Z‑Image Base (настройки Turbo, «LoRA ничего не меняет», несовпадение Base↔Turbo).
Экспортировать чекпойнты, которые можно сразу использовать в вашей UI для инференса.

Эта статья — часть серии по обучению LoRA в AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора AI Toolkit LoRA training перед тем, как переходить к этому обучению LoRA Z‑Image:

https://www.runcomfy.com/ru/trainer/ai-toolkit/getting-started

Содержание

1. Обзор Z‑Image: что он умеет (и чем отличается от Turbo)
2. Варианты окружения: локальный AI Toolkit vs облачный AI Toolkit на RunComfy
3. Требования к железу и VRAM для обучения LoRA Z‑Image Base
4. Подготовка датасета для обучения LoRA Z‑Image Base
5. Пошагово: обучение LoRA Z‑Image в AI Toolkit
6. Рекомендуемые конфиги обучения LoRA Z‑Image по уровням VRAM
7. Частые проблемы обучения Z‑Image Base и как их исправить
8. Как использовать LoRA Z‑Image Base после обучения LoRA Z‑Image

1. Обзор Z‑Image: что он умеет (и чем отличается от Turbo)

1.1 Что означает «Z‑Image Base»

«Z‑Image Base» — это не дистиллированный (non‑distilled) чекпойнт Z‑Image. На практике:

Он ожидает больше шагов семплинга (примерно ~30–50, а не 8).
Он эффективно использует CFG и негативные промпты.
Это лучшая цель для LoRA fine‑tuning (вариант‑ключевик 1 раз) и обучения LoRA Z‑Image, если вам нужен максимум контроля и качества.

1.2 Base vs Turbo (важный вывод для обучения)

Частая ошибка в обучении LoRA Z‑Image — тренировать (или оценивать) Base так же, как Turbo.

Turbo‑настройки (8 шагов, низкий/нулевой CFG) сделают Base‑результат недо‑проработанным, и вы можете решить, что LoRA «не работает».
Base‑настройки (30–50 шагов + нормальный CFG) — правильный способ оценивать чекпойнты.

Правило:

Если вы обучали LoRA под Base, оценивайте её на Base с Base‑стилем семплинга.

2. Варианты окружения: локальный AI Toolkit vs облачный AI Toolkit на RunComfy

Этот гайд по обучению LoRA Z‑Image можно пройти в двух вариантах:

Локальный AI Toolkit (ваша GPU)
Установите AI Toolkit из GitHub‑репозитория и запустите Web UI. Локальное обучение LoRA Z‑Image идеально, если у вас есть NVIDIA GPU, вам комфортно управлять CUDA/драйверами и вы хотите постоянную среду для итераций LoRA.

https://github.com/ostris/ai-toolkit
Облачный AI Toolkit на RunComfy (H100 / H200)
AI Toolkit работает в браузере на больших GPU:

Без установок (просто открыть UI)
Большая VRAM для более высоких бакетов (1280 / 1536)
Постоянный workspace для датасетов, конфигов и прошлых запусков

Рабочий процесс обучения LoRA Z‑Image одинаков в обоих вариантах; меняется только место, где находится GPU.

3. Требования к железу и VRAM для обучения LoRA Z‑Image Base

Z‑Image может работать на сравнительно скромных GPU для инференса, но обучение LoRA Z‑Image сильно зависит от:

Разрешения бакетов (768 vs 1024 vs 1536)
Квантизации (float8)
Ранга LoRA
Настроек семплинга во время обучения (preview‑разрешение + preview‑steps)

Практичная шпаргалка для обучения LoRA Z‑Image:

12–16GB VRAM: реально на 512/768 при аккуратных настройках
24GB VRAM: комфортно для обучения LoRA на 1024
48GB+ VRAM: самый простой путь к бакетам 1280/1536 и быстрой итерации

Если вы делаете типографику или вам важна продуктовая точность, планируйте более высокое разрешение и учитывайте, что требования к VRAM быстро растут.

4. Подготовка датасета для обучения LoRA Z‑Image Base

Z‑Image Base не «особенный» по формату датасета — но он чувствителен к тому, как вы оцениваете качество. Поэтому датасет для обучения LoRA Z‑Image должен соответствовать тому, как вы будете использовать модель на инференсе (CFG + больше шагов).

4.1 Определите цель (и форму датасета)

Персонаж / сходство: 15–50 изображений
Смешивайте крупные планы + средние планы + разные условия освещения.
Стиль: 30–200 изображений
Максимизируйте разнообразие сюжетов, чтобы модель выучила «признаки стиля», а не одну сцену.
Продукт / концепт: 20–80 изображений
Стабильный кадр и понятные подписи для ключевых признаков (материалы, текст на этикетке, форма).

4.2 Подписи + триггер (проще — лучше)

Используйте триггер, если вам нужен чистый «вкл/выкл» (рекомендуется для персонажа/продукта в обучении LoRA Z‑Image).
Держите подписи короткими и последовательными. Длинные подписи повышают риск случайного «склеивания» (причёска/фон становятся «частью триггера»).

Быстрые шаблоны

Персонаж:
[trigger]

или photo of [trigger], portrait, natural lighting
Стиль:
in a [style] illustration style, soft shading, muted palette
Продукт:
product photo of [trigger], studio lighting, clean background

5. Пошагово: обучение LoRA Z‑Image в AI Toolkit

Этот раздел написан так, чтобы соответствовать панелям UI AI Toolkit, которые вы видите при создании нового job’а обучения LoRA Z‑Image.

5.1 Панель JOB (Training Name, GPU ID, Trigger Word)

Training Name: понятное имя запуска (например, zimage_base_character_v1)
GPU ID: выберите GPU (локально) или оставьте дефолт (облако)
Trigger Word (опционально, но рекомендуется для персонажа/продукта в обучении LoRA Z‑Image):
Пример: zimgAlice

5.2 Панель MODEL (Model Architecture, Name or Path, Options)

Model Architecture: выберите Z‑Image
Name or Path: укажите repo базовой модели, обычно:
Tongyi-MAI/Z-Image
Options

Low VRAM: ON, если у вас ≤ 24GB
Layer Offloading: OFF по умолчанию; включайте только если всё ещё OOM после снижения разрешения/ранга

5.3 Панель QUANTIZATION (Transformer, Text Encoder)

Transformer: float8 (default) — хороший дефолт, чтобы вместить более крупные бакеты.
Text Encoder: float8 (default), если нужна экономия VRAM.

Если VRAM много, можно снизить квантизацию — но float8 обычно безопасная baseline для обучения LoRA Z‑Image.

5.4 Панель TARGET (Target Type, Linear Rank)

Target Type: LoRA
Linear Rank (практичные дефолты для обучения LoRA Z‑Image)

16: стиль‑LoRA, low‑VRAM запуски
32: персонаж/продукт, выше точность
48+: только если VRAM очень много и вы точно видите недообучение

5.5 Панель SAVE (Data Type, Save Every, Max Step Saves to Keep)

Data Type: BF16
Save Every: 250 (достаточно чекпойнтов, чтобы выбрать лучший)
Max Step Saves to Keep: 4 (чтобы не раздувать диск)

5.6 Панель TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Стабильная baseline для обучения LoRA Z‑Image

Batch Size: 1
Gradient Accumulation: 1 (увеличьте, если хотите больший эффективный batch без VRAM)
Steps: см. ниже (диапазоны по целям)
Optimizer: AdamW8Bit
Learning Rate: 0.0001 (снизьте до 0.00005, если нестабильно)
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
EMA: OFF для большинства LoRA‑запусков

Steps: ориентир, дружелюбный к Z‑Image Base

Z‑Image Base часто выдерживает более длительное обучение, чем дистиллированные модели в стиле Turbo, но важно остановиться до того, как начнёт рушиться следование промптам.

Персонаж / сходство: 3000–7000 steps (sweet spot зависит от размера датасета)
Стиль: 2000–6000 steps
Продукт / концепт: 2500–6500 steps

Для быстрого smoke‑test обучения LoRA Z‑Image: запустите 1000–1500 steps, посмотрите сэмплы, затем делайте полный прогон.

5.7 Оптимизации Text Encoder + регуляризация (справа)

Unload TE: оставьте OFF, если вы не хотите строго trigger‑only поведение без подписей
Cache Text Embeddings: включайте только при статичных подписях и без caption dropout

Differential Output Preservation (DOP)

Если в вашей сборке UI это есть:

Включайте Differential Output Preservation, когда важно, чтобы LoRA «включалась только по запросу»
При DOP=ON не кешируйте text embeddings (концептуально конфликтует)

5.8 Панель ADVANCED

Do Differential Guidance: оставьте OFF, если вы не используете это постоянно и не понимаете, что именно тюните.

5.9 Панель DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Используйте настройки датасета для обучения LoRA Z‑Image так, как они показаны в UI:

Target Dataset: выберите датасет
Default Caption: опциональный короткий шаблон (или оставьте пустым, если используете .txt для каждого изображения)
Caption Dropout Rate: 0.05 (поставьте 0, если кешируете text embeddings)
Cache Latents: ON для скорости
Is Regularization: OFF для основного датасета
Flip X / Flip Y: OFF по умолчанию (особенно для логотипов/текста)
Resolutions (самый важный рычаг в обучении LoRA Z‑Image Base)

Low VRAM: 512 + 768
24GB: 768 + 1024 (или только 1024, если датасет очень ровный)
High VRAM: добавьте 1280 / 1536 для лучшей точности продукта/текста

5.10 Панель SAMPLE (где Base vs Turbo важнее всего)

Это место №1, где ошибаются при настройке Z‑Image Base в обучении LoRA Z‑Image.

Рекомендуемые Base‑настройки семплинга

Sample Every: 250
Sampler: FlowMatch (чтобы совпадала «семья» со scheduler)
Guidance Scale: 4 (типичный диапазон Base ~3–5; подстройте по вкусу)
Sample Steps: 30–50 (начните с 30)
Width / Height: как ваш основной бакет (1024×1024 — хорошая baseline)
Добавьте небольшой набор промптов, который покрывает:

триггер (если используете)
разные композиции
хотя бы один «сложный» промпт для проверки идентичности/стиля/геометрии продукта

Опциональный негативный промпт (Base поддерживает хорошо)

Для превью можно использовать короткий негативный промпт, чтобы снизить артефакты, например:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Запуск обучения и мониторинг

Запускайте job и следите в процессе обучения LoRA Z‑Image за:

Samples на каждом интервале чекпойнтов (250 steps)
Следованием промптам (промпты всё ещё уважаются?)
Сигналами переобучения (одно и то же лицо/текстура везде, фон «схлопывается»)

Выберите чекпойнт, где LoRA сильная, но не превращается в always‑on фильтр.

6. Рекомендуемые конфиги обучения LoRA Z‑Image по уровням VRAM

Tier 1 — 12–16GB (тесно по VRAM)

Low VRAM: ON
Quantization: float8 для Transformer + Text Encoder
Linear Rank: 16
Resolutions: 512 + 768
Sample Steps: 30 (если нужно — держите preview на 768)
Steps: 2000–5000 в зависимости от размера датасета

Tier 2 — 24GB (самый практичный локальный уровень)

Low VRAM: ON (позже можно попробовать OFF)
Quantization: float8
Linear Rank: 32 (персонаж/продукт), 16–32 (стиль)
Resolutions: 768 + 1024 (или только 1024 при высокой согласованности)
Sample Steps: 30–40
Steps: 3000–7000 в зависимости от цели

Tier 3 — 48GB+ (или облако H100/H200)

Low VRAM: OFF (опционально)
Quantization: опционально (float8 всё ещё норм)
Linear Rank: 32–48
Resolutions: 1024 + 1280 + 1536 (если датасет это поддерживает)
Sample Steps: 40–50 для лучшего качества превью
Steps: те же диапазоны по целям; просто быстрее итерации

7. Частые проблемы обучения Z‑Image Base и как их исправить

Это специфичные для Z‑Image Base проблемы (не общие ошибки AI Toolkit).

«Base выглядит недоделанным / мало деталей»

Вероятная причина: слишком мало шагов и/или слишком низкое разрешение.

Исправление

Увеличьте sample steps до 40–50
Попробуйте более высокий бакет (1280/1536), если VRAM позволяет
Если в вашем инференс‑workflow есть параметр “shift”, некоторые пользователи отмечают лучшую связность при среднем shift (например, ~4–6). Используйте это только как тонкую настройку после корректных steps/CFG.

«Моя LoRA Base работает на Base, но не на Turbo»

Во многих случаях это ожидаемо:

Turbo дистиллирован и ведёт себя иначе (особенно по CFG/негативам и «силе» LoRA).

Исправление

Если вам нужен деплой на Turbo, лучше тренировать в Turbo‑ориентированном workflow, а не ожидать 1:1 перенос Base↔Turbo.
Для лучших результатов тренируйте и деплойте в одной семье (Base→Base).

«Текст/логотипы нестабильны»

Z‑Image Base может отлично делать типографику, но в обучении LoRA Z‑Image он чувствителен к разрешению и семплингу.

Исправление

Тренируйте на 1024+ (и рассмотрите 1280/1536, если возможно)
Оценивайте на 40–50 шагах
Избегайте Flip X, если важен текст
Последовательно описывайте ключевую текстовую особенность в подписях (не полагайтесь на триггер)

8. Как использовать LoRA Z‑Image Base после обучения LoRA Z‑Image

Run LoRA — откройте страницу Z‑Image Run LoRA. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который обучили на RunComfy, или импортировать файл LoRA, который обучили в AI Toolkit, а затем запускать инференс через playground или API. RunComfy использует ту же базовую модель и полное определение AI Toolkit pipeline из вашего training‑конфига, поэтому то, что вы видели во время обучения, вы получаете и на инференсе — это помогает держать результат согласованным с вашими сэмплами обучения LoRA Z‑Image. Также вы можете задеплоить LoRA как отдельный endpoint через страницу Deployments

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Обучение LoRA Z‑Image (Base) с Ostris AI Toolkit

Содержание

1. Обзор Z‑Image: что он умеет (и чем отличается от Turbo)

1.1 Что означает «Z‑Image Base»

1.2 Base vs Turbo (важный вывод для обучения)

2. Варианты окружения: локальный AI Toolkit vs облачный AI Toolkit на RunComfy

3. Требования к железу и VRAM для обучения LoRA Z‑Image Base

4. Подготовка датасета для обучения LoRA Z‑Image Base

4.1 Определите цель (и форму датасета)

4.2 Подписи + триггер (проще — лучше)

5. Пошагово: обучение LoRA Z‑Image в AI Toolkit

5.1 Панель JOB (Training Name, GPU ID, Trigger Word)

5.2 Панель MODEL (Model Architecture, Name or Path, Options)

5.3 Панель QUANTIZATION (Transformer, Text Encoder)

5.4 Панель TARGET (Target Type, Linear Rank)

5.5 Панель SAVE (Data Type, Save Every, Max Step Saves to Keep)

5.6 Панель TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

5.7 Оптимизации Text Encoder + регуляризация (справа)

5.8 Панель ADVANCED

5.9 Панель DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

5.10 Панель SAMPLE (где Base vs Turbo важнее всего)

5.11 Запуск обучения и мониторинг

6. Рекомендуемые конфиги обучения LoRA Z‑Image по уровням VRAM

Tier 1 — 12–16GB (тесно по VRAM)

Tier 2 — 24GB (самый практичный локальный уровень)

Tier 3 — 48GB+ (или облако H100/H200)

7. Частые проблемы обучения Z‑Image Base и как их исправить

«Base выглядит недоделанным / мало деталей»

«Моя LoRA Base работает на Base, но не на Turbo»

«Текст/логотипы нестабильны»

8. Как использовать LoRA Z‑Image Base после обучения LoRA Z‑Image

Больше гайдов по обучению LoRA с AI Toolkit