Обучение LoRA Z‑Image (Base) с Ostris AI Toolkit
Z‑Image (Base) — это полный чекпойнт Z‑Image (не 8‑шаговый Turbo). Он рассчитан на высококачественный text‑to‑image с CFG + негативными промптами и большим числом шагов семплинга, а ещё это лучший выбор, если ваша цель — чистая, полностью контролируемая LoRA (персонаж, стиль, продукт, концепты с большим количеством текста/типографики).
К концу этого гайда по обучению LoRA Z‑Image вы сможете:
- Провести обучение LoRA Z‑Image в AI Toolkit от Ostris (локально или в облаке).
- Выбрать настройки по умолчанию, которые действительно совпадают с поведением Z‑Image Base на инференсе (steps + CFG + разрешение).
- Избежать самых частых ошибок обучения LoRA Z‑Image Base (настройки Turbo, «LoRA ничего не меняет», несовпадение Base↔Turbo).
- Экспортировать чекпойнты, которые можно сразу использовать в вашей UI для инференса.
Эта статья — часть серии по обучению LoRA в AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора AI Toolkit LoRA training перед тем, как переходить к этому обучению LoRA Z‑Image:
https://www.runcomfy.com/ru/trainer/ai-toolkit/getting-started
Содержание
- 1. Обзор Z‑Image: что он умеет (и чем отличается от Turbo)
- 2. Варианты окружения: локальный AI Toolkit vs облачный AI Toolkit на RunComfy
- 3. Требования к железу и VRAM для обучения LoRA Z‑Image Base
- 4. Подготовка датасета для обучения LoRA Z‑Image Base
- 5. Пошагово: обучение LoRA Z‑Image в AI Toolkit
- 6. Рекомендуемые конфиги обучения LoRA Z‑Image по уровням VRAM
- 7. Частые проблемы обучения Z‑Image Base и как их исправить
- 8. Как использовать LoRA Z‑Image Base после обучения LoRA Z‑Image
1. Обзор Z‑Image: что он умеет (и чем отличается от Turbo)
1.1 Что означает «Z‑Image Base»
«Z‑Image Base» — это не дистиллированный (non‑distilled) чекпойнт Z‑Image. На практике:
- Он ожидает больше шагов семплинга (примерно ~30–50, а не 8).
- Он эффективно использует CFG и негативные промпты.
- Это лучшая цель для LoRA fine‑tuning (вариант‑ключевик 1 раз) и обучения LoRA Z‑Image, если вам нужен максимум контроля и качества.
1.2 Base vs Turbo (важный вывод для обучения)
Частая ошибка в обучении LoRA Z‑Image — тренировать (или оценивать) Base так же, как Turbo.
- Turbo‑настройки (8 шагов, низкий/нулевой CFG) сделают Base‑результат недо‑проработанным, и вы можете решить, что LoRA «не работает».
- Base‑настройки (30–50 шагов + нормальный CFG) — правильный способ оценивать чекпойнты.
Правило:
Если вы обучали LoRA под Base, оценивайте её на Base с Base‑стилем семплинга.
2. Варианты окружения: локальный AI Toolkit vs облачный AI Toolkit на RunComfy
Этот гайд по обучению LoRA Z‑Image можно пройти в двух вариантах:
- Локальный AI Toolkit (ваша GPU)
Установите AI Toolkit из GitHub‑репозитория и запустите Web UI. Локальное обучение LoRA Z‑Image идеально, если у вас есть NVIDIA GPU, вам комфортно управлять CUDA/драйверами и вы хотите постоянную среду для итераций LoRA.
https://github.com/ostris/ai-toolkit
- Облачный AI Toolkit на RunComfy (H100 / H200)
AI Toolkit работает в браузере на больших GPU:
- Без установок (просто открыть UI)
- Большая VRAM для более высоких бакетов (1280 / 1536)
- Постоянный workspace для датасетов, конфигов и прошлых запусков
Рабочий процесс обучения LoRA Z‑Image одинаков в обоих вариантах; меняется только место, где находится GPU.
3. Требования к железу и VRAM для обучения LoRA Z‑Image Base
Z‑Image может работать на сравнительно скромных GPU для инференса, но обучение LoRA Z‑Image сильно зависит от:
- Разрешения бакетов (768 vs 1024 vs 1536)
- Квантизации (float8)
- Ранга LoRA
- Настроек семплинга во время обучения (preview‑разрешение + preview‑steps)
Практичная шпаргалка для обучения LoRA Z‑Image:
- 12–16GB VRAM: реально на 512/768 при аккуратных настройках
- 24GB VRAM: комфортно для обучения LoRA на 1024
- 48GB+ VRAM: самый простой путь к бакетам 1280/1536 и быстрой итерации
Если вы делаете типографику или вам важна продуктовая точность, планируйте более высокое разрешение и учитывайте, что требования к VRAM быстро растут.
4. Подготовка датасета для обучения LoRA Z‑Image Base
Z‑Image Base не «особенный» по формату датасета — но он чувствителен к тому, как вы оцениваете качество. Поэтому датасет для обучения LoRA Z‑Image должен соответствовать тому, как вы будете использовать модель на инференсе (CFG + больше шагов).
4.1 Определите цель (и форму датасета)
- Персонаж / сходство: 15–50 изображений
Смешивайте крупные планы + средние планы + разные условия освещения.
- Стиль: 30–200 изображений
Максимизируйте разнообразие сюжетов, чтобы модель выучила «признаки стиля», а не одну сцену.
- Продукт / концепт: 20–80 изображений
Стабильный кадр и понятные подписи для ключевых признаков (материалы, текст на этикетке, форма).
4.2 Подписи + триггер (проще — лучше)
- Используйте триггер, если вам нужен чистый «вкл/выкл» (рекомендуется для персонажа/продукта в обучении LoRA Z‑Image).
- Держите подписи короткими и последовательными. Длинные подписи повышают риск случайного «склеивания» (причёска/фон становятся «частью триггера»).
Быстрые шаблоны
- Персонаж:
[trigger]или
photo of [trigger], portrait, natural lighting - Стиль:
in a [style] illustration style, soft shading, muted palette - Продукт:
product photo of [trigger], studio lighting, clean background
5. Пошагово: обучение LoRA Z‑Image в AI Toolkit
Этот раздел написан так, чтобы соответствовать панелям UI AI Toolkit, которые вы видите при создании нового job’а обучения LoRA Z‑Image.
5.1 Панель JOB (Training Name, GPU ID, Trigger Word)
- Training Name: понятное имя запуска (например,
zimage_base_character_v1) - GPU ID: выберите GPU (локально) или оставьте дефолт (облако)
- Trigger Word (опционально, но рекомендуется для персонажа/продукта в обучении LoRA Z‑Image):
Пример:
zimgAlice
5.2 Панель MODEL (Model Architecture, Name or Path, Options)
- Model Architecture: выберите Z‑Image
- Name or Path: укажите repo базовой модели, обычно:
Tongyi-MAI/Z-Image - Options
- Low VRAM: ON, если у вас ≤ 24GB
- Layer Offloading: OFF по умолчанию; включайте только если всё ещё OOM после снижения разрешения/ранга
5.3 Панель QUANTIZATION (Transformer, Text Encoder)
- Transformer:
float8 (default)— хороший дефолт, чтобы вместить более крупные бакеты. - Text Encoder:
float8 (default), если нужна экономия VRAM.
Если VRAM много, можно снизить квантизацию — но float8 обычно безопасная baseline для обучения LoRA Z‑Image.
5.4 Панель TARGET (Target Type, Linear Rank)
- Target Type:
LoRA - Linear Rank (практичные дефолты для обучения LoRA Z‑Image)
- 16: стиль‑LoRA, low‑VRAM запуски
- 32: персонаж/продукт, выше точность
- 48+: только если VRAM очень много и вы точно видите недообучение
5.5 Панель SAVE (Data Type, Save Every, Max Step Saves to Keep)
- Data Type:
BF16 - Save Every:
250(достаточно чекпойнтов, чтобы выбрать лучший) - Max Step Saves to Keep:
4(чтобы не раздувать диск)
5.6 Панель TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)
Стабильная baseline для обучения LoRA Z‑Image
- Batch Size:
1 - Gradient Accumulation:
1(увеличьте, если хотите больший эффективный batch без VRAM) - Steps: см. ниже (диапазоны по целям)
- Optimizer:
AdamW8Bit - Learning Rate:
0.0001(снизьте до0.00005, если нестабильно) - Weight Decay:
0.0001 - Timestep Type:
Weighted - Timestep Bias:
Balanced - Loss Type:
Mean Squared Error - EMA: OFF для большинства LoRA‑запусков
Steps: ориентир, дружелюбный к Z‑Image Base
Z‑Image Base часто выдерживает более длительное обучение, чем дистиллированные модели в стиле Turbo, но важно остановиться до того, как начнёт рушиться следование промптам.
- Персонаж / сходство: 3000–7000 steps (sweet spot зависит от размера датасета)
- Стиль: 2000–6000 steps
- Продукт / концепт: 2500–6500 steps
Для быстрого smoke‑test обучения LoRA Z‑Image: запустите 1000–1500 steps, посмотрите сэмплы, затем делайте полный прогон.
5.7 Оптимизации Text Encoder + регуляризация (справа)
- Unload TE: оставьте OFF, если вы не хотите строго trigger‑only поведение без подписей
- Cache Text Embeddings: включайте только при статичных подписях и без caption dropout
Differential Output Preservation (DOP)
Если в вашей сборке UI это есть:
- Включайте Differential Output Preservation, когда важно, чтобы LoRA «включалась только по запросу»
- При DOP=ON не кешируйте text embeddings (концептуально конфликтует)
5.8 Панель ADVANCED
- Do Differential Guidance: оставьте OFF, если вы не используете это постоянно и не понимаете, что именно тюните.
5.9 Панель DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)
Используйте настройки датасета для обучения LoRA Z‑Image так, как они показаны в UI:
- Target Dataset: выберите датасет
- Default Caption: опциональный короткий шаблон (или оставьте пустым, если используете
.txtдля каждого изображения) - Caption Dropout Rate:
0.05(поставьте0, если кешируете text embeddings) - Cache Latents: ON для скорости
- Is Regularization: OFF для основного датасета
- Flip X / Flip Y: OFF по умолчанию (особенно для логотипов/текста)
- Resolutions (самый важный рычаг в обучении LoRA Z‑Image Base)
- Low VRAM: 512 + 768
- 24GB: 768 + 1024 (или только 1024, если датасет очень ровный)
- High VRAM: добавьте 1280 / 1536 для лучшей точности продукта/текста
5.10 Панель SAMPLE (где Base vs Turbo важнее всего)
Это место №1, где ошибаются при настройке Z‑Image Base в обучении LoRA Z‑Image.
Рекомендуемые Base‑настройки семплинга
- Sample Every:
250 - Sampler:
FlowMatch(чтобы совпадала «семья» со scheduler) - Guidance Scale:
4(типичный диапазон Base ~3–5; подстройте по вкусу) - Sample Steps: 30–50 (начните с 30)
- Width / Height: как ваш основной бакет (1024×1024 — хорошая baseline)
- Добавьте небольшой набор промптов, который покрывает:
- триггер (если используете)
- разные композиции
- хотя бы один «сложный» промпт для проверки идентичности/стиля/геометрии продукта
Опциональный негативный промпт (Base поддерживает хорошо)
Для превью можно использовать короткий негативный промпт, чтобы снизить артефакты, например:
low quality, blurry, deformed, bad anatomy, watermark, text artifacts
5.11 Запуск обучения и мониторинг
Запускайте job и следите в процессе обучения LoRA Z‑Image за:
- Samples на каждом интервале чекпойнтов (250 steps)
- Следованием промптам (промпты всё ещё уважаются?)
- Сигналами переобучения (одно и то же лицо/текстура везде, фон «схлопывается»)
Выберите чекпойнт, где LoRA сильная, но не превращается в always‑on фильтр.
6. Рекомендуемые конфиги обучения LoRA Z‑Image по уровням VRAM
Tier 1 — 12–16GB (тесно по VRAM)
- Low VRAM: ON
- Quantization: float8 для Transformer + Text Encoder
- Linear Rank: 16
- Resolutions: 512 + 768
- Sample Steps: 30 (если нужно — держите preview на 768)
- Steps: 2000–5000 в зависимости от размера датасета
Tier 2 — 24GB (самый практичный локальный уровень)
- Low VRAM: ON (позже можно попробовать OFF)
- Quantization: float8
- Linear Rank: 32 (персонаж/продукт), 16–32 (стиль)
- Resolutions: 768 + 1024 (или только 1024 при высокой согласованности)
- Sample Steps: 30–40
- Steps: 3000–7000 в зависимости от цели
Tier 3 — 48GB+ (или облако H100/H200)
- Low VRAM: OFF (опционально)
- Quantization: опционально (float8 всё ещё норм)
- Linear Rank: 32–48
- Resolutions: 1024 + 1280 + 1536 (если датасет это поддерживает)
- Sample Steps: 40–50 для лучшего качества превью
- Steps: те же диапазоны по целям; просто быстрее итерации
7. Частые проблемы обучения Z‑Image Base и как их исправить
Это специфичные для Z‑Image Base проблемы (не общие ошибки AI Toolkit).
«Base выглядит недоделанным / мало деталей»
Вероятная причина: слишком мало шагов и/или слишком низкое разрешение.
Исправление
- Увеличьте sample steps до 40–50
- Попробуйте более высокий бакет (1280/1536), если VRAM позволяет
- Если в вашем инференс‑workflow есть параметр “shift”, некоторые пользователи отмечают лучшую связность при среднем shift (например, ~4–6). Используйте это только как тонкую настройку после корректных steps/CFG.
«Моя LoRA Base работает на Base, но не на Turbo»
Во многих случаях это ожидаемо:
- Turbo дистиллирован и ведёт себя иначе (особенно по CFG/негативам и «силе» LoRA).
Исправление
- Если вам нужен деплой на Turbo, лучше тренировать в Turbo‑ориентированном workflow, а не ожидать 1:1 перенос Base↔Turbo.
- Для лучших результатов тренируйте и деплойте в одной семье (Base→Base).
«Текст/логотипы нестабильны»
Z‑Image Base может отлично делать типографику, но в обучении LoRA Z‑Image он чувствителен к разрешению и семплингу.
Исправление
- Тренируйте на 1024+ (и рассмотрите 1280/1536, если возможно)
- Оценивайте на 40–50 шагах
- Избегайте Flip X, если важен текст
- Последовательно описывайте ключевую текстовую особенность в подписях (не полагайтесь на триггер)
8. Как использовать LoRA Z‑Image Base после обучения LoRA Z‑Image
Run LoRA — откройте страницу Z‑Image Run LoRA. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который обучили на RunComfy, или импортировать файл LoRA, который обучили в AI Toolkit, а затем запускать инференс через playground или API. RunComfy использует ту же базовую модель и полное определение AI Toolkit pipeline из вашего training‑конфига, поэтому то, что вы видели во время обучения, вы получаете и на инференсе — это помогает держать результат согласованным с вашими сэмплами обучения LoRA Z‑Image. Также вы можете задеплоить LoRA как отдельный endpoint через страницу Deployments
Больше гайдов по обучению LoRA с AI Toolkit
- Обучение LoRA Z‑Image‑Turbo & De‑Turbo с AI Toolkit
- Обучение LoRA FLUX.2 Dev с AI Toolkit
- Обучение LoRA Qwen-Image-Edit-2511 с AI Toolkit
- Обучение LoRA Qwen-Image-Edit-2509 с AI Toolkit
- Обучение LoRA Wan 2.2 I2V 14B image-to-video
- Обучение LoRA Wan 2.2 T2V 14B text-to-video
- Обучение LoRA Qwen Image 2512
- Обучение LoRA LTX-2 с AI Toolkit
Ready to start training?

