AI Toolkit LoRA Training Guides

Обучение LoRA Z‑Image Base в Ostris AI Toolkit

Гайд по обучению качественной LoRA для Z‑Image Base в Ostris AI Toolkit: датасет, rank/LR/steps и настройка сэмплинга в стиле Base (30–50 steps + CFG) для стабильного результата.

Train Diffusion Models with Ostris AI Toolkit

Прокрутите горизонтально, чтобы увидеть всю форму

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Обучение LoRA Z‑Image (Base) с Ostris AI Toolkit

Z‑Image (Base) — это полный чекпойнт Z‑Image (не 8‑шаговый Turbo). Он рассчитан на высококачественный text‑to‑image с CFG + негативными промптами и большим числом шагов семплинга, а ещё это лучший выбор, если ваша цель — чистая, полностью контролируемая LoRA (персонаж, стиль, продукт, концепты с большим количеством текста/типографики).

К концу этого гайда по обучению LoRA Z‑Image вы сможете:

  • Провести обучение LoRA Z‑Image в AI Toolkit от Ostris (локально или в облаке).
  • Выбрать настройки по умолчанию, которые действительно совпадают с поведением Z‑Image Base на инференсе (steps + CFG + разрешение).
  • Избежать самых частых ошибок обучения LoRA Z‑Image Base (настройки Turbo, «LoRA ничего не меняет», несовпадение Base↔Turbo).
  • Экспортировать чекпойнты, которые можно сразу использовать в вашей UI для инференса.
Эта статья — часть серии по обучению LoRA в AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора AI Toolkit LoRA training перед тем, как переходить к этому обучению LoRA Z‑Image:
https://www.runcomfy.com/ru/trainer/ai-toolkit/getting-started

Содержание


1. Обзор Z‑Image: что он умеет (и чем отличается от Turbo)

1.1 Что означает «Z‑Image Base»

«Z‑Image Base» — это не дистиллированный (non‑distilled) чекпойнт Z‑Image. На практике:

  • Он ожидает больше шагов семплинга (примерно ~30–50, а не 8).
  • Он эффективно использует CFG и негативные промпты.
  • Это лучшая цель для LoRA fine‑tuning (вариант‑ключевик 1 раз) и обучения LoRA Z‑Image, если вам нужен максимум контроля и качества.

1.2 Base vs Turbo (важный вывод для обучения)

Частая ошибка в обучении LoRA Z‑Image — тренировать (или оценивать) Base так же, как Turbo.

  • Turbo‑настройки (8 шагов, низкий/нулевой CFG) сделают Base‑результат недо‑проработанным, и вы можете решить, что LoRA «не работает».
  • Base‑настройки (30–50 шагов + нормальный CFG) — правильный способ оценивать чекпойнты.

Правило:

Если вы обучали LoRA под Base, оценивайте её на Base с Base‑стилем семплинга.


2. Варианты окружения: локальный AI Toolkit vs облачный AI Toolkit на RunComfy

Этот гайд по обучению LoRA Z‑Image можно пройти в двух вариантах:

  • Локальный AI Toolkit (ваша GPU)

    Установите AI Toolkit из GitHub‑репозитория и запустите Web UI. Локальное обучение LoRA Z‑Image идеально, если у вас есть NVIDIA GPU, вам комфортно управлять CUDA/драйверами и вы хотите постоянную среду для итераций LoRA.

    https://github.com/ostris/ai-toolkit

  • Облачный AI Toolkit на RunComfy (H100 / H200)

    AI Toolkit работает в браузере на больших GPU:

    • Без установок (просто открыть UI)
    • Большая VRAM для более высоких бакетов (1280 / 1536)
    • Постоянный workspace для датасетов, конфигов и прошлых запусков

Рабочий процесс обучения LoRA Z‑Image одинаков в обоих вариантах; меняется только место, где находится GPU.


3. Требования к железу и VRAM для обучения LoRA Z‑Image Base

Z‑Image может работать на сравнительно скромных GPU для инференса, но обучение LoRA Z‑Image сильно зависит от:

  • Разрешения бакетов (768 vs 1024 vs 1536)
  • Квантизации (float8)
  • Ранга LoRA
  • Настроек семплинга во время обучения (preview‑разрешение + preview‑steps)

Практичная шпаргалка для обучения LoRA Z‑Image:

  • 12–16GB VRAM: реально на 512/768 при аккуратных настройках
  • 24GB VRAM: комфортно для обучения LoRA на 1024
  • 48GB+ VRAM: самый простой путь к бакетам 1280/1536 и быстрой итерации
Если вы делаете типографику или вам важна продуктовая точность, планируйте более высокое разрешение и учитывайте, что требования к VRAM быстро растут.

4. Подготовка датасета для обучения LoRA Z‑Image Base

Z‑Image Base не «особенный» по формату датасета — но он чувствителен к тому, как вы оцениваете качество. Поэтому датасет для обучения LoRA Z‑Image должен соответствовать тому, как вы будете использовать модель на инференсе (CFG + больше шагов).

4.1 Определите цель (и форму датасета)

  • Персонаж / сходство: 15–50 изображений

    Смешивайте крупные планы + средние планы + разные условия освещения.

  • Стиль: 30–200 изображений

    Максимизируйте разнообразие сюжетов, чтобы модель выучила «признаки стиля», а не одну сцену.

  • Продукт / концепт: 20–80 изображений

    Стабильный кадр и понятные подписи для ключевых признаков (материалы, текст на этикетке, форма).

4.2 Подписи + триггер (проще — лучше)

  • Используйте триггер, если вам нужен чистый «вкл/выкл» (рекомендуется для персонажа/продукта в обучении LoRA Z‑Image).
  • Держите подписи короткими и последовательными. Длинные подписи повышают риск случайного «склеивания» (причёска/фон становятся «частью триггера»).

Быстрые шаблоны

  • Персонаж:

    [trigger]

    или photo of [trigger], portrait, natural lighting

  • Стиль:

    in a [style] illustration style, soft shading, muted palette

  • Продукт:

    product photo of [trigger], studio lighting, clean background


5. Пошагово: обучение LoRA Z‑Image в AI Toolkit

Этот раздел написан так, чтобы соответствовать панелям UI AI Toolkit, которые вы видите при создании нового job’а обучения LoRA Z‑Image.

5.1 Панель JOB (Training Name, GPU ID, Trigger Word)

  • Training Name: понятное имя запуска (например, zimage_base_character_v1)
  • GPU ID: выберите GPU (локально) или оставьте дефолт (облако)
  • Trigger Word (опционально, но рекомендуется для персонажа/продукта в обучении LoRA Z‑Image):

    Пример: zimgAlice

5.2 Панель MODEL (Model Architecture, Name or Path, Options)

  • Model Architecture: выберите Z‑Image
  • Name or Path: укажите repo базовой модели, обычно:

    Tongyi-MAI/Z-Image

  • Options
    • Low VRAM: ON, если у вас ≤ 24GB
    • Layer Offloading: OFF по умолчанию; включайте только если всё ещё OOM после снижения разрешения/ранга

5.3 Панель QUANTIZATION (Transformer, Text Encoder)

  • Transformer: float8 (default) — хороший дефолт, чтобы вместить более крупные бакеты.
  • Text Encoder: float8 (default), если нужна экономия VRAM.

Если VRAM много, можно снизить квантизацию — но float8 обычно безопасная baseline для обучения LoRA Z‑Image.

5.4 Панель TARGET (Target Type, Linear Rank)

  • Target Type: LoRA
  • Linear Rank (практичные дефолты для обучения LoRA Z‑Image)
    • 16: стиль‑LoRA, low‑VRAM запуски
    • 32: персонаж/продукт, выше точность
    • 48+: только если VRAM очень много и вы точно видите недообучение

5.5 Панель SAVE (Data Type, Save Every, Max Step Saves to Keep)

  • Data Type: BF16
  • Save Every: 250 (достаточно чекпойнтов, чтобы выбрать лучший)
  • Max Step Saves to Keep: 4 (чтобы не раздувать диск)

5.6 Панель TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Стабильная baseline для обучения LoRA Z‑Image

  • Batch Size: 1
  • Gradient Accumulation: 1 (увеличьте, если хотите больший эффективный batch без VRAM)
  • Steps: см. ниже (диапазоны по целям)
  • Optimizer: AdamW8Bit
  • Learning Rate: 0.0001 (снизьте до 0.00005, если нестабильно)
  • Weight Decay: 0.0001
  • Timestep Type: Weighted
  • Timestep Bias: Balanced
  • Loss Type: Mean Squared Error
  • EMA: OFF для большинства LoRA‑запусков

Steps: ориентир, дружелюбный к Z‑Image Base

Z‑Image Base часто выдерживает более длительное обучение, чем дистиллированные модели в стиле Turbo, но важно остановиться до того, как начнёт рушиться следование промптам.

  • Персонаж / сходство: 3000–7000 steps (sweet spot зависит от размера датасета)
  • Стиль: 2000–6000 steps
  • Продукт / концепт: 2500–6500 steps

Для быстрого smoke‑test обучения LoRA Z‑Image: запустите 1000–1500 steps, посмотрите сэмплы, затем делайте полный прогон.

5.7 Оптимизации Text Encoder + регуляризация (справа)

  • Unload TE: оставьте OFF, если вы не хотите строго trigger‑only поведение без подписей
  • Cache Text Embeddings: включайте только при статичных подписях и без caption dropout

Differential Output Preservation (DOP)

Если в вашей сборке UI это есть:

  • Включайте Differential Output Preservation, когда важно, чтобы LoRA «включалась только по запросу»
  • При DOP=ON не кешируйте text embeddings (концептуально конфликтует)

5.8 Панель ADVANCED

  • Do Differential Guidance: оставьте OFF, если вы не используете это постоянно и не понимаете, что именно тюните.

5.9 Панель DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Используйте настройки датасета для обучения LoRA Z‑Image так, как они показаны в UI:

  • Target Dataset: выберите датасет
  • Default Caption: опциональный короткий шаблон (или оставьте пустым, если используете .txt для каждого изображения)
  • Caption Dropout Rate: 0.05 (поставьте 0, если кешируете text embeddings)
  • Cache Latents: ON для скорости
  • Is Regularization: OFF для основного датасета
  • Flip X / Flip Y: OFF по умолчанию (особенно для логотипов/текста)
  • Resolutions (самый важный рычаг в обучении LoRA Z‑Image Base)
    • Low VRAM: 512 + 768
    • 24GB: 768 + 1024 (или только 1024, если датасет очень ровный)
    • High VRAM: добавьте 1280 / 1536 для лучшей точности продукта/текста

5.10 Панель SAMPLE (где Base vs Turbo важнее всего)

Это место №1, где ошибаются при настройке Z‑Image Base в обучении LoRA Z‑Image.

Рекомендуемые Base‑настройки семплинга

  • Sample Every: 250
  • Sampler: FlowMatch (чтобы совпадала «семья» со scheduler)
  • Guidance Scale: 4 (типичный диапазон Base ~3–5; подстройте по вкусу)
  • Sample Steps: 30–50 (начните с 30)
  • Width / Height: как ваш основной бакет (1024×1024 — хорошая baseline)
  • Добавьте небольшой набор промптов, который покрывает:
    • триггер (если используете)
    • разные композиции
    • хотя бы один «сложный» промпт для проверки идентичности/стиля/геометрии продукта

Опциональный негативный промпт (Base поддерживает хорошо)

Для превью можно использовать короткий негативный промпт, чтобы снизить артефакты, например:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Запуск обучения и мониторинг

Запускайте job и следите в процессе обучения LoRA Z‑Image за:

  • Samples на каждом интервале чекпойнтов (250 steps)
  • Следованием промптам (промпты всё ещё уважаются?)
  • Сигналами переобучения (одно и то же лицо/текстура везде, фон «схлопывается»)

Выберите чекпойнт, где LoRA сильная, но не превращается в always‑on фильтр.


6. Рекомендуемые конфиги обучения LoRA Z‑Image по уровням VRAM

Tier 1 — 12–16GB (тесно по VRAM)

  • Low VRAM: ON
  • Quantization: float8 для Transformer + Text Encoder
  • Linear Rank: 16
  • Resolutions: 512 + 768
  • Sample Steps: 30 (если нужно — держите preview на 768)
  • Steps: 2000–5000 в зависимости от размера датасета

Tier 2 — 24GB (самый практичный локальный уровень)

  • Low VRAM: ON (позже можно попробовать OFF)
  • Quantization: float8
  • Linear Rank: 32 (персонаж/продукт), 16–32 (стиль)
  • Resolutions: 768 + 1024 (или только 1024 при высокой согласованности)
  • Sample Steps: 30–40
  • Steps: 3000–7000 в зависимости от цели

Tier 3 — 48GB+ (или облако H100/H200)

  • Low VRAM: OFF (опционально)
  • Quantization: опционально (float8 всё ещё норм)
  • Linear Rank: 32–48
  • Resolutions: 1024 + 1280 + 1536 (если датасет это поддерживает)
  • Sample Steps: 40–50 для лучшего качества превью
  • Steps: те же диапазоны по целям; просто быстрее итерации

7. Частые проблемы обучения Z‑Image Base и как их исправить

Это специфичные для Z‑Image Base проблемы (не общие ошибки AI Toolkit).

«Base выглядит недоделанным / мало деталей»

Вероятная причина: слишком мало шагов и/или слишком низкое разрешение.

Исправление

  • Увеличьте sample steps до 40–50
  • Попробуйте более высокий бакет (1280/1536), если VRAM позволяет
  • Если в вашем инференс‑workflow есть параметр “shift”, некоторые пользователи отмечают лучшую связность при среднем shift (например, ~4–6). Используйте это только как тонкую настройку после корректных steps/CFG.

«Моя LoRA Base работает на Base, но не на Turbo»

Во многих случаях это ожидаемо:

  • Turbo дистиллирован и ведёт себя иначе (особенно по CFG/негативам и «силе» LoRA).

Исправление

  • Если вам нужен деплой на Turbo, лучше тренировать в Turbo‑ориентированном workflow, а не ожидать 1:1 перенос Base↔Turbo.
  • Для лучших результатов тренируйте и деплойте в одной семье (Base→Base).

«Текст/логотипы нестабильны»

Z‑Image Base может отлично делать типографику, но в обучении LoRA Z‑Image он чувствителен к разрешению и семплингу.

Исправление

  • Тренируйте на 1024+ (и рассмотрите 1280/1536, если возможно)
  • Оценивайте на 40–50 шагах
  • Избегайте Flip X, если важен текст
  • Последовательно описывайте ключевую текстовую особенность в подписях (не полагайтесь на триггер)

8. Как использовать LoRA Z‑Image Base после обучения LoRA Z‑Image

Run LoRA — откройте страницу Z‑Image Run LoRA. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который обучили на RunComfy, или импортировать файл LoRA, который обучили в AI Toolkit, а затем запускать инференс через playground или API. RunComfy использует ту же базовую модель и полное определение AI Toolkit pipeline из вашего training‑конфига, поэтому то, что вы видели во время обучения, вы получаете и на инференсе — это помогает держать результат согласованным с вашими сэмплами обучения LoRA Z‑Image. Также вы можете задеплоить LoRA как отдельный endpoint через страницу Deployments


Больше гайдов по обучению LoRA с AI Toolkit

Ready to start training?