Treinamento LoRA Z-Image (Z-Image Turbo + De-Turbo) com Ostris AI Toolkit

Z‑Image é um modelo de geração de imagens de 6B parâmetros da Tongyi‑MAI construído sobre um Scalable Single‑Stream Diffusion Transformer (S3‑DiT). É incomumente eficiente para seu tamanho e projetado para rodar em 1024×1024 em GPUs de consumo.

Este guia de Treinamento LoRA Z-Image Turbo cobre as duas abordagens mais comuns e práticas para treinar LoRA Z-Image Turbo:

1) Z‑Image Turbo (com Training Adapter) — ideal quando você quer que seu LoRA rode com verdadeira velocidade Turbo de 8 passos após o treinamento.

2) Z‑Image De‑Turbo (De‑Distilled) — ideal quando você quer uma base de‑destilada que pode treinar sem adaptador, ou para fine-tunes mais longos.

Ao final deste guia, você será capaz de:

Escolher a base Z‑Image correta (Turbo+adaptador vs De‑Turbo) para seu objetivo.
Preparar um dataset que funcione com treinamento destilado estilo Turbo.
Configurar Ostris AI Toolkit (localmente ou no RunComfy Cloud AI Toolkit) painel por painel.
Entender por que cada parâmetro importa, para que você possa ajustar em vez de copiar e colar.

Este artigo faz parte da série de treinamento LoRA com AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA com AI Toolkit antes de mergulhar neste guia.

Início rápido (configuração base recomendada)

Opção A — Turbo + training adapter (recomendado para a maioria dos LoRAs)

Use esta opção para treinar LoRA Z-Image Turbo se você quer que seu LoRA mantenha o comportamento rápido de 8 passos do Turbo após o treinamento.

Por que isso importa:

Turbo é um modelo "estudante" destilado: comprime um processo de difusão de múltiplos passos mais lento em ~8 passos.
Se você treinar no Turbo como um modelo normal, suas atualizações podem desfazer a destilação ("deriva do Turbo"), e você vai precisar de mais passos / mais CFG para obter a mesma qualidade.
O training adapter "de‑destila" temporariamente o Turbo durante o treinamento para que seu LoRA aprenda seu conceito sem quebrar o comportamento de 8 passos do Turbo. Na inferência, você remove o adaptador e mantém apenas seu LoRA.

Configurações base:

MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
MODEL → Training Adapter Path:

Mantenha o padrão se sua UI preencher automaticamente (RunComfy geralmente usa v2 como padrão), ou configure explicitamente:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

TARGET → Linear Rank: 16
TRAINING → Learning Rate: 0.0001
TRAINING → Steps: 2500–3000 (para 10–30 imagens)
DATASETS → Resolutions: 512 / 768 / 1024 e Cache Latents = ON
SAMPLE (para previews):

1024×1024, 8 passos (ou 9 se seu pipeline trata 9 como "8 DiT forwards")
Guidance scale = 0 (Turbo é guidance‑destilado)
Amostrar a cada 250 passos

Opção B — De‑Turbo (base de‑destilada)

Use esta opção se você quer treinar sem training adapter ou planeja treinamentos mais longos.

O que muda comparado ao Turbo:

De‑Turbo se comporta mais como um modelo de difusão "normal" para treinamento e amostragem.
Você tipicamente amostra com mais passos e CFG baixo (mas não zero).

MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
MODEL → Name or Path: ostris/Z-Image-De-Turbo (ou o que seu build do AI Toolkit pré-selecionar)
Training Adapter Path: nenhum (não necessário)
Mantenha as mesmas configurações de LoRA (rank/LR/steps) como baseline.
SAMPLE (para previews):

20–30 passos
CFG (guidance scale) ≈ 2–3
Amostrar a cada 250 passos

Quer zero configuração? Use o RunComfy Cloud AI Toolkit e siga exatamente os mesmos painéis.

Índice

1. Qual base Z‑Image você deve treinar? (Turbo+adaptador vs De‑Turbo)
2. Z‑Image training adapter v1 vs v2 (o que muda, quando usar)
3. Z‑Image / Z‑Image‑Turbo em resumo (para treinamento LoRA)
4. Onde treinar Z‑Image: local vs cloud AI Toolkit
5. Projetando datasets para treinamento LoRA Z‑Image
6. Configuração de LoRA Z‑Image no AI Toolkit – parâmetro por parâmetro
7. Receitas práticas para treinamento LoRA Z‑Image
8. Solução de problemas (deriva Turbo, overfitting, VRAM, amostragem)
9. Exportar e usar seu LoRA Z‑Image
FAQ

1. Qual base Z‑Image você deve treinar? (Turbo+adaptador vs De‑Turbo)

AI Toolkit expõe duas escolhas de "model architecture" para Z-Image Turbo LoRA com AI Toolkit:

1.1 Z‑Image Turbo (com Training Adapter)

Melhor para: LoRAs típicos (personagem, estilo, produto), onde seu objetivo final é rodar inferência no Turbo em 8 passos.

Por que existe:

Z‑Image Turbo é um modelo destilado por passos. Se você treinar LoRAs em um modelo destilado por passos "normalmente", a destilação pode quebrar rapidamente, e o Turbo começa a se comportar como um modelo mais lento não-destilado (mudanças de qualidade, precisa de mais passos, etc.).
O training adapter age como um "LoRA de de‑destilação" temporário durante o treinamento. Seu LoRA aprende seu conceito enquanto o comportamento rápido de 8 passos do Turbo permanece estável.
No momento da inferência, você remove o training adapter e mantém seu LoRA sobre a base real do Turbo.

Sinais práticos de que você escolheu o caminho certo:

Suas amostras de preview ficam boas em 8 passos com guidance ≈ 0.
Seu LoRA não começa repentinamente a precisar de 20–30 passos para ficar limpo (um sinal comum de deriva do Turbo).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Melhor para: treinar sem adaptador, ou fine‑tunes mais longos onde Turbo+adaptador eventualmente derivaria.

O que é:

De‑Turbo é uma versão de‑destilada do Turbo, projetada para se comportar mais como um modelo de difusão normal para treinamento.
Pode ser treinado diretamente sem adaptador e também usado para inferência (tipicamente 20–30 passos com CFG baixo).

1.3 Guia rápido de decisão

Escolha Turbo + training adapter se:

Você quer que o LoRA rode em velocidade Turbo (8 passos) após o treinamento.
Você está fazendo um treinamento LoRA normal (alguns milhares a dezenas de milhares de passos).

Escolha De‑Turbo se:

Você quer comportamento de "modelo normal" para treinamento e amostragem.
Você quer treinar mais tempo, ou está experimentando com workflows que não suportam o training adapter de forma limpa.

2. Z‑Image training adapter v1 vs v2 (o que muda, quando usar)

No repositório do training adapter você geralmente verá dois arquivos:

..._v1.safetensors
..._v2.safetensors

O que você precisa saber (praticamente):

v1 é a baseline segura.
v2 é uma variante mais nova que pode mudar a dinâmica do treinamento e resultados.

Recomendação: trate como um teste A/B:

Mantenha dataset, LR, steps, rank idênticos
Treine uma vez com v1, uma vez com v2
Compare grids de amostras nos mesmos checkpoints

Se sua UI do RunComfy usa v2 por padrão e seu treinamento parece estável, mantenha assim. Se você ver instabilidade (ruído, deriva do Turbo, artefatos estranhos), mude para v1.

3. Z‑Image / Z‑Image‑Turbo em resumo (para treinamento LoRA)

Das fontes oficiais do Z‑Image:

6B parâmetros, arquitetura S3‑DiT — tokens de texto, tokens semânticos visuais e latentes VAE são concatenados em um único stream de transformer.
Família de modelos — variantes Turbo, Base e Edit existem na série Z‑Image.
Especificações do Turbo — otimizado para inferência rápida; guidance é tipicamente 0 para inferência Turbo.

Um modelo mental útil para treinamento LoRA:

Timesteps de alto ruído principalmente controlam a composição (layout, pose, tonalidade de cor global).
Timesteps de baixo ruído principalmente controlam detalhes (rostos, mãos, texturas).

Por isso as configurações de timestep e bias podem mudar notavelmente se um LoRA parece mais "estilo global" vs "identidade/detalhe".

4. Onde treinar Z‑Image: local vs cloud AI Toolkit

4.1 AI Toolkit Local

O AI Toolkit da Ostris é código aberto no GitHub. Suporta o Tutorial LoRA Z-Image Turbo, FLUX, Wan, Qwen e mais através de um sistema unificado de UI e configuração.

Local faz sentido se:

Você já tem uma GPU NVIDIA e não se importa com configuração Python / Git.
Você quer controle total sobre arquivos, logs e mudanças personalizadas.

Repo: ostris/ai-toolkit

4.2 RunComfy Cloud AI Toolkit

Se você prefere pular instalações CUDA e problemas de driver, use o RunComfy Cloud AI Toolkit:

Zero configuração — abra um navegador e treine.
VRAM consistente — mais fácil seguir guias sem fricção de hardware.
Armazenamento persistente — iteração mais fácil e gerenciamento de checkpoints.

👉 Abra aqui: Cloud AI Toolkit no RunComfy

5. Projetando datasets para treinamento LoRA Z‑Image

5.1 Quantas imagens você realmente precisa?

10–30 imagens é um bom range para a maioria dos LoRAs de personagem ou estilo.
Acima de ~50 imagens você frequentemente encontra retornos decrescentes a menos que seu range de estilos seja muito amplo.

Z‑Image aprende fortemente dos gradientes ("aprende quente"), então qualidade e variedade do dataset importam mais que o número bruto de imagens:

Poucas imagens + muito treinamento frequentemente aparece como rostos overfitados, poses repetidas, ou fundos bagunçados.
Um dataset pequeno mas diverso (ângulos, iluminação, fundos) tende a generalizar melhor que um grande e repetitivo.

5.2 LoRAs de personagem vs estilo

LoRA de Personagem

Mire em 12–30 imagens do mesmo sujeito.
Misture close-ups e corpo inteiro, ângulos, iluminação, roupas.
Legendas podem ser literais e consistentes; token trigger opcional.

LoRA de Estilo

Mire em 15–40 imagens através de sujeitos variados (pessoas, interiores, paisagens, objetos).
Legende a cena normalmente; não descreva demais o estilo a menos que você queira que seja apenas por trigger.

Isso ensina: "renderize qualquer coisa neste estilo", em vez de "faça o estilo apenas quando eu disser uma palavra-chave especial."

5.3 Legendas, palavra trigger e arquivos de texto

image_01.png → image_01.txt
Se não houver .txt, AI Toolkit usa a Default Caption.
Você pode usar [trigger] nas legendas e configurar Trigger Word no painel JOB.

Isso é especialmente útil se você depois habilitar DOP (Differential Output Preservation) para tornar o LoRA mais "opt-in".

6. Configuração de LoRA Z‑Image no AI Toolkit – parâmetro por parâmetro

Nesta seção percorremos os painéis da UI e explicamos o que cada campo importante faz no processo de como treinar LoRA para Z-Image Turbo.

6.1 Painel JOB

Training Name — rótulo descritivo como zimage_char_ruivo_v1
GPU ID — seletor de GPU local; no cloud mantenha o padrão
Trigger Word (opcional) — zchar_ruivo / zstyle_lapis

6.2 Painel MODEL (mais importante)

Aqui é onde as duas escolhas de base importam:

Se você escolher Turbo + adaptador

Model Architecture — Z‑Image Turbo (w/ Training Adapter)
Name or Path — Tongyi-MAI/Z-Image-Turbo

Esta é a Hugging Face model id (repo id). Na maioria dos builds do AI Toolkit, selecionar a model architecture vai preencher automaticamente isso; deixe assim a menos que você tenha uma razão para mudar.
Se você sobrescrever, use o formato de repo id do Hugging Face: org-ou-usuario/nome-modelo (opcionalmente org-ou-usuario/nome-modelo@revision).

Training Adapter Path — mantenha o padrão ou escolha:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

Dica: se você acidentalmente treinar Turbo sem o adaptador, o sintoma mais comum é que seu LoRA só "funciona" quando você aumenta steps/CFG, o que anula o propósito do Turbo.

Se você escolher De‑Turbo

Model Architecture — Z‑Image De‑Turbo (De‑Distilled)
Name or Path — ostris/Z-Image-De-Turbo
Training Adapter Path — nenhum

Opções:

Low VRAM / Layer Offloading — habilitar se você está limitado em VRAM

6.3 Painel QUANTIZATION

Com 24+ GB, prefira BF16/none para fidelidade
Com 16 GB, float8 geralmente é o melhor trade-off

6.4 Painel TARGET – configuração LoRA

Target Type — LoRA
Linear Rank — comece com 8–16

16 para estilos/texturas mais fortes
8 para LoRAs menores e mais sutis

6.5 Painel SAVE

Data Type — BF16
Save Every — 250
Max Step Saves to Keep — 4–12

6.6 Painel TRAINING – hiperparâmetros principais

Batch Size — 1
Optimizer — AdamW8Bit
Learning Rate — comece em 0.0001
Se instável/ruidoso, baixe para 0.00005–0.00008.

Evite ir muito alto (ex. 0.0002+) — modelos estilo Turbo podem se tornar instáveis rapidamente.
Weight Decay — 0.0001
Steps — 2500–3000 para 10–30 imagens
Se seu dataset for muito pequeno (<10 imagens), considere 1500–2200 para reduzir overfitting.
Loss Type — Mean Squared Error
Timestep Type — Weighted
Timestep Bias — Balanced

Favoreça High Noise se você quer estilo/clima global mais forte.
Favoreça Low Noise se você está buscando identidade/detalhe (avançado; comece com Balanced).

EMA — OFF

Text Encoder:

Cache Text Embeddings — ON se legendas são estáticas e VRAM é escassa
(então configure Caption Dropout para 0)
Unload TE — mantenha OFF para treinamento baseado em legendas

Regularização:

DOP — mantenha OFF para a primeira execução; adicione depois para LoRAs de produção trigger-only
(DOP é poderoso mas adiciona complexidade; é mais fácil quando você já tem uma baseline estável.)

6.7 Painel DATASETS

Caption Dropout Rate

0.05 se não estiver cacheando embeddings de texto
0 se estiver cacheando embeddings

Cache Latents — ON
Resolutions — 512 / 768 / 1024 é uma baseline forte

6.8 Painel SAMPLE (combine com sua base!)

Se treinar Turbo:

1024×1024, 8 passos, guidance = 0, amostrar a cada 250

Se treinar De‑Turbo:

1024×1024, 20–30 passos, CFG 2–3, amostrar a cada 250

Use 5–10 prompts que reflitam uso real; inclua alguns prompts sem o trigger para detectar vazamentos.

6.9 Painel ADVANCED – Differential Guidance (opcional)

Do Differential Guidance — ON se você quer convergência mais rápida
Scale — comece em 3
Se amostras parecerem muito nítidas/ruidosas cedo, reduza para 2. Se o aprendizado está lento, você pode testar 4 depois.

7. Receitas práticas para treinamento LoRA Z‑Image

Uma baseline forte para LoRAs Turbo:

Turbo + training adapter (v1 ou v2)
rank=16, lr=1e-4, steps=2500–3000
buckets 512/768/1024, cache latents ON
amostras a cada 250 passos, 8 passos, guidance 0

Se seu LoRA parecer "muito forte":

Mantenha o treinamento igual, mas planeje rodar inferência com um peso de LoRA mais baixo (ex. 0.6–0.8).

8. Solução de problemas

"Meu LoRA destruiu o Turbo — agora preciso de mais steps / CFG."

Causas mais comuns:

treinou no Turbo sem o training adapter, ou
LR muito alto por muito tempo.

Solução:

use a arquitetura Turbo + training adapter
mantenha LR ≤ 1e‑4
reduza steps se você ver deriva cedo

"O estilo está muito forte."

Baixe o peso do LoRA na inferência (0.6–0.8)
Use trigger + DOP para LoRAs de produção (comportamento opt‑in)

"Mãos/fundos estão bagunçados."

Adicione algumas imagens que incluam esses casos
Considere favorecer ligeiramente os timesteps de baixo ruído (avançado)

"Sem VRAM / muito lento."

Desabilite buckets altos (mantenha 512–1024)
Habilite Low VRAM + offloading
Quantize para float8
Cache latents (e opcionalmente cache embeddings de texto)

FAQ

Devo usar o adaptador v1 ou v2 para o Treinamento LoRA Z-Image Turbo?

Comece com o padrão da sua UI. Se os resultados forem instáveis ou você ver deriva do Z‑Image Turbo, teste a outra versão mantendo todas as outras configurações iguais.

Devo treinar Z‑Image em Turbo+adaptador ou De‑Turbo?

Turbo+adaptador para a maioria dos LoRAs Z‑Image que devem manter o comportamento Turbo de 8 passos. De‑Turbo se você quer treinamento sem adaptador ou fine‑tunes mais longos.

Quais configurações de inferência Z‑Image devo usar após o treinamento?

Z‑Image Turbo tipicamente usa CFG baixo/nulo e ~8 passos. De‑Turbo se comporta mais como um modelo normal (20–30 passos, CFG baixo). Sempre combine suas configurações de amostragem com a base que você está realmente usando.

9. Use seu LoRA Z‑Image

Run LoRA — abra a página Run LoRA do Z‑Image Turbo. Nesta página de inferência do modelo base, você pode selecionar um asset de LoRA que treinou no RunComfy ou importar um arquivo LoRA treinado no AI Toolkit, e então rodar a inferência pelo playground ou pela API. O RunComfy usa o mesmo modelo base e a definição completa do pipeline do AI Toolkit da sua config de treino, então o que você viu durante o training é o que você obtém na inferência — esse alinhamento training/inference ajuda a manter resultados consistentes com os seus samples de treino.
Workflows ComfyUI — carregue seu LoRA em um workflow como Z‑Image workflow no ComfyUI

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample