Z‑Image é um modelo de geração de imagens de 6B parâmetros da Tongyi‑MAI construído sobre um Scalable Single‑Stream Diffusion Transformer (S3‑DiT). É incomumente eficiente para seu tamanho e projetado para rodar em 1024×1024 em GPUs de consumo.
Este guia de Treinamento LoRA Z-Image Turbo cobre as duas abordagens mais comuns e práticas para treinar LoRA Z-Image Turbo:
1) Z‑Image Turbo (com Training Adapter) — ideal quando você quer que seu LoRA rode com verdadeira velocidade Turbo de 8 passos após o treinamento.
2) Z‑Image De‑Turbo (De‑Distilled) — ideal quando você quer uma base de‑destilada que pode treinar sem adaptador, ou para fine-tunes mais longos.
Ao final deste guia, você será capaz de:
- Escolher a base Z‑Image correta (Turbo+adaptador vs De‑Turbo) para seu objetivo.
- Preparar um dataset que funcione com treinamento destilado estilo Turbo.
- Configurar Ostris AI Toolkit (localmente ou no RunComfy Cloud AI Toolkit) painel por painel.
- Entender por que cada parâmetro importa, para que você possa ajustar em vez de copiar e colar.
Este artigo faz parte da série de treinamento LoRA com AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA com AI Toolkit antes de mergulhar neste guia.
Início rápido (configuração base recomendada)
Opção A — Turbo + training adapter (recomendado para a maioria dos LoRAs)
Use esta opção para treinar LoRA Z-Image Turbo se você quer que seu LoRA mantenha o comportamento rápido de 8 passos do Turbo após o treinamento.
Por que isso importa:
- Turbo é um modelo "estudante" destilado: comprime um processo de difusão de múltiplos passos mais lento em ~8 passos.
- Se você treinar no Turbo como um modelo normal, suas atualizações podem desfazer a destilação ("deriva do Turbo"), e você vai precisar de mais passos / mais CFG para obter a mesma qualidade.
- O training adapter "de‑destila" temporariamente o Turbo durante o treinamento para que seu LoRA aprenda seu conceito sem quebrar o comportamento de 8 passos do Turbo. Na inferência, você remove o adaptador e mantém apenas seu LoRA.
Configurações base:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- Mantenha o padrão se sua UI preencher automaticamente (RunComfy geralmente usa v2 como padrão), ou configure explicitamente:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(para 10–30 imagens) - DATASETS → Resolutions:
512 / 768 / 1024e Cache Latents = ON - SAMPLE (para previews):
1024×1024, 8 passos (ou9se seu pipeline trata 9 como "8 DiT forwards")- Guidance scale = 0 (Turbo é guidance‑destilado)
- Amostrar a cada
250passos
Opção B — De‑Turbo (base de‑destilada)
Use esta opção se você quer treinar sem training adapter ou planeja treinamentos mais longos.
O que muda comparado ao Turbo:
- De‑Turbo se comporta mais como um modelo de difusão "normal" para treinamento e amostragem.
- Você tipicamente amostra com mais passos e CFG baixo (mas não zero).
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(ou o que seu build do AI Toolkit pré-selecionar) - Training Adapter Path: nenhum (não necessário)
- Mantenha as mesmas configurações de LoRA (rank/LR/steps) como baseline.
- SAMPLE (para previews):
- 20–30 passos
- CFG (guidance scale) ≈ 2–3
- Amostrar a cada
250passos
Quer zero configuração? Use o RunComfy Cloud AI Toolkit e siga exatamente os mesmos painéis.
Índice
- 1. Qual base Z‑Image você deve treinar? (Turbo+adaptador vs De‑Turbo)
- 2. Z‑Image training adapter v1 vs v2 (o que muda, quando usar)
- 3. Z‑Image / Z‑Image‑Turbo em resumo (para treinamento LoRA)
- 4. Onde treinar Z‑Image: local vs cloud AI Toolkit
- 5. Projetando datasets para treinamento LoRA Z‑Image
- 6. Configuração de LoRA Z‑Image no AI Toolkit – parâmetro por parâmetro
- 7. Receitas práticas para treinamento LoRA Z‑Image
- 8. Solução de problemas (deriva Turbo, overfitting, VRAM, amostragem)
- 9. Exportar e usar seu LoRA Z‑Image
- FAQ
1. Qual base Z‑Image você deve treinar? (Turbo+adaptador vs De‑Turbo)
AI Toolkit expõe duas escolhas de "model architecture" para Z-Image Turbo LoRA com AI Toolkit:
1.1 Z‑Image Turbo (com Training Adapter)
Melhor para: LoRAs típicos (personagem, estilo, produto), onde seu objetivo final é rodar inferência no Turbo em 8 passos.
Por que existe:
- Z‑Image Turbo é um modelo destilado por passos. Se você treinar LoRAs em um modelo destilado por passos "normalmente", a destilação pode quebrar rapidamente, e o Turbo começa a se comportar como um modelo mais lento não-destilado (mudanças de qualidade, precisa de mais passos, etc.).
- O training adapter age como um "LoRA de de‑destilação" temporário durante o treinamento. Seu LoRA aprende seu conceito enquanto o comportamento rápido de 8 passos do Turbo permanece estável.
- No momento da inferência, você remove o training adapter e mantém seu LoRA sobre a base real do Turbo.
Sinais práticos de que você escolheu o caminho certo:
- Suas amostras de preview ficam boas em 8 passos com guidance ≈ 0.
- Seu LoRA não começa repentinamente a precisar de 20–30 passos para ficar limpo (um sinal comum de deriva do Turbo).
1.2 Z‑Image De‑Turbo (De‑Distilled)
Melhor para: treinar sem adaptador, ou fine‑tunes mais longos onde Turbo+adaptador eventualmente derivaria.
O que é:
- De‑Turbo é uma versão de‑destilada do Turbo, projetada para se comportar mais como um modelo de difusão normal para treinamento.
- Pode ser treinado diretamente sem adaptador e também usado para inferência (tipicamente 20–30 passos com CFG baixo).
1.3 Guia rápido de decisão
Escolha Turbo + training adapter se:
- Você quer que o LoRA rode em velocidade Turbo (8 passos) após o treinamento.
- Você está fazendo um treinamento LoRA normal (alguns milhares a dezenas de milhares de passos).
Escolha De‑Turbo se:
- Você quer comportamento de "modelo normal" para treinamento e amostragem.
- Você quer treinar mais tempo, ou está experimentando com workflows que não suportam o training adapter de forma limpa.
2. Z‑Image training adapter v1 vs v2 (o que muda, quando usar)
No repositório do training adapter você geralmente verá dois arquivos:
..._v1.safetensors..._v2.safetensors
O que você precisa saber (praticamente):
- v1 é a baseline segura.
- v2 é uma variante mais nova que pode mudar a dinâmica do treinamento e resultados.
Recomendação: trate como um teste A/B:
- Mantenha dataset, LR, steps, rank idênticos
- Treine uma vez com v1, uma vez com v2
- Compare grids de amostras nos mesmos checkpoints
Se sua UI do RunComfy usa v2 por padrão e seu treinamento parece estável, mantenha assim. Se você ver instabilidade (ruído, deriva do Turbo, artefatos estranhos), mude para v1.
3. Z‑Image / Z‑Image‑Turbo em resumo (para treinamento LoRA)
Das fontes oficiais do Z‑Image:
- 6B parâmetros, arquitetura S3‑DiT — tokens de texto, tokens semânticos visuais e latentes VAE são concatenados em um único stream de transformer.
- Família de modelos — variantes Turbo, Base e Edit existem na série Z‑Image.
- Especificações do Turbo — otimizado para inferência rápida; guidance é tipicamente 0 para inferência Turbo.
Um modelo mental útil para treinamento LoRA:
- Timesteps de alto ruído principalmente controlam a composição (layout, pose, tonalidade de cor global).
- Timesteps de baixo ruído principalmente controlam detalhes (rostos, mãos, texturas).
Por isso as configurações de timestep e bias podem mudar notavelmente se um LoRA parece mais "estilo global" vs "identidade/detalhe".
4. Onde treinar Z‑Image: local vs cloud AI Toolkit
4.1 AI Toolkit Local
O AI Toolkit da Ostris é código aberto no GitHub. Suporta o Tutorial LoRA Z-Image Turbo, FLUX, Wan, Qwen e mais através de um sistema unificado de UI e configuração.
Local faz sentido se:
- Você já tem uma GPU NVIDIA e não se importa com configuração Python / Git.
- Você quer controle total sobre arquivos, logs e mudanças personalizadas.
Repo: ostris/ai-toolkit
4.2 RunComfy Cloud AI Toolkit
Se você prefere pular instalações CUDA e problemas de driver, use o RunComfy Cloud AI Toolkit:
- Zero configuração — abra um navegador e treine.
- VRAM consistente — mais fácil seguir guias sem fricção de hardware.
- Armazenamento persistente — iteração mais fácil e gerenciamento de checkpoints.
👉 Abra aqui: Cloud AI Toolkit no RunComfy
5. Projetando datasets para treinamento LoRA Z‑Image
5.1 Quantas imagens você realmente precisa?
- 10–30 imagens é um bom range para a maioria dos LoRAs de personagem ou estilo.
- Acima de ~50 imagens você frequentemente encontra retornos decrescentes a menos que seu range de estilos seja muito amplo.
Z‑Image aprende fortemente dos gradientes ("aprende quente"), então qualidade e variedade do dataset importam mais que o número bruto de imagens:
- Poucas imagens + muito treinamento frequentemente aparece como rostos overfitados, poses repetidas, ou fundos bagunçados.
- Um dataset pequeno mas diverso (ângulos, iluminação, fundos) tende a generalizar melhor que um grande e repetitivo.
5.2 LoRAs de personagem vs estilo
LoRA de Personagem
- Mire em 12–30 imagens do mesmo sujeito.
- Misture close-ups e corpo inteiro, ângulos, iluminação, roupas.
- Legendas podem ser literais e consistentes; token trigger opcional.
LoRA de Estilo
- Mire em 15–40 imagens através de sujeitos variados (pessoas, interiores, paisagens, objetos).
- Legende a cena normalmente; não descreva demais o estilo a menos que você queira que seja apenas por trigger.
- Isso ensina: "renderize qualquer coisa neste estilo", em vez de "faça o estilo apenas quando eu disser uma palavra-chave especial."
5.3 Legendas, palavra trigger e arquivos de texto
image_01.png→image_01.txt- Se não houver
.txt, AI Toolkit usa a Default Caption. - Você pode usar
[trigger]nas legendas e configurar Trigger Word no painel JOB. - Isso é especialmente útil se você depois habilitar DOP (Differential Output Preservation) para tornar o LoRA mais "opt-in".
6. Configuração de LoRA Z‑Image no AI Toolkit – parâmetro por parâmetro
Nesta seção percorremos os painéis da UI e explicamos o que cada campo importante faz no processo de como treinar LoRA para Z-Image Turbo.
6.1 Painel JOB
- Training Name — rótulo descritivo como
zimage_char_ruivo_v1 - GPU ID — seletor de GPU local; no cloud mantenha o padrão
- Trigger Word (opcional) —
zchar_ruivo/zstyle_lapis
6.2 Painel MODEL (mais importante)
Aqui é onde as duas escolhas de base importam:
Se você escolher Turbo + adaptador
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - Esta é a Hugging Face model id (repo id). Na maioria dos builds do AI Toolkit, selecionar a model architecture vai preencher automaticamente isso; deixe assim a menos que você tenha uma razão para mudar.
- Se você sobrescrever, use o formato de repo id do Hugging Face:
org-ou-usuario/nome-modelo(opcionalmenteorg-ou-usuario/nome-modelo@revision). - Training Adapter Path — mantenha o padrão ou escolha:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Dica: se você acidentalmente treinar Turbo sem o adaptador, o sintoma mais comum é que seu LoRA só "funciona" quando você aumenta steps/CFG, o que anula o propósito do Turbo.
Se você escolher De‑Turbo
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Training Adapter Path — nenhum
Opções:
- Low VRAM / Layer Offloading — habilitar se você está limitado em VRAM
6.3 Painel QUANTIZATION
- Com 24+ GB, prefira
BF16/nonepara fidelidade - Com 16 GB,
float8geralmente é o melhor trade-off
6.4 Painel TARGET – configuração LoRA
- Target Type —
LoRA - Linear Rank — comece com
8–16 16para estilos/texturas mais fortes8para LoRAs menores e mais sutis
6.5 Painel SAVE
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 Painel TRAINING – hiperparâmetros principais
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate — comece em
0.0001Se instável/ruidoso, baixe para
0.00005–0.00008.Evite ir muito alto (ex.
0.0002+) — modelos estilo Turbo podem se tornar instáveis rapidamente. - Weight Decay —
0.0001 - Steps —
2500–3000para 10–30 imagensSe seu dataset for muito pequeno (<10 imagens), considere
1500–2200para reduzir overfitting. - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - Favoreça High Noise se você quer estilo/clima global mais forte.
- Favoreça Low Noise se você está buscando identidade/detalhe (avançado; comece com Balanced).
- EMA — OFF
Text Encoder:
- Cache Text Embeddings — ON se legendas são estáticas e VRAM é escassa
(então configure Caption Dropout para 0)
- Unload TE — mantenha OFF para treinamento baseado em legendas
Regularização:
- DOP — mantenha OFF para a primeira execução; adicione depois para LoRAs de produção trigger-only
(DOP é poderoso mas adiciona complexidade; é mais fácil quando você já tem uma baseline estável.)
6.7 Painel DATASETS
- Caption Dropout Rate
0.05se não estiver cacheando embeddings de texto0se estiver cacheando embeddings- Cache Latents — ON
- Resolutions —
512 / 768 / 1024é uma baseline forte
6.8 Painel SAMPLE (combine com sua base!)
Se treinar Turbo:
1024×1024, 8 passos, guidance = 0, amostrar a cada250
Se treinar De‑Turbo:
1024×1024, 20–30 passos, CFG 2–3, amostrar a cada250
Use 5–10 prompts que reflitam uso real; inclua alguns prompts sem o trigger para detectar vazamentos.
6.9 Painel ADVANCED – Differential Guidance (opcional)
- Do Differential Guidance — ON se você quer convergência mais rápida
- Scale — comece em
3Se amostras parecerem muito nítidas/ruidosas cedo, reduza para
2. Se o aprendizado está lento, você pode testar4depois.
7. Receitas práticas para treinamento LoRA Z‑Image
Uma baseline forte para LoRAs Turbo:
- Turbo + training adapter (v1 ou v2)
rank=16,lr=1e-4,steps=2500–3000- buckets
512/768/1024, cache latents ON - amostras a cada 250 passos, 8 passos, guidance 0
Se seu LoRA parecer "muito forte":
- Mantenha o treinamento igual, mas planeje rodar inferência com um peso de LoRA mais baixo (ex.
0.6–0.8).
8. Solução de problemas
"Meu LoRA destruiu o Turbo — agora preciso de mais steps / CFG."
- Causas mais comuns:
- treinou no Turbo sem o training adapter, ou
- LR muito alto por muito tempo.
- Solução:
- use a arquitetura Turbo + training adapter
- mantenha LR ≤ 1e‑4
- reduza steps se você ver deriva cedo
"O estilo está muito forte."
- Baixe o peso do LoRA na inferência (0.6–0.8)
- Use trigger + DOP para LoRAs de produção (comportamento opt‑in)
"Mãos/fundos estão bagunçados."
- Adicione algumas imagens que incluam esses casos
- Considere favorecer ligeiramente os timesteps de baixo ruído (avançado)
"Sem VRAM / muito lento."
- Desabilite buckets altos (mantenha 512–1024)
- Habilite Low VRAM + offloading
- Quantize para float8
- Cache latents (e opcionalmente cache embeddings de texto)
9. Use seu LoRA Z‑Image
- Model playground — teste seu LoRA no modelo base via Z‑Image Turbo LoRA playground
- Workflows ComfyUI — carregue seu LoRA em um workflow como Z‑Image workflow no ComfyUI
FAQ
Devo usar o adaptador v1 ou v2 para o Treinamento LoRA Z-Image Turbo?
Comece com o padrão da sua UI. Se os resultados forem instáveis ou você ver deriva do Z‑Image Turbo, teste a outra versão mantendo todas as outras configurações iguais.
Devo treinar Z‑Image em Turbo+adaptador ou De‑Turbo?
Turbo+adaptador para a maioria dos LoRAs Z‑Image que devem manter o comportamento Turbo de 8 passos. De‑Turbo se você quer treinamento sem adaptador ou fine‑tunes mais longos.
Quais configurações de inferência Z‑Image devo usar após o treinamento?
Z‑Image Turbo tipicamente usa CFG baixo/nulo e ~8 passos. De‑Turbo se comporta mais como um modelo normal (20–30 passos, CFG baixo). Sempre combine suas configurações de amostragem com a base que você está realmente usando.
Mais guias de treinamento LoRA com AI Toolkit
- Treinamento LoRA FLUX.2 Dev com AI Toolkit
- Treinamento LoRA Qwen-Image-Edit-2511 com AI Toolkit
- Treinamento LoRA Qwen-Image-Edit-2509 com AI Toolkit
- Treinamento LoRA Wan 2.2 I2V 14B image-to-video
- Treinamento LoRA Wan 2.2 T2V 14B text-to-video
- Treinamento LoRA LTX-2 com AI Toolkit
- Treinamento LoRA Qwen Image 2512 com AI Toolkit
Ready to start training?

