Treinamento LoRA Z‑Image (Base) com Ostris AI Toolkit

Z‑Image (Base) é o checkpoint Z‑Image completo (não o Turbo de 8 passos). Ele foi projetado para text‑to‑image de alta qualidade com CFG + prompts negativos e mais passos de amostragem, e também é a melhor escolha se o seu objetivo é um LoRA limpo e totalmente controlável (personagem, estilo, produto, conceitos com muita tipografia).

Ao final deste guia de Treinamento LoRA Z‑Image, você vai conseguir:

Fazer um Treinamento LoRA Z‑Image no AI Toolkit do Ostris (local ou cloud).
Escolher padrões que realmente batem com o comportamento de inferência do Z‑Image Base (steps + CFG + resolução).
Evitar os erros mais comuns no Treinamento LoRA Z‑Image Base (config de Turbo, “o LoRA não faz nada”, mismatch Base↔Turbo).
Exportar checkpoints que você pode usar imediatamente na sua UI de inferência.

Este artigo faz parte da série de treinamento LoRA com AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do AI Toolkit LoRA training antes de seguir este Treinamento LoRA Z‑Image:

https://www.runcomfy.com/pt/trainer/ai-toolkit/getting-started

Índice

1. Visão geral do Z‑Image: o que ele faz (e como difere do Turbo)
2. Opções de ambiente: AI Toolkit local vs AI Toolkit cloud no RunComfy
3. Requisitos de hardware e VRAM para o Treinamento LoRA Z‑Image Base
4. Montando um dataset para Treinamento LoRA Z‑Image Base
5. Passo a passo: Treinamento LoRA Z‑Image no AI Toolkit
6. Configs recomendadas de Treinamento LoRA Z‑Image por faixa de VRAM
7. Problemas comuns do treino do Z‑Image Base e como corrigir
8. Usando seu LoRA Z‑Image Base após o Treinamento LoRA Z‑Image

1. Visão geral do Z‑Image: o que ele faz (e como difere do Turbo)

1.1 O que “Z‑Image Base” significa

“Z‑Image Base” se refere ao checkpoint Z‑Image não destilado. Na prática:

Ele espera mais passos de amostragem (pense em ~30–50, não 8).
Ele usa CFG e prompts negativos de forma eficaz.
É o melhor alvo para fine‑tuning LoRA (keyword alternativa 1 vez) quando você quer máximo controle e qualidade no Treinamento LoRA Z‑Image.

1.2 Base vs Turbo (a implicação mais importante para treinamento)

Um erro frequente no Treinamento LoRA Z‑Image é treinar (ou avaliar) o Base como se fosse Turbo.

Configurações de Turbo (8 steps, pouco/nenhum CFG) fazem o output do Base parecer “cru” e podem fazer você achar que seu LoRA “não está funcionando”.
Configurações de Base (30–50 steps + CFG normal) são a forma correta de julgar checkpoints.

Regra de bolso:

Se você treinou um LoRA para Base, avalie no Base com amostragem estilo Base.

2. Opções de ambiente: AI Toolkit local vs AI Toolkit cloud no RunComfy

Você pode fazer este Treinamento LoRA Z‑Image de duas formas:

AI Toolkit local (sua própria GPU)
Instale o AI Toolkit a partir do repositório no GitHub e execute a Web UI. O Treinamento LoRA Z‑Image local é ideal se você tem uma GPU NVIDIA, está confortável gerenciando CUDA/drivers e quer um setup persistente para iterar seus LoRAs.

https://github.com/ostris/ai-toolkit
AI Toolkit cloud no RunComfy (H100 / H200)
O AI Toolkit roda no navegador em GPUs grandes:

Sem instalação (só abrir a UI)
VRAM grande para buckets de resolução alta (1280 / 1536)
Workspace persistente para datasets, configs e execuções anteriores

O workflow do Treinamento LoRA Z‑Image é o mesmo nos dois ambientes; só muda onde a GPU está.

3. Requisitos de hardware e VRAM para o Treinamento LoRA Z‑Image Base

O Z‑Image pode rodar em GPUs relativamente modestas para inferência, mas o Treinamento LoRA Z‑Image ainda escala fortemente com:

Bucket de resolução (768 vs 1024 vs 1536)
Quantização (float8)
Rank do LoRA
Configurações de amostragem durante o treino (resolução do preview + steps do preview)

Um jeito prático de pensar no Treinamento LoRA Z‑Image:

12–16GB VRAM: dá para fazer em 512/768 com ajustes cuidadosos
24GB VRAM: confortável para Treinamento LoRA em 1024
48GB+ VRAM: caminho mais fácil para buckets 1280/1536 e iteração mais rápida

Se seu objetivo é tipografia pesada ou fidelidade de produto, planeje resolução mais alta e aceite que a VRAM sobe rapidamente.

4. Montando um dataset para Treinamento LoRA Z‑Image Base

Z‑Image Base não é “especial” em formatos de dataset — mas ele é sensível a como você avalia a qualidade. Então o seu dataset para Treinamento LoRA Z‑Image deve ser desenhado para bater com o comportamento que você quer na inferência (CFG + mais steps).

4.1 Escolha seu objetivo (e o formato do dataset)

Personagem / semelhança: 15–50 imagens
Misture close‑ups + meio corpo + variações de luz.
Estilo: 30–200 imagens
Maximize a variedade de assuntos para o modelo aprender “cues de estilo”, não uma cena.
Produto / conceito: 20–80 imagens
Enquadramento consistente e captions claras para características definidoras (materiais, texto do rótulo, formato).

4.2 Captions + trigger (mantenha simples)

Use um trigger se você quer um botão “liga/desliga” limpo (recomendado para personagem/produto no Treinamento LoRA Z‑Image).
Mantenha as captions curtas e consistentes. Captions longas aumentam o vínculo acidental (cabelo/fundo vira “parte do trigger”).

Templates rápidos

Personagem:
[trigger]

ou photo of [trigger], portrait, natural lighting
Estilo:
in a [style] illustration style, soft shading, muted palette
Produto:
product photo of [trigger], studio lighting, clean background

5. Passo a passo: Treinamento LoRA Z‑Image no AI Toolkit

Esta seção foi escrita para coincidir com os painéis da UI do AI Toolkit que você vê ao criar um novo job de Treinamento LoRA Z‑Image.

5.1 Painel JOB (Training Name, GPU ID, Trigger Word)

Training Name: um nome de run descritivo (ex.: zimage_base_character_v1)
GPU ID: selecione sua GPU (local) ou mantenha o padrão (cloud)
Trigger Word (opcional, mas recomendado para personagem/produto no Treinamento LoRA Z‑Image):
Exemplo: zimgAlice

5.2 Painel MODEL (Model Architecture, Name or Path, Options)

Model Architecture: escolha Z‑Image
Name or Path: defina o repo do modelo base, tipicamente:
Tongyi-MAI/Z-Image
Options

Low VRAM: ON se você tem ≤ 24GB
Layer Offloading: OFF por padrão; ON apenas se você ainda tiver OOM depois de baixar resolução/rank

5.3 Painel QUANTIZATION (Transformer, Text Encoder)

Transformer: float8 (default) é um ótimo padrão para caber buckets maiores.
Text Encoder: float8 (default) se você precisa de folga de VRAM.

Se você tem muita VRAM, pode reduzir quantização por simplicidade — mas float8 costuma ser uma baseline segura para Treinamento LoRA Z‑Image.

5.4 Painel TARGET (Target Type, Linear Rank)

Target Type: LoRA
Linear Rank (padrões práticos para Treinamento LoRA Z‑Image)

16: LoRAs de estilo, runs low‑VRAM
32: LoRAs de personagem/produto, mais fidelidade
48+: só se você tem muita VRAM e sabe que está underfitting

5.5 Painel SAVE (Data Type, Save Every, Max Step Saves to Keep)

Data Type: BF16
Save Every: 250 (checkpoints suficientes para escolher o melhor)
Max Step Saves to Keep: 4 (evita inchar o disco)

5.6 Painel TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Baseline estável para Treinamento LoRA Z‑Image

Batch Size: 1
Gradient Accumulation: 1 (aumente se quiser um batch efetivo maior sem VRAM)
Steps: veja abaixo (faixas por objetivo)
Optimizer: AdamW8Bit
Learning Rate: 0.0001 (baixe para 0.00005 se instável)
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
EMA: OFF para a maioria dos runs

Steps: uma diretriz “Base‑friendly”

Z‑Image Base costuma tolerar treinos mais longos do que modelos destilados estilo Turbo, mas você ainda quer parar antes de a fidelidade ao prompt colapsar.

Personagem / semelhança: 3000–7000 steps (o sweet spot depende do tamanho do dataset)
Estilo: 2000–6000 steps
Produto / conceito: 2500–6500 steps

Para um “smoke test” rápido do seu Treinamento LoRA Z‑Image, rode 1000–1500 steps, cheque as amostras e então faça um run completo.

5.7 Otimizações do Text Encoder + Regularização (lado direito)

Unload TE: mantenha OFF a menos que você queira comportamento só‑trigger e sem captions
Cache Text Embeddings: habilite apenas se você usa captions estáticas e sem caption dropout

Differential Output Preservation (DOP)

Se sua UI tiver:

Habilite Differential Output Preservation quando for importante “o LoRA só ativa quando solicitado”
Se DOP estiver ON, não cacheie text embeddings (conflito conceitual)

5.8 Painel ADVANCED

Do Differential Guidance: mantenha OFF a menos que você já use no seu workflow e saiba o que está ajustando.

5.9 Painel DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Use as configurações do dataset exatamente como aparecem para Treinamento LoRA Z‑Image:

Target Dataset: selecione seu dataset
Default Caption: template curto opcional (ou deixe em branco se você usa .txt por imagem)
Caption Dropout Rate: 0.05 (mude para 0 se você cachear text embeddings)
Cache Latents: ON para velocidade
Is Regularization: OFF no dataset principal
Flip X / Flip Y: OFF por padrão (principalmente para logos/texto)
Resolutions (a alavanca mais importante no Treinamento LoRA Z‑Image Base)

Low VRAM: 512 + 768
24GB: 768 + 1024 (ou só 1024 se o dataset for consistente)
High VRAM: adicione 1280 / 1536 para melhor fidelidade produto/texto

5.10 Painel SAMPLE (onde Base vs Turbo mais importa)

Este é o lugar #1 onde as pessoas configuram errado o Z‑Image Base no Treinamento LoRA Z‑Image.

Padrões recomendados de amostragem para Base

Sample Every: 250
Sampler: FlowMatch (para combinar a família do scheduler)
Guidance Scale: 4 (o range típico do Base é ~3–5; ajuste ao gosto)
Sample Steps: 30–50 (comece em 30)
Width / Height: combine com seu bucket principal (1024×1024 é uma boa baseline)
Adicione um conjunto pequeno de prompts que cubra:

o trigger (se você usa)
composições diferentes
pelo menos um prompt “difícil” que pressione identidade/estilo/geometria do produto

Prompt negativo opcional (Base suporta bem)

Use um prompt negativo curto para previews e reduzir artefatos, por exemplo:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Iniciar o treino e monitorar

Inicie o job e acompanhe no seu Treinamento LoRA Z‑Image:

Samples a cada intervalo de checkpoint (250 steps)
Fidelidade ao prompt (os prompts ainda são respeitados?)
Sinais de overfit (mesmo rosto/textura em todo lugar, fundos colapsam)

Escolha o checkpoint em que o LoRA está forte sem virar um filtro sempre ligado.

6. Configs recomendadas de Treinamento LoRA Z‑Image por faixa de VRAM

Tier 1 — 12–16GB (VRAM apertada)

Low VRAM: ON
Quantization: float8 para Transformer + Text Encoder
Linear Rank: 16
Resolutions: 512 + 768
Sample Steps: 30 (mantenha o preview em 768 se precisar)
Steps: 2000–5000 dependendo do tamanho do dataset

Tier 2 — 24GB (tier local mais prático)

Low VRAM: ON (tente OFF depois de estabilizar)
Quantization: float8
Linear Rank: 32 (personagem/produto), 16–32 (estilo)
Resolutions: 768 + 1024 (ou só 1024 se consistente)
Sample Steps: 30–40
Steps: 3000–7000 dependendo do objetivo

Tier 3 — 48GB+ (ou cloud H100/H200)

Low VRAM: OFF (opcional)
Quantization: opcional (float8 continua ok)
Linear Rank: 32–48
Resolutions: 1024 + 1280 + 1536 (se seu dataset suportar)
Sample Steps: 40–50 para melhor qualidade de preview
Steps: mesmas faixas por objetivo; você só itera mais rápido

7. Problemas comuns do treino do Z‑Image Base e como corrigir

Estes são problemas específicos do Z‑Image Base (não erros genéricos do AI Toolkit).

“Base parece cru / com pouco detalhe”

Causa provável: poucos steps e/ou resolução baixa demais.

Correção

Aumente os sample steps para 40–50
Tente um bucket mais alto (1280/1536) se sua VRAM permitir
Se seu workflow de inferência tiver um parâmetro “shift”, alguns usuários relatam melhor coerência com shift em faixa média (ex.: ~4–6). Use isso só como ajuste fino depois que steps/CFG estiverem corretos.

“Meu LoRA Base funciona no Base mas não no Turbo”

Isso é esperado em muitos casos:

Turbo é destilado e se comporta diferente (especialmente em CFG/negativos e “quão forte os LoRAs pegam”).

Correção

Se você precisa de deploy no Turbo, considere treinar num workflow focado em Turbo em vez de assumir transferência Base↔Turbo 1:1.
Para melhores resultados, treine e faça deploy na mesma família (Base→Base).

“Texto/logos inconsistentes”

Z‑Image Base pode fazer ótima tipografia, mas é sensível à resolução e ao sampling no Treinamento LoRA Z‑Image.

Correção

Treine em 1024+ (e considere 1280/1536 se possível)
Avalie com 40–50 steps
Evite Flip X se texto importa
Faça captions consistentes da característica de texto chave (não dependa do trigger para implicar isso)

8. Usando seu LoRA Z‑Image Base após o Treinamento LoRA Z‑Image

Run LoRA — abra a página Run LoRA do Z‑Image. Nesta página de inferência do modelo base, você pode selecionar um asset LoRA que treinou no RunComfy ou importar um arquivo LoRA que treinou com AI Toolkit, e então executar inferência pelo playground ou pela API. O RunComfy usa o mesmo modelo base e a definição completa do pipeline do AI Toolkit a partir da sua configuração de treinamento, então o que você viu durante o treinamento é o que você obtém na inferência — esse alinhamento de training/inference ajuda a manter resultados consistentes com suas amostras de Treinamento LoRA Z‑Image. Você também pode fazer deploy do seu LoRA como um endpoint dedicado usando a página Deployments

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Treinamento LoRA Z‑Image (Base) com Ostris AI Toolkit

Índice

1. Visão geral do Z‑Image: o que ele faz (e como difere do Turbo)

1.1 O que “Z‑Image Base” significa

1.2 Base vs Turbo (a implicação mais importante para treinamento)

2. Opções de ambiente: AI Toolkit local vs AI Toolkit cloud no RunComfy

3. Requisitos de hardware e VRAM para o Treinamento LoRA Z‑Image Base

4. Montando um dataset para Treinamento LoRA Z‑Image Base

4.1 Escolha seu objetivo (e o formato do dataset)

4.2 Captions + trigger (mantenha simples)

5. Passo a passo: Treinamento LoRA Z‑Image no AI Toolkit

5.1 Painel JOB (Training Name, GPU ID, Trigger Word)

5.2 Painel MODEL (Model Architecture, Name or Path, Options)

5.3 Painel QUANTIZATION (Transformer, Text Encoder)

5.4 Painel TARGET (Target Type, Linear Rank)

5.5 Painel SAVE (Data Type, Save Every, Max Step Saves to Keep)

5.6 Painel TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

5.7 Otimizações do Text Encoder + Regularização (lado direito)

5.8 Painel ADVANCED

5.9 Painel DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

5.10 Painel SAMPLE (onde Base vs Turbo mais importa)

5.11 Iniciar o treino e monitorar

6. Configs recomendadas de Treinamento LoRA Z‑Image por faixa de VRAM

Tier 1 — 12–16GB (VRAM apertada)

Tier 2 — 24GB (tier local mais prático)

Tier 3 — 48GB+ (ou cloud H100/H200)

7. Problemas comuns do treino do Z‑Image Base e como corrigir

“Base parece cru / com pouco detalhe”

“Meu LoRA Base funciona no Base mas não no Turbo”

“Texto/logos inconsistentes”

8. Usando seu LoRA Z‑Image Base após o Treinamento LoRA Z‑Image

Mais guias de treinamento LoRA com AI Toolkit