Guia de Treinamento LoRA Qwen-Image-2512 com Ostris AI Toolkit

Qwen‑Image‑2512 (frequentemente abreviado como Qwen 2512) é um grande modelo base texto-para-imagem que pode ser ajustado com pequenos adaptadores para aprender de forma confiável um personagem (semelhança), um estilo ou um produto/conceito. Este guia mostra como realizar Treinamento LoRA Qwen Image 2512 prático usando Ostris AI Toolkit, com padrões estáveis e solução de problemas comuns.

Ao final deste guia de Treinamento LoRA Qwen Image 2512, você será capaz de:

Escolher os padrões corretos para LoRAs de personagem vs estilo vs produto no Qwen-Image-2512.
Planejar requisitos de VRAM e decidir quando ARA vale a pena.
Construir datasets, legendas e triggers que evitam modos de falha comuns (overfitting/bleeding).
Executar um smoke test curto e então fixar passos e configurações com confiança.

Este artigo faz parte da série de treinamento LoRA com AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a introdução ao treinamento LoRA com AI Toolkit antes de mergulhar neste guia sobre como treinar LoRA Qwen Image 2512.

Índice

1. Visão geral do Qwen‑Image‑2512: o que este modelo texto-para-imagem pode fazer
2. Opções de ambiente: trabalhando na interface de treinamento do AI Toolkit
3. Hardware e requisitos de VRAM para Treinamento LoRA Qwen Image 2512
4. Construindo um dataset para Qwen-Image-2512 treino de LoRA
5. Passo a passo: Ajuste fino LoRA Qwen Image 2512 no AI Toolkit
6. Configurações recomendadas de AI Toolkit LoRA Qwen Image 2512 por tier de VRAM
7. Problemas comuns do Treinamento LoRA Qwen Image 2512 e como resolvê-los
8. Usando sua LoRA Qwen‑Image‑2512 após o treinamento

1. Visão geral do Qwen‑Image‑2512: o que este modelo texto-para-imagem pode fazer

O que é Treinamento LoRA Qwen Image 2512 (e o que "bom" significa)

No Treinamento LoRA Qwen Image 2512, você não está substituindo o modelo base—está adicionando um pequeno adaptador que o direciona para uma identidade, estilo ou conceito de produto específico.

Uma LoRA forte tem três qualidades:

Força: muda claramente as saídas quando ativa
Controle: ativa apenas quando você quer
Generalização: funciona em novos prompts, não apenas nas suas imagens de treinamento

Escolha seu objetivo: Personagem vs Estilo vs Produto/Conceito

Seu objetivo determina os melhores padrões para design de dataset e configurações de treinamento no Qwen-Image-2512 treino de LoRA.

Personagem / semelhança

Melhor para: pessoa específica, personagem, semelhança com celebridade, rosto/identidade consistente
Riscos principais: bleeding de identidade (afeta outras pessoas), rostos sobreprocessados, overfitting rápido
Precisa: estratégia de timestep mais apertada, passos cuidadosos, geralmente um trigger, frequentemente DOP

Estilo

Melhor para: um look/grade, estilo de ilustração, estilo de iluminação, linguagem de textura
Riscos principais: tornar-se um "filtro para tudo", perder fidelidade ao prompt
Precisa: mais variedade, geralmente menos repetições/imagem que personagem, trigger opcional

Produto / conceito

Melhor para: produto específico (sapato, garrafa), embalagem com logo, novo conceito de objeto
Riscos principais: drift de forma, materiais inconsistentes, geometria instável
Precisa: enquadramento consistente + legendas limpas; trigger geralmente recomendado

Se você não tem certeza, comece o Treinamento LoRA Qwen Image 2512 como smoke test (execução curta), depois fixe os passos finais assim que ver quão rápido seu dataset "imprime".

2. Opções de ambiente: AI Toolkit local vs AI Toolkit cloud no RunComfy

Para o Treinamento LoRA Qwen Image 2512, você pode usar os mesmos dois ambientes que outros workflows LoRA do AI Toolkit:

AI Toolkit local na sua própria GPU
AI Toolkit cloud no RunComfy com GPUs grandes (H100 / H200)

A interface de treinamento, parâmetros e workflow são idênticos em ambos os casos. A única diferença é onde a GPU está e quanto VRAM você tem disponível.

2.1 AI Toolkit local (sua própria GPU)

Instale o AI Toolkit do repositório GitHub do AI Toolkit, depois execute a Web UI. Treinamento local é uma boa escolha se:

Você já tem uma GPU NVIDIA (tipicamente 24GB VRAM ou mais para treinamento confortável em 1024)
Você está confortável gerenciando CUDA, drivers, espaço em disco e jobs de longa duração

2.2 AI Toolkit cloud no RunComfy (H100 / H200)

Com o AI Toolkit cloud no RunComfy, o AI Toolkit LoRA Qwen Image 2512 roda inteiramente no navegador:

Você não instala nada localmente
Você abre um navegador, faz login e chega diretamente na interface de treinamento do AI Toolkit
Você pode selecionar GPUs grandes como H100 (80GB) ou H200 (141GB) ao lançar um job
Você obtém um workspace persistente onde datasets, configs e checkpoints são salvos e podem ser reutilizados entre sessões

Este ambiente é especialmente útil para o Ajuste fino LoRA Qwen Image 2512 quando:

Você quer iteração mais rápida em 1024×1024 sem truques de memória agressivos
Você quer experimentar com ranks LoRA maiores, mais buckets ou batch sizes maiores
Você não quer gastar tempo debugando problemas de CUDA ou drivers

👉 Abra aqui: AI Toolkit cloud no RunComfy

3. Hardware e requisitos de VRAM para Treinamento LoRA Qwen Image 2512

3.1 Planejamento de hardware: tiers de VRAM e quando ARA importa

Qwen 2512 é grande. Para Treinamento LoRA Qwen Image 2512 prático, pense em tiers:

24GB VRAM (comum): viável, mas você tipicamente precisa de quantização low-bit + ARA para treinamento em 1024
40–48GB VRAM: treinamento confortável em 1024 com menos compromissos
80GB+ VRAM: setup mais simples, iteração mais rápida, menos necessidade de otimizar memória

Se você está abaixo de 24GB: você às vezes pode treinar em resolução menor (ex. 768) com táticas de memória agressivas, mas espere execuções mais lentas e estabilidade mais instável.

3.2 ARA explicado: o que é, quando usar e como afeta o treinamento

O que é ARA

ARA (Accuracy Recovery Adapter) é um mecanismo de recuperação usado com quantização de bits muito baixos (comumente 3-bit ou 4-bit). O modelo base roda quantizado para economizar VRAM, enquanto ARA ajuda a recuperar a precisão perdida pela quantização.

Quando usar ARA para Qwen 2512

Use ARA se você quer qualquer um destes:

Treinar Qwen 2512 em 1024×1024 em 24GB
Menos problemas de OOM
Convergência estável sem offload pesado para CPU

Como ARA afeta o treinamento (tradeoffs)

Prós

Torna treinamento em 1024 viável em GPUs de consumidor
Frequentemente melhora estabilidade comparado a quantização "simples low-bit"

Contras

Adiciona partes móveis extras (compatibilidade de ferramentas/versões importa)
Se a quantização falhar, você pode precisar ajustar o modo de quantização ou atualizar seu ambiente

Guia prático para Treinamento LoRA Qwen Image 2512

Comece com ARA 3-bit em 24GB
Se houver erros de quantização, tente ARA 4-bit
Se os problemas persistirem, use temporariamente um modo de quantização de maior precisão para validar o resto do seu pipeline, depois volte para ARA

4. Construindo um dataset para Qwen-Image-2512 treino de LoRA

4.1 Design do dataset: o que coletar para cada objetivo

A maioria das falhas no Treinamento LoRA Qwen Image 2512 são falhas de dataset disfarçadas.

Regras universais

Converta tudo para RGB (evite escala de cinza/CMYK)
Remova imagens quebradas/corrompidas
Evite quase-duplicatas a menos que você intencionalmente queira que aquela foto domine
Mantenha a resolução consistente onde possível (ou use um pequeno conjunto de buckets)

Dataset de personagem (15–50 imagens)

Mire em:

30–60% closes / cabeça e ombros
30–50% planos médios
10–20% corpo inteiro (opcional mas ajuda na generalização de roupa/pose)

Mantenha iluminação e fundos variados o suficiente para que "identidade" seja o sinal consistente.

Dataset de estilo (30–200 imagens)

Mire em:

Ampla variedade de sujeitos (pessoas, objetos, ambientes)
Composição e situações de cor variadas
Pistas de estilo consistentes (pincel, sombreamento, paleta, grão de filme, etc.)

LoRAs de estilo no Qwen-Image-2512 treino de LoRA generalizam melhor quando o estilo é o único fator consistente.

Dataset de produto / conceito (20–80 imagens)

Mire em:

Ângulos e enquadramento consistentes (frente/lado/45 graus)
Escala do produto consistente no quadro (evite diferenças de zoom extremas)
Múltiplas condições de iluminação se material importa (fosco vs brilhante)
Fundos limpos ajudam no início (você pode adicionar cenas complexas depois)

4.2 Legendas e triggers: templates para Personagem / Estilo / Produto

Você pode treinar Qwen 2512 com apenas trigger ou com legendas curtas consistentes.

4.2.1 A regra chave das legendas

Se uma característica aparece em muitas imagens de treinamento mas você nunca a menciona nas legendas, o modelo pode aprender que o trigger implicitamente significa aquela característica—então ele tentará reproduzi-la sempre que você usar o trigger.

Esta é uma razão comum pela qual uma LoRA "força" um corte de cabelo, roupa, cor de fundo ou estilo de câmera sempre que ativa.

4.2.2 Templates de legenda para personagem

Recomendado: use um trigger. Mantenha legendas curtas.

Apenas trigger:
[trigger]
Legenda curta:
portrait photo of [trigger], studio lighting, sharp focus

photo of [trigger], natural skin texture, realistic

Evite descrever demais partes do rosto (olhos, nariz, etc.). Deixe o modelo aprender identidade das imagens.

4.2.3 Templates de legenda para estilo

Trigger é opcional. Se você usar um, você ganha um interruptor liga/desliga.

Sem trigger, legenda curta:
in a watercolor illustration style, soft edges, pastel palette
Trigger + legenda curta:
[trigger], watercolor illustration, pastel palette, soft edges

Para estilo, legendas devem descrever atributos de estilo, não conteúdo da cena.

4.2.4 Templates de legenda para produto/conceito

Trigger é fortemente recomendado para controle.

Simples:
product photo of [trigger], clean background, studio lighting
Se o produto tem características definidoras:
product photo of [trigger], transparent bottle, blue label, studio lighting

Evite legendas longas. Para produtos, formulação consistente melhora estabilidade de geometria.

5. Passo a passo: Ajuste fino LoRA Qwen Image 2512 no AI Toolkit

Esta seção segue o mesmo fluxo da interface de treinamento do AI Toolkit. Crie seus datasets primeiro, depois configure um novo job painel por painel.

5.1 Passo 0 – Escolha seu objetivo (Personagem vs Estilo vs Produto)

Antes de tocar nas configurações, decida o que você está treinando. Isso determina os melhores padrões para legendas, passos e regularização.

Personagem / semelhança: consistência de identidade mais forte (rosto/aparência). Maior risco de bleeding e overfitting rápido.
Estilo: look visual consistente (paleta/textura/iluminação). Maior risco de se tornar um "filtro para tudo".
Produto / conceito: identidade de objeto estável e geometria. Maior risco de drift de forma/material.

Se você não tem certeza, execute primeiro um smoke test curto (veja TRAINING + SAMPLE abaixo), depois fixe os passos assim que ver quão rápido seu dataset "imprime".

5.2 Passo 1 – Criar datasets no AI Toolkit

Na interface do AI Toolkit, abra a aba Datasets.

Crie pelo menos um dataset (nome exemplo):

my_dataset_2512

Faça upload das suas imagens para este dataset.

Regras de qualidade do dataset (todos os objetivos)

Converta tudo para RGB (evite escala de cinza/CMYK).
Remova arquivos quebrados/corrompidos.
Evite quase-duplicatas a menos que você intencionalmente queira que aquele look/pose domine.

Tamanhos de dataset sugeridos

Personagem: 15–50 imagens
Estilo: 30–200 imagens (mais variedade ajuda)
Produto: 20–80 imagens (enquadramento consistente ajuda)

5.3 Passo 2 – Criar um novo Job

Abra a aba New Job. Configure cada painel na ordem em que aparecem.

5.3.1 Painel JOB – Training Name, GPU ID, Trigger Word

Training Name
Escolha um nome claro que você reconhecerá depois (ex. qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).
GPU ID – em uma instalação local, escolha a GPU na sua máquina. No AI Toolkit cloud no RunComfy, deixe GPU ID no padrão. O tipo de máquina real (H100 / H200) é escolhido depois quando você inicia o job da Training Queue.
Trigger Word
Uso recomendado depende do seu objetivo:

Personagem: fortemente recomendado (dá controle limpo liga/desliga e ajuda a prevenir bleeding).
Estilo: opcional (use se você quer um "estilo chamável" em vez de sempre ligado).
Produto: fortemente recomendado (ajuda a manter o conceito aprendido controlável).

Se você usar um trigger, suas legendas podem incluir um placeholder como [trigger] e seguir templates consistentes (veja abaixo).

5.3.2 Painel MODEL – Model Architecture, Name or Path, Options

Model Architecture
Selecione Qwen-Image-2512.
Name or Path
Use Qwen/Qwen-Image-2512. Na maioria dos builds do AI Toolkit, selecionar Qwen‑Image‑2512 auto-preencherá este valor.

Se você sobrescrever, use o formato ID de repo Hugging Face: org-or-user/model-name (opcionalmente org-or-user/model-name@revision).
Options

Low VRAM: ligue para GPUs de 24GB ao fazer Treinamento LoRA Qwen Image 2512.
Layer Offloading: trate como último recurso se você ainda tiver OOM após usar quantização, rank menor e menos buckets.

Ordem de offloading (melhores práticas):

1) ARA + Low VRAM

2) Reduzir rank

3) Reduzir buckets de resolução

4) Reduzir frequência/resolução de amostragem

5) Então ativar Layer Offloading

5.3.3 Painel QUANTIZATION – Transformer, Text Encoder

É aqui que a maioria das execuções de Treinamento LoRA Qwen Image 2512 em 24GB tem sucesso ou falha.

Baseline 24GB (recomendado para treinamento em 1024)

Quantize o Transformer e use ARA (3-bit primeiro, 4-bit se necessário).
Quantize o Text Encoder para float8 se você precisar de margem de VRAM adicional.

GPUs com VRAM grande
Você pode reduzir a quantização ou desabilitá-la para simplicidade se o treinamento for estável e rápido o suficiente.

Se a quantização falhar (erros dtype/quantize), trate primeiro como problema de compatibilidade de ferramentas:

alterne entre ARA 3-bit ↔ 4-bit,
atualize AI Toolkit/dependências,
ou use temporariamente um modo de maior precisão para validar o resto do seu setup de job, depois volte para ARA.

5.3.4 Painel TARGET – Target Type, Linear Rank

Target Type: escolha LoRA.
Linear Rank
Pontos de partida recomendados por objetivo:

Personagem: 32
Estilo: 16–32
Produto: 32

Regras gerais:

Se OOM → reduza rank antes de mexer em tudo mais.
Se underfitting → ajuste timesteps/steps/LR primeiro, depois considere aumentar rank.
Se overfitting → reduza repetições/passos, reduza rank, adicione variedade, considere DOP.

5.3.5 Painel SAVE – Data Type, Save Every, Max Step Saves to Keep

Data Type: BF16 (padrão estável).
Save Every: 250 (boa cadência de checkpoints).
Max Step Saves to Keep: 4 (mantém uso de disco sob controle).

5.3.6 Painel TRAINING – hiperparâmetros principais

Estes são os padrões com que a maioria das execuções começa:

Batch Size: 1
Gradient Accumulation: 1
Optimizer: AdamW8Bit
Learning Rate: 0.0001
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
Use EMA: OFF (para LoRAs Qwen 2512)

Guia de Timestep Type por objetivo

Personagem: Weighted é uma baseline segura; se a semelhança não fixa ou parece inconsistente, tente uma configuração de timestep mais amigável à identidade (frequentemente melhora a impressão do personagem).
Estilo: Weighted geralmente funciona; aumente variedade antes de aumentar passos.
Produto: Weighted é uma baseline estável; se a geometria deriva, reduza repetições ou aperte legendas/trigger primeiro.

Steps: valores recomendados para Personagem vs Estilo vs Produto

Steps não deveria ser um único número mágico. Uma forma mais confiável é repetições por imagem:

repetições ≈ (steps × batch_size × grad_accum) ÷ num_images
com batch_size=1 e grad_accum=1: steps ≈ repetições × num_images

Se você aumentar gradient accumulation para 2 ou 4, reduza steps proporcionalmente.

Repetições por imagem para personagem (semelhança)

Smoke test: 30–50
Sweet spot típico: 50–90
Push de alta semelhança: 90–120 (cuidado com bleeding)

Exemplos (batch=1, accum=1):

Imagens	30–50 rep.	50–90 rep.	90–120 rep.
15	450–750	750–1350	1350–1800
25	750–1250	1250–2250	2250–3000
40	1200–2000	2000–3600	3600–4800

Repetições por imagem para estilo

Smoke test: 15–30
Sweet spot típico: 25–60
Limite superior: 60–80 (apenas com datasets grandes e diversos)

Exemplos (batch=1, accum=1):

Imagens	15–30 rep.	25–60 rep.	60–80 rep.
30	450–900	750–1800	1800–2400
100	1500–3000	2500–6000	6000–8000

Repetições por imagem para produto / conceito

Smoke test: 20–40
Sweet spot típico: 30–70
Push de alta fidelidade: 70–90 (apenas se forma/material ainda underfitting)

Exemplos (batch=1, accum=1):

Imagens	20–40 rep.	30–70 rep.	70–90 rep.
20	400–800	600–1400	1400–1800
50	1000–2000	1500–3500	3500–4500
80	1600–3200	2400–5600	5600–7200

Otimizações do Text Encoder (lado direito de TRAINING)

Unload TE
Use apenas para workflows apenas-trigger onde você quer minimizar uso de VRAM e não depende de legendas por imagem.
Cache Text Embeddings
Ative apenas se:

legendas são estáticas,
caption dropout está OFF,
DOP está OFF.

Se você usar caption dropout ou DOP, mantenha OFF.

Regularização (lado direito de TRAINING)

Differential Output Preservation (DOP) pode ajudar a prevenir bleeding.

O que DOP faz
Encoraja a LoRA a se comportar como um delta controlado:

efeito forte quando trigger presente,
efeito mínimo quando trigger ausente.

Quando ativar DOP

Personagem: geralmente sim (especialmente para comportamento limpo de trigger liga/desliga).
Estilo: opcional (use se você quer estilo chamável).
Produto: recomendado se identidade do produto vaza para tudo.

Regra de compatibilidade chave para Treinamento LoRA Qwen Image 2512

Se DOP está ON, não faça cache de text embeddings.

Blank Prompt Preservation

Deixe OFF a menos que você tenha uma razão específica para preservar comportamento para prompts vazios.

5.3.7 Painel ADVANCED – Opções de velocidade e estabilidade

Do Differential Guidance
Knob opcional para aumentar o "sinal de aprendizado". Se você ativar, comece conservadoramente (valor médio) e só aumente se o aprendizado parecer muito lento.
Latent caching
Na seção DATASETS você pode ativar Cache Latents (recomendado para velocidade se você tem disco suficiente e quer iterações mais rápidas).

5.3.8 Painel DATASETS – Target Dataset, Default Caption, Settings, Resolutions

Dentro de Dataset 1:

Target Dataset
Escolha o dataset que você fez upload (ex. my_dataset_2512).
Default Caption
Escolha baseado na sua estratégia de legendas:

apenas trigger: deixe vazio ou apenas [trigger]
legendas curtas: use um template consistente para todo o dataset

Templates de legenda:

Personagem: portrait photo of [trigger], studio lighting, sharp focus
Estilo: [trigger], watercolor illustration, pastel palette, soft edges (trigger opcional)
Produto: product photo of [trigger], clean background, studio lighting

Regra chave de legendas

Caption Dropout Rate
0.05 é um ponto de partida comum quando você não está fazendo cache de text embeddings.

Se você ativar cache de text embeddings, defina dropout para 0.
Settings

Cache Latents: recomendado para velocidade (especialmente em datasets grandes).
Is Regularization: use apenas se este dataset é um dataset de regularização.
Flip X / Flip Y: OFF por padrão. Só ative se flips espelhados são seguros para seu sujeito/produto (nota: flip pode quebrar texto/logos).

Resolutions
Comece simples:

Personagem: apenas 1024 (impressão limpa), adicione 768 depois se necessário
Estilo: 768 + 1024 se o dataset mistura tamanhos
Produto: apenas 1024 no início, adicione outro bucket quando a forma estiver estável

5.3.9 Painel SAMPLE – prévias de treinamento

Amostragem é seu sistema de alerta antecipado para Treinamento LoRA Qwen Image 2512.

Padrões recomendados:

Sample Every: 250
Sampler: FlowMatch (combina com treinamento)
Guidance Scale: 4
Sample Steps: 25
Width/Height: combina com seu bucket principal de treinamento (frequentemente 1024×1024)
Seed: 42
Walk Seed: opcional (mais variedade em prévias)

Sinais de parada antecipada

Personagem: semelhança atinge pico depois fica sobreprocessada; bleeding de identidade começa; fidelidade ao prompt cai.
Estilo: se torna um "filtro para tudo"; texturas repetitivas aparecem; prompts param de ser respeitados.
Produto: geometria distorce após melhorar; labels/logos ficam muito assertivos; materiais degradam.

5.4 Passo 3 – Lançar treinamento e monitorar

Após configurar o job, vá para a Training Queue, selecione seu job e inicie o treinamento.

Observe duas coisas:

Uso de VRAM (especialmente com GPUs de 24GB)
Imagens de amostra (elas dizem quando parar e qual checkpoint é melhor)

A maioria dos usuários obtém melhores resultados de Qwen-Image-2512 treino de LoRA selecionando o melhor checkpoint da amostragem (frequentemente mais cedo) em vez de sempre terminar os passos máximos.

6. Configurações recomendadas de AI Toolkit LoRA Qwen Image 2512 por tier de VRAM

Qwen 2512 é grande. Para Ajuste fino LoRA Qwen Image 2512 prático, pense em tiers:

24GB VRAM (comum): viável, mas você tipicamente precisa de quantização low-bit + ARA para treinamento em 1024
40–48GB VRAM: treinamento confortável em 1024 com menos compromissos
80GB+ VRAM: setup mais simples, iteração mais rápida, menos necessidade de otimizar memória

Se você está abaixo de 24GB: você às vezes pode treinar em resolução menor (ex. 768) com táticas de memória agressivas, mas espere execuções mais lentas e estabilidade mais instável.

Use ARA se você quer qualquer um destes:

Treinar Qwen 2512 em 1024×1024 em 24GB
Menos problemas de OOM
Convergência estável sem offload pesado para CPU

7. Problemas comuns do Treinamento LoRA Qwen Image 2512 e como resolvê-los

7.1 Quantização falha na inicialização (ARA / mismatch de dtype no Qwen-Image-2512)

Sintomas

Treinamento para imediatamente durante a inicialização.
Erros como "Failed to quantize … Expected dtype …".

Por que isso acontece

O modo ARA ou quantização selecionado não é totalmente compatível com o build atual do AI Toolkit ou ambiente.

Correção (ordem mais rápida)

Atualize AI Toolkit e dependências para uma versão conhecida por suportar Qwen-Image-2512.
Alterne modo ARA:

Se ARA 3-bit falha → tente ARA 4-bit.
Se ARA 4-bit falha → tente ARA 3-bit.

Use temporariamente um modo de quantização de maior precisão para confirmar que o resto do setup de treinamento funciona, depois volte para ARA.

7.2 Identidade do personagem fica genérica quando batch size > 1

Sintomas

Amostras iniciais parecem promissoras, mas a LoRA final parece "média".
O personagem não parece mais com uma pessoa específica.

Por que isso acontece

Batches maiores podem encorajar super-generalização no Qwen-Image-2512 treino de LoRA para personagens.

Correção

Prefira Batch Size = 1 e Gradient Accumulation = 1.
Se você precisa de um batch efetivo maior, aumente Gradient Accumulation em vez de Batch Size e monitore amostras de perto.

7.3 Semelhança nunca "fixa" (comportamento de timestep errado)

Sintomas

Roupa, pose ou vibe estão corretos, mas o rosto ou identidade é inconsistente.
Resultados variam muito entre prompts.

Por que isso acontece

Para personagens realistas, Qwen-Image-2512 frequentemente responde melhor a comportamento de timestep tipo sigmoid do que a timesteps ponderados.

Correção

Para LoRAs de personagem (e frequentemente produto), mude Timestep Type para sigmoid.
Avalie amostras cedo; não espere até o fim do treinamento.

7.4 Rostos ficam "fritos" ou cerosos em checkpoints tardios

Sintomas

Um checkpoint parece ótimo, mas os posteriores parecem super-aguçados, plásticos ou instáveis.
Bleeding de identidade aumenta rapidamente.

Por que isso acontece

LoRAs de personagem no Treinamento LoRA Qwen Image 2512 podem degradar rapidamente uma vez que você excede aproximadamente ~100 repetições por imagem.

Correção

Selecione um checkpoint mais cedo (frequentemente a melhor solução).
Reduza total de repetições/passos e fique mais perto do range recomendado.
Se necessário, abaixe o rank LoRA ou adicione mais variedade ao dataset antes de aumentar passos.

7.5 LoRA de estilo é inconsistente ou age como um "filtro para tudo"

Sintomas

Às vezes o estilo aparece, às vezes não.
Ou sempre sobrescreve o conteúdo do prompt.

Por que isso acontece

LoRAs de estilo frequentemente precisam de mais amplitude de dataset e treinamento geral mais longo que LoRAs de personagem.

Correção

Adicione mais exemplos de estilo diversos (pessoas, objetos, ambientes).
Mantenha repetições por imagem razoáveis e aumente sinal total via mais imagens em vez de repetições extremas.
Amostre frequentemente para evitar que o estilo se torne um filtro global grosseiro.

8. Usando sua LoRA Qwen 2512 após o treinamento

Uma vez que o treinamento está completo, você pode usar sua LoRA Qwen 2512 de duas formas simples:

Run LoRA – abra a página Run LoRA do Qwen‑Image‑2512. Nesta página de inferência do modelo base, você pode selecionar um asset de LoRA que treinou no RunComfy ou importar um arquivo LoRA treinado no AI Toolkit, e então rodar a inferência pelo playground ou pela API. O RunComfy usa o mesmo modelo base e a definição completa do pipeline do AI Toolkit da sua config de treino, então o que você viu durante o training é o que você obtém na inferência — esse alinhamento training/inference ajuda a manter resultados consistentes com os seus samples de treino.
Workflows ComfyUI – inicie uma instância ComfyUI e construa seu próprio workflow ou carregue um como Qwen Image 2512, adicione um nó carregador de LoRA e coloque sua LoRA nele, e ajuste o peso da LoRA e outras configurações para controle mais detalhado.

Testando sua LoRA Qwen 2512 em inferência

Testes de personagem

Prompt de retrato close-up
Prompt de plano médio
Prompt de corpo inteiro

Testes de estilo

Múltiplas categorias de sujeito (humano/objeto/ambiente)

Testes de produto

Prompt de estúdio limpo + um prompt de cena complexa

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Índice

1. Visão geral do Qwen‑Image‑2512: o que este modelo texto-para-imagem pode fazer

O que é Treinamento LoRA Qwen Image 2512 (e o que "bom" significa)

Escolha seu objetivo: Personagem vs Estilo vs Produto/Conceito

Personagem / semelhança

Estilo

Produto / conceito

2. Opções de ambiente: AI Toolkit local vs AI Toolkit cloud no RunComfy

2.1 AI Toolkit local (sua própria GPU)

2.2 AI Toolkit cloud no RunComfy (H100 / H200)

3. Hardware e requisitos de VRAM para Treinamento LoRA Qwen Image 2512

3.1 Planejamento de hardware: tiers de VRAM e quando ARA importa

3.2 ARA explicado: o que é, quando usar e como afeta o treinamento

O que é ARA

Quando usar ARA para Qwen 2512

Como ARA afeta o treinamento (tradeoffs)

4. Construindo um dataset para Qwen-Image-2512 treino de LoRA

4.1 Design do dataset: o que coletar para cada objetivo

Regras universais

Dataset de personagem (15–50 imagens)

Dataset de estilo (30–200 imagens)

Dataset de produto / conceito (20–80 imagens)

4.2 Legendas e triggers: templates para Personagem / Estilo / Produto

4.2.1 A regra chave das legendas

4.2.2 Templates de legenda para personagem

4.2.3 Templates de legenda para estilo

4.2.4 Templates de legenda para produto/conceito

5. Passo a passo: Ajuste fino LoRA Qwen Image 2512 no AI Toolkit

5.1 Passo 0 – Escolha seu objetivo (Personagem vs Estilo vs Produto)

5.2 Passo 1 – Criar datasets no AI Toolkit

5.3 Passo 2 – Criar um novo Job

5.3.1 Painel JOB – Training Name, GPU ID, Trigger Word

5.3.2 Painel MODEL – Model Architecture, Name or Path, Options

5.3.3 Painel QUANTIZATION – Transformer, Text Encoder

5.3.4 Painel TARGET – Target Type, Linear Rank

5.3.5 Painel SAVE – Data Type, Save Every, Max Step Saves to Keep

5.3.6 Painel TRAINING – hiperparâmetros principais

Steps: valores recomendados para Personagem vs Estilo vs Produto

Otimizações do Text Encoder (lado direito de TRAINING)

Regularização (lado direito de TRAINING)

5.3.7 Painel ADVANCED – Opções de velocidade e estabilidade

5.3.8 Painel DATASETS – Target Dataset, Default Caption, Settings, Resolutions

5.3.9 Painel SAMPLE – prévias de treinamento

5.4 Passo 3 – Lançar treinamento e monitorar

6. Configurações recomendadas de AI Toolkit LoRA Qwen Image 2512 por tier de VRAM

7. Problemas comuns do Treinamento LoRA Qwen Image 2512 e como resolvê-los

7.1 Quantização falha na inicialização (ARA / mismatch de dtype no Qwen-Image-2512)

7.2 Identidade do personagem fica genérica quando batch size > 1

7.3 Semelhança nunca "fixa" (comportamento de timestep errado)

7.4 Rostos ficam "fritos" ou cerosos em checkpoints tardios

7.5 LoRA de estilo é inconsistente ou age como um "filtro para tudo"

8. Usando sua LoRA Qwen 2512 após o treinamento

Mais guias de treinamento LoRA com AI Toolkit