Treinamento LoRA Qwen-Image-Edit-2509 com Ostris AI Toolkit

Qwen‑Image‑Edit‑2509 é um modelo de edição multi‑imagem de 20B que pode processar até três imagens simultaneamente (alvo, controle e design) para realizar edições precisas e conscientes da geometria. Este guia mostra como fazer o Treinamento LoRA Qwen-Edit-2509. Ao final, você será capaz de:

Completar o Treinamento LoRA Qwen-Edit-2509 para tarefas de edição direcionadas confiáveis (por exemplo, colocar qualquer design em uma camiseta) usando AI Toolkit by Ostris.
Executar todo o fluxo de trabalho de Treinamento LoRA Qwen Edit 2509 localmente (mesmo com <10GB VRAM usando layer offloading), ou no navegador com o Cloud AI Toolkit no RunComfy em H100 / H200 (80GB / 141GB VRAM).
Entender por que os parâmetros chave importam para este modelo: as opções Match Target Res e Low VRAM, quantização Transformer/Text Encoder, Layer Offloading, Cache Text Embeddings, Differential Output Preservation, Differential Guidance, além de hiperparâmetros básicos como Batch Size, Steps e LoRA Rank.
Ajustar configurações com confiança para seus próprios LoRAs de edição (relighting, prova de roupas, pele, substituição de objetos…).

Se você está procurando o checkpoint mais recente e um comportamento de edição mais orientado à "consistência primeiro", consulte o Tutorial de Treinamento LoRA Qwen-Edit-2509 versão 2511.

Este artigo faz parte da série de treinamento LoRA do AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA do AI Toolkit antes de mergulhar neste guia.

Sumário

1. Visão geral do Qwen‑Image‑Edit‑2509: o que este modelo de edição pode fazer
2. Opções de ambiente: AI Toolkit local vs Cloud AI Toolkit no RunComfy
3. Requisitos de hardware e VRAM para Treinamento LoRA Qwen-Edit-2509
4. Construindo um dataset para Treinamento LoRA Qwen-Edit-2509
5. Passo a passo: Como treinar LoRA Qwen Edit 2509 no AI Toolkit
6. Configurações recomendadas para Treinamento LoRA Qwen-Edit-2509 por nível de VRAM
7. Problemas comuns no Treinamento LoRA Qwen-Edit-2509 e como resolvê-los
8. Usando seu LoRA Qwen Edit 2509 após o treinamento

1. Visão geral do Qwen‑Image‑Edit‑2509: o que este modelo de edição pode fazer

Qwen‑Image‑Edit‑2509 (frequentemente abreviado como Qwen Edit 2509 ou Qwen Image Edit Plus) é a iteração de setembro de 2025 do modelo Qwen‑Image‑Edit. É construído sobre a base 20B Qwen‑Image, com pesos oficiais na página do modelo Qwen‑Image‑Edit‑2509 no Hugging Face.

Comparado à primeira versão do Qwen‑Image‑Edit, 2509 adiciona:

Edição multi-imagem – o modelo pode receber 1–3 imagens de entrada de uma vez (por exemplo, pessoa + roupa + pose, ou foto fonte + referência de iluminação).
Comportamento de concatenação de imagens – nos pipelines oficiais, cada imagem de entrada é redimensionada para aproximadamente 1 megapixel e então processada junto. O modelo efetivamente vê um orçamento de pixels fixo mesmo quando você fornece múltiplos controles.
Melhor edição de texto e detalhes – impulsionado por Qwen2.5-VL e um VAE dedicado, ele lida muito melhor com textos pequenos, logos e detalhes finos.

Casos de uso típicos de LoRA onde as pessoas já usam Qwen Image Edit 2509 LoRA treinamento:

Prova de roupas / troca de outfit – Qwen‑Image‑Edit‑2509‑Clothing‑Tryon‑LoRA.
Relighting / refinamento de iluminação – Qwen‑Image‑Edit‑2509‑Relight‑LoRA.
Fusão de estilo e detalhes multi-efeito – Qwen‑Image‑Edit‑2509‑Multi‑Effect‑Fusion‑LoRA.
Restauração leve, mais conversão de fotos de fundo branco em cenas completas – Qwen‑Image‑Edit‑2509‑White‑Film‑To‑Rendering‑LoRA.
Estilização de foto para anime – Qwen‑Image‑Edit‑2509‑Anime‑Stylization‑LoRA.
Edição de pose romântica / beijo – Qwen‑Image‑Edit‑2509‑Passionate‑Kiss‑LoRA.
Estilo caricatura / retrato exagerado – Qwen‑Image‑Edit‑2509‑Caricature‑LoRA.

Qwen‑Image‑Edit e Qwen‑Image compartilham essencialmente a mesma base. Testes da comunidade mostram que LoRAs treinados no Qwen‑Image são compatíveis com Qwen‑Image‑Edit / 2509 e vice-versa, porque os adaptadores se conectam ao mesmo backbone.

2. Opções de ambiente: AI Toolkit local vs Cloud AI Toolkit no RunComfy

2.1 AI Toolkit local (sua própria GPU)

Instale o AI Toolkit do repositório GitHub do AI Toolkit, depois execute a Web UI. O treinamento local é uma boa escolha se você já tem uma placa NVIDIA de 24GB+, está confortável gerenciando CUDA / drivers / espaço em disco, e não se importa em deixar o treinamento rodando durante a noite.

2.2 Cloud AI Toolkit no RunComfy (H100 / H200)

Com o Cloud AI Toolkit no RunComfy, o AI Toolkit roda inteiramente na nuvem:

Você não precisa instalar nada – basta abrir um navegador, fazer login, e você está na UI do AI Toolkit.
Você tem acesso a GPUs grandes como H100 (80GB) e H200 (141GB) para execuções pesadas de Treinamento LoRA Qwen-Edit-2509.
Você obtém um workspace persistente – datasets, configurações e jobs passados permanecem anexados à sua conta para que você possa voltar e iterar.

👉 Abra aqui: Cloud AI Toolkit no RunComfy

O resto deste tutorial funciona de forma idêntica em ambos os ambientes; apenas o local onde a GPU reside é diferente.

3. Requisitos de hardware e VRAM para Treinamento LoRA Qwen-Edit-2509

Qwen‑Image‑Edit‑2509 é um modelo pesado:

O modelo base tem cerca de 20B parâmetros.
O pipeline de edição pode alimentar até 3 × ~1MP imagens através do transformer de uma vez.

Na configuração de exemplo padrão de 32GB para 2509 (train_lora_qwen_image_edit_2509_32gb.yaml), os usuários reportam aproximadamente:

27–28.5GB VRAM para treinamento a 1024×1024.
25–26GB VRAM para treinamento a 768×768 — ainda sem sorte para 24GB.

Por isso o exemplo oficial é explicitamente uma configuração de 32GB. Mas com quantização ARA de 3 bits + modo Low VRAM + Layer Offloading (RAMTorch), Ostris mostra que você pode fazer Treinamento LoRA Qwen-Edit-2509 com apenas ~8–9GB GPU VRAM, ao custo de alta RAM de CPU (60GB+) e treinamento mais lento.

Nível	Onde	Hardware exemplo	Como parece
VRAM baixa (~10–12GB)	Local	RTX 3060 12GB, 4070, etc.	Você deve habilitar quantização no painel QUANTIZATION (ARA de 3 bits para o modelo base) e usar Layer Offloading agressivo. Espere ~8–9GB GPU VRAM e 60GB+ CPU RAM, com ~10–12s/passo em uma CPU de gama média. Esta configuração (2 fluxos de controle) treina confortavelmente até 1024×1024; trate 1024² como sua resolução máxima prática neste nível.
24GB apertado	Local	RTX 3090 / 4090 / 5090	24GB não pode rodar a configuração padrão de 32GB Qwen‑Edit LoRA a 1024² com 2 controles sem offloading (pico em ~24.7GB VRAM), então você ainda precisa de truques Low VRAM como ARA de 3 bits, gradient checkpointing e/ou offload parcial. Trate 768×768 como a resolução alvo máxima prática com 2 controles a menos que você adicione algum offloading.
32GB confortável	Local	RTX 4090 32GB, placas mais novas	Este é o nível para o qual o oficial `train_lora_qwen_image_edit_32gb.yaml` é calibrado: quantização ARA de 3 bits, buckets de resolução 1024², rank LoRA médio, sem offloading. Com 32GB você pode tratar 1024×1024 (com 2–3 fluxos de controle) como uma resolução de trabalho normal.
VRAM alta (80–141GB)	Cloud AI Toolkit no RunComfy	H100 80GB / H200 141GB	Você pode manter as configurações simples (quantização ligada, offloading desligado), usar batches maiores (4–8), e treinar a 1024×1024 por padrão sem se preocupar com OOM. Neste nível você também pode experimentar com resoluções ligeiramente mais altas (por exemplo, 1280–1536px), mas 1024² continua sendo o tamanho alvo mais seguro e testado.

Em uma 4090 com offloading completo, o exemplo de Ostris atinge ~9GB VRAM e ~64GB CPU RAM, executando ~5k passos em aproximadamente um dia. Em uma 5090 sem offload, as iterações são aproximadamente 2–3× mais rápidas.

4. Construindo um dataset para Treinamento LoRA Qwen-Edit-2509

Vamos espelhar o exemplo do "design de camiseta" do tutorial de Ostris e generalizá-lo para que você possa adaptá-lo a outras tarefas.

4.1 Três fluxos lógicos de imagens

Para um LoRA de design de roupas, o modelo deve aprender: Dada uma pessoa usando uma camiseta em branco e uma imagem de design, colocar este design na camiseta dela preservando pose, iluminação e dobras.

Imagens alvo (o que você quer como resultado) – uma pessoa usando uma camiseta com o design já nela. Estas são as saídas que você quer que o modelo reproduza.
Imagens de controle (camisetas em branco, mesmas pessoas) – os mesmos sujeitos e poses que os alvos, mas sem o design (ou com uma camiseta lisa). Estes controlam geometria, dobras, iluminação e oclusões (braços, cabelo, colares, etc.).
Imagens de design – o design em si em um fundo neutro (cinza, preto ou branco). Você pode incluir algumas variantes (cores de fundo diferentes) para aumentar a robustez.

No exemplo de Ostris, cerca de 26 tripletos (pessoa + camiseta em branco + design) foram suficientes para obter desempenho muito forte, incluindo QR codes e logos complexos mapeando corretamente no tecido. Para LoRAs de produção, começar com 20–60 tripletos bem curados (alvo + controle + design) é uma boa base.

4.2 Resolução e proporção

Qwen‑Image‑Edit‑2509:

Redimensiona cada entrada internamente para aproximadamente 1MP (por exemplo, 1024×1024 ou equivalente).
Funciona melhor quando suas imagens de treinamento são quadradas ou quase quadradas (usaremos 1024×1024 aqui), ou uma proporção consistente (por exemplo, todas 3:4).

Neste tutorial assumimos imagens quadradas para que o bucketing seja simples:

Alvos, controles e designs todos em torno de 1024×1024. O AI Toolkit fará buckets em 512 / 768 / 1024 dependendo do que você habilitar no painel DATASETS.

4.3 Legendas

Para este LoRA de design de roupas, usamos sem legendas por imagem, apenas uma única legenda padrão no nível do dataset: put this design on their shirt

Isso funciona porque:

A semântica é simples e idêntica em todas as amostras.
As imagens de controle e design carregam a maior parte das informações interessantes.

Para LoRAs de edição mais complexos (como "iluminar como luz de borda de estúdio" vs "hora dourada"), você deve usar legendas por imagem descrevendo a edição desejada.

5. Passo a passo: Como treinar LoRA Qwen Edit 2509 no AI Toolkit

5.1 Passo 0 – Escolha onde você vai rodar o AI Toolkit

Você pode rodar o AI Toolkit de duas maneiras para este tutorial:

AI Toolkit local (sua própria GPU) – instale o AI Toolkit, rode a Web UI, e abra localmente. Certifique-se de ter uma GPU NVIDIA com pelo menos 10–12GB VRAM (24GB+ preferido) e RAM de CPU suficiente (idealmente 64GB+ se você planeja usar Layer Offloading).
Cloud AI Toolkit no RunComfy – faça login no Cloud AI Toolkit no RunComfy. Você aterrissa diretamente na UI do AI Toolkit rodando na nuvem. Quando você inicia um job da Training Queue você escolhe uma máquina H100 (80GB) ou H200 (141GB).

5.2 Passo 1 – Criar datasets no AI Toolkit

Na UI do AI Toolkit, abra a aba Datasets.

Crie três datasets (os nomes são apenas exemplos):

shirt_target
shirt_control
shirt_design

Faça upload das suas imagens para que cada dataset tenha um papel claro:

shirt_target – 20–60 fotos de pessoas usando camisetas com designs.
shirt_control – as mesmas pessoas e poses sem designs (ou com uma camiseta em branco).
shirt_design – imagens de design quadradas em fundos simples (cinza, preto ou branco).

Se você não tem legendas preparadas como arquivos .txt, deixe as legendas por imagem vazias por enquanto. Adicionaremos uma única Legenda Padrão no nível do job mais tarde.

Nota importante sobre pareamento

Imagens alvo e de controle devem estar pareadas em ordem (mesma pessoa, mesma pose) tanto quanto possível. Para manter o pareamento estável, use nomes de arquivo correspondentes entre pastas para que a ordem alfabética se alinhe, por exemplo: shirt_target/img_0001.jpg, shirt_control/img_0001.jpg, shirt_design/img_0001.png. Cada imagem alvo deve ter uma imagem de controle e design correspondente com o mesmo índice.

5.3 Passo 2 – Criar um novo Job

Abra a aba New Job. Vamos configurar cada painel na ordem em que aparecem.

5.3.1 Painel JOB – nome do job, GPU, palavra gatilho

Training Name – defina qualquer nome descritivo, por exemplo qwen_edit2509_shirt_lora_v1. Isto se torna o nome do job e o nome da pasta onde os checkpoints são salvos.
GPU ID – em uma instalação local, escolha a GPU na sua máquina. No Cloud AI Toolkit no RunComfy, deixe GPU ID no padrão. O tipo de máquina real (H100 / H200) é escolhido depois quando você inicia o job da Training Queue.
Trigger Word – digite a frase que você quer digitar no momento da inferência, por exemplo: put this design on their shirt. Nas legendas do seu dataset você pode usar [trigger] como placeholder. O AI Toolkit substitui [trigger] pela Trigger Word durante o treinamento. Uma frase gatilho clara te dá um interruptor liga/desliga limpo para o LoRA: prompts que não a contêm devem ficar próximos do comportamento base do Qwen‑Image‑Edit‑2509, especialmente se você também habilitar Differential Output Preservation (DOP) como recomendado mais tarde.

5.3.2 Painel MODEL – modelo base e opções de VRAM

Model Architecture – selecione Qwen‑Image‑Edit‑2509.
Name or Path – o Hugging Face model id (repo id) para o checkpoint base, por exemplo: Qwen/Qwen-Image-Edit-2509.
Na maioria das builds do AI Toolkit, selecionar Qwen‑Image‑Edit‑2509 vai auto-preencher este valor; deixe como está a menos que você tenha uma razão para mudar.

Em Options:

Low VRAM – ligue ON para GPUs com ≤ 24GB VRAM. Isto habilita checkpointing extra e truques de economia de memória dentro do backbone para que o grande modelo Qwen caiba mais facilmente.
Match Target Res – ligue ON para jobs de Treinamento LoRA Qwen-Edit-2509. Isto redimensiona imagens de controle para corresponder ao mesmo bucket de resolução da imagem alvo (por exemplo, 768×768 ou 1024×1024). Mantém a geometria de edição alinhada e evita desperdiçar VRAM em controles superdimensionados.
Layer Offloading – trate isto como uma válvula de segurança. Ligue ON em GPUs muito pequenas se você ainda obtiver CUDA OOM após habilitar Low VRAM e quantização; isto vai descarregar algumas camadas para RAM de CPU ao custo de passos mais lentos. Deixe OFF em GPUs de 24GB+ ou GPUs cloud no RunComfy para melhor velocidade.

5.3.3 Painel QUANTIZATION – ajustando o grande transformer

Qwen‑Image‑Edit‑2509 é grande o suficiente para que quantização quase sempre seja uma boa ideia.

Transformer – defina para float8 (default). No AI Toolkit isto tipicamente corresponde a uma base ARA de 3 bits com um adaptador de "recuperação" de 8 bits, então você obtém uso de VRAM próximo a um modelo de 3 bits com qualidade próxima da precisão total.
Text Encoder – defina também para float8 (default). O text encoder é grande, e rodá-lo em fp8 economiza muita VRAM com perda de qualidade mínima.

Você não precisa configurar manualmente arquivos ARA na UI; selecionar as opções float8 é suficiente.

5.3.4 Painel TARGET – tipo de LoRA e rank

Este painel diz ao AI Toolkit que você está treinando um LoRA e quanta capacidade ele deve ter.

Target Type – escolha LoRA.
Linear Rank – para Treinamento LoRA Qwen-Edit-2509, 32 é um bom padrão. É expressivo o suficiente para comportamentos como "colocar este design na camiseta deles" mas ainda leve para treinar e carregar. Em GPUs muito pequenas você pode baixar para 16; para comportamentos mais complexos você pode experimentar com 48–64 (observe de perto para overfitting com ranks mais altos).

5.3.5 Painel SAVE – tipo de checkpoint e frequência

Data Type – escolha BF16. Qwen‑Image‑Edit‑2509 tipicamente roda em bfloat16, e salvar pesos LoRA em BF16 os mantém compatíveis e razoavelmente pequenos.
Save Every – 250 passos é um padrão prático; você vai obter um checkpoint a cada 250 passos de treinamento.
Max Step Saves to Keep – 4 mantém os últimos quatro checkpoints e automaticamente deleta os mais antigos para que seu disco não encha.

5.3.6 Painel TRAINING – hiperparâmetros básicos

O painel TRAINING controla quão agressivamente fazemos fine-tune no Qwen‑Image‑Edit‑2509.

Valores iniciais recomendados para um LoRA de dataset único (10–40 imagens a 768–1024px):

Batch Size – defina para 1 por padrão. Use 2 apenas em GPUs muito grandes (nível A100 / H100 / H200).
Gradient Accumulation – comece em 1. Se você quer um tamanho de batch efetivo maior sem mais VRAM, aumente para 2–4. Tamanho de batch efetivo = Batch Size × Gradient Accumulation.
Steps – use 2500–3000. Para o exemplo do design de camiseta com ~20–30 tripletos, 3000 funciona bem. Se seu dataset é minúsculo (<15 imagens), considere 1500–2200 para evitar overfitting.
Optimizer – escolha AdamW8Bit. Adam de 8 bits reduz dramaticamente a memória enquanto se comporta como AdamW padrão.
Learning Rate – defina 0.0001. Se o treinamento parecer ruidoso ou instável, reduza para 0.00005.
Weight Decay – defina 0.0001 como um regularizador leve para que o LoRA não desvie muito em datasets pequenos.
Timestep Type – defina para Weighted. Isto enviesa o treinamento para os níveis de ruído que mais importam para Qwen‑Image‑Edit.
Timestep Bias – defina para Balanced, um padrão seguro que não enfatiza demais timesteps muito precoces ou muito tardios.
Loss Type – deixe em Mean Squared Error, a escolha padrão para treinamento de difusão / rectified-flow.
EMA (Exponential Moving Average → Use EMA) – deixe OFF para LoRAs. EMA é mais útil quando se treina modelos completos.

5.3.7 Seção de Regularização e Text Encoder (lado direito do painel TRAINING)

No lado direito do painel TRAINING você verá duas áreas importantes: Text Encoder Optimizations e Regularization.

Text Encoder Optimizations

Cache Text Embeddings – para Qwen‑Image‑Edit + Differential Output Preservation (DOP), isto deve permanecer OFF. DOP reescreve o texto do prompt internamente a cada batch, então embeddings em cache não corresponderiam mais aos prompts reais. Quando DOP está OFF e suas legendas são estáticas, você pode ligar Cache Text Embeddings ON para codificar todas as legendas uma vez, armazenar os embeddings no disco, e então liberar o text encoder da VRAM.
Unload Text Encoder (Unload TE) – este é um modo especial de apenas-gatilho. Quando você liga ON, o AI Toolkit faz cache dos embeddings para sua Trigger Word e prompts Sample uma vez, descarrega o text encoder da VRAM, e ignora todas as legendas do dataset. Para LoRAs Qwen‑Image‑Edit‑2509 que dependem de legendas normais (e especialmente quando Differential Output Preservation está ON), você deve deixar Unload TE OFF.

Porque caption dropout é implementado eliminando aleatoriamente legendas durante o treinamento, ele depende de codificação de texto fresca a cada passo. Se você habilitar Cache Text Embeddings, você deve definir Caption Dropout Rate = 0 no painel DATASETS (veja abaixo) para que não haja descasamento entre embeddings em cache e o comportamento de dropout pretendido.

Regularization → Differential Output Preservation

Differential Output Preservation – ligue ON para a maioria dos projetos reais. É crucial para Qwen‑Image‑Edit: permite que o modelo base se comporte normalmente quando a frase gatilho está ausente e só injeta seu comportamento quando o gatilho está presente.
DOP Loss Multiplier – deixe em 1 para começar. Você pode aumentar ligeiramente se você vir muito estilo vazando para prompts sem gatilho.
DOP Preservation Class – use uma palavra de classe neutra que descreve o que você edita mais frequentemente. Para edições centradas em pessoas, person é um bom padrão; para edições apenas de produtos, use algo como product ou object.

Como DOP se conecta às suas legendas e Trigger Word:

Suponha que uma legenda seja "[trigger] a person walking down the street, wearing the design on their shirt"
Com Trigger Word = put this design on their shirt
E DOP Preservation Class = person

O AI Toolkit internamente cria dois prompts:

put this design on their shirt a person walking down the street, wearing the design on their shirt – o caminho LoRA.
person a person walking down the street, wearing the design on their shirt – o caminho do modelo base.

O LoRA é treinado apenas na diferença entre estes dois. Gerações sem a frase gatilho ficam muito mais próximas do Qwen‑Image‑Edit‑2509 vanilla porque DOP explicitamente preserva esse comportamento.

Blank Prompt Preservation – deixe OFF a menos que você tenha uma razão muito específica para preservar o comportamento para prompts vazios.

5.3.8 Painel ADVANCED – Differential Guidance

Do Differential Guidance – ligue ON.
Differential Guidance Scale – comece com 3.

Differential Guidance é um truque específico do AI Toolkit que escala o sinal de erro que o LoRA vê. Uma escala maior torna o sinal de "você está errado aqui" mais alto, então o LoRA tipicamente aprende a mudança desejada mais rápido sem aumentar a taxa de aprendizado.

Se as amostras parecerem instáveis ou excessivamente "nítidas" cedo no treinamento, diminua para 2. Se o aprendizado parecer muito lento, você pode experimentar com 4 mais tarde.

5.3.9 Painel DATASETS – conectando imagens alvo, controle e design

Para Treinamento LoRA Qwen-Edit-2509 você deve fornecer pelo menos um dataset alvo e um dataset de controle.

Dentro do Dataset 1:

Target Dataset – escolha seu dataset de saída / editado, ou seja, imagens que representam "após aplicar o comportamento LoRA".
Control Dataset 1 – escolha o dataset contendo suas imagens de entrada (as fotos originais que você quer editar). Cada arquivo deve corresponder a uma imagem alvo pelo nome (por exemplo, scene_001.png → scene_001.png).
Control Dataset 2 / 3 – estes são opcionais. Para o LoRA de camiseta, defina Control Dataset 2 para shirt_design para que o modelo veja o logo ou arte como um segundo fluxo de controle. Deixe slots de controle vazios a menos que você tenha condições extras como mapas de profundidade ou keypoints.
LoRA Weight – deixe em 1 a menos que você adicione mais datasets. Quando você adicionar mais datasets você pode rebalancear sua influência aqui.
Default Caption – se suas imagens já têm legendas .txt, você pode deixar vazio. Caso contrário digite algo como:
"[trigger] put this design on their shirt, full‑body street photo"

Lembre-se: [trigger] será substituído pela Trigger Word do painel JOB.
Caption Dropout Rate – 0.05 é um bom valor inicial quando você não está fazendo cache de text embeddings; aproximadamente um em cada vinte passos vai ignorar a legenda para que o modelo não sobreajuste à redação exata. Se você planeja ligar Cache Text Embeddings ON no painel TRAINING, defina Caption Dropout Rate = 0, porque dropout requer re-codificar legendas a cada passo e não funciona corretamente com embeddings em cache.
Settings → Cache Latents – ligue ON. O AI Toolkit codifica cada imagem alvo para VAE latents uma vez e os reutiliza, o que remove o pesado VAE da GPU após o caching e acelera significativamente o treinamento.
Settings → Is Regularization – deixe OFF para seu dataset principal. Se mais tarde você adicionar um segundo dataset puramente para imagens de regularização (por exemplo fotos genéricas de pessoas), você definiria Is Regularization desse segundo dataset para ON.
Flipping (Flip X / Flip Y) – para a maioria dos LoRAs de pessoas / produtos deixe ambos OFF, a menos que você tenha certeza de que espelhamentos são seguros para seu assunto (Flip X vai espelhar qualquer texto em camisetas).
Resolutions – habilite os buckets em que você quer que Qwen‑Image‑Edit treine, por exemplo 512, 768, e 1024. 768 é um sweet spot para muitos LoRAs Qwen; adicionar 512 e 1024 torna o treinamento robusto a pequenas mudanças de resolução.

Você pode adicionar datasets adicionais com Add Dataset (por exemplo, um dataset de regularização com LoRA Weight < 1), mas um único Dataset 1 com um alvo + um ou dois conjuntos de controle é suficiente para a maioria dos casos de uso de "colocar este design na camiseta deles".

5.3.10 Painel SAMPLE – previews de treinamento

O painel SAMPLE controla previews periódicos durante o treinamento. Estas amostras não afetam a perda de treinamento; são apenas para monitoramento.

Sample Every – defina para 250 para que você gere previews a cada 250 passos, o que se alinha bem com seu cronograma de checkpoints.
Width / Height – corresponda à sua resolução de treinamento principal, por exemplo 1024 × 1024 ou 768 × 1024 dependendo do seu dataset.
Seed – escolha uma seed estável como 42. Você pode habilitar Walk Seed se você quiser que cada batch de preview use seeds consecutivos e mostre mais variedade.
Sampler – escolha FlowMatch (ou o sampler Qwen padrão na sua build). Isto deve corresponder ao scheduler FlowMatch usado em TRAINING.
Guidance Scale – defina 4 para previews. Quando você fizer inferência mais tarde em ComfyUI ou outras UIs, você tipicamente vai experimentar entre 3–6.
Sample Steps – cerca de 25 passos é um bom compromisso qualidade-vs-velocidade para previews.
Advanced Sampling – você pode deixar Skip First Sample, Force First Sample, e Disable Sampling todos OFF. Ligue Disable Sampling ON apenas se você está depurando ou quer velocidade máxima sem nenhum preview.
Sample Prompts – adicione 4–8 prompts que representam casos de uso realistas para seu LoRA.

5.4 Passo 3 – Iniciar treinamento e monitorar

Após configurar o job, vá para a aba Training Queue, selecione seu job, e prepare-o para rodar.

Clique em Start / Play e principalmente observe duas coisas:

GPU VRAM / CPU RAM – especialmente em placas de baixa VRAM usando Layer Offloading, fique de olho no uso de RAM do sistema.
Imagens de amostra – o design deve permanecer na camiseta e seguir dobras e pose. Se começar a sangrar para toda a imagem ou as cores ficarem extremas, considere parar mais cedo ou reduzir o total de passos.

6. Configurações recomendadas para Treinamento LoRA Qwen-Edit-2509 por nível de VRAM

Se você só quer um padrão seguro para GPUs locais de 24GB e todas as execuções cloud H100/H200, use as configurações das seções 3–6: Low VRAM = ON, quantização Transformer/Text Encoder = float8, Batch Size = 1, LoRA Rank = 32, Resolutions = 512 / 768 / 1024, Differential Output Preservation = ON, Cache Text Embeddings = OFF.

Abaixo estão apenas as configurações que realmente mudam com o hardware. Qualquer coisa não mencionada aqui (Steps, Learning Rate, Optimizer, etc.) pode permanecer nas recomendações anteriores.

Nível 1 – VRAM baixa (~10–12GB local)

MODEL → Low VRAM: ligue ON. Isto habilita checkpointing extra e shuffling para que Qwen‑Image‑Edit‑2509 caiba em uma placa de 10–12GB.
MODEL → Layer Offloading: ligue ON se você ainda obtiver CUDA OOM. Espere alto uso de CPU RAM (≈60GB+) e passos mais lentos, mas GPU VRAM pode cair para cerca de 8–9GB.
QUANTIZATION → Transformer / Text Encoder: defina ambos para float8. Nesta arquitetura que usa adaptadores Qwen 3-bit ARA por baixo dos panos, float8 é o mínimo prático para qualidade estável.
TRAINING → Batch Size: trave em 1. Se você quer um batch efetivo maior, aumente Gradient Accumulation em vez de Batch Size.
DATASETS → Resolutions: habilite 512 e 768 como seus buckets principais. Você pode adicionar 1024 se aceitar execuções mais lentas e frágeis; trate 1024×1024 com dois fluxos de controle como o limite superior prático neste nível.
TRAINING → Text Encoder Optimizations / Regularization: se você não conseguir encaixar Differential Output Preservation mesmo com Low VRAM e Layer Offloading, desligue DOP e ligue Cache Text Embeddings para que legendas sejam codificadas uma vez e o text encoder seja liberado da VRAM. Você perde alguma preservação do modelo base mas ganha vários GB de margem.

Nível 2 – 24GB apertado (classe 3090 / 4090 / 5090)

O que você pode relaxar comparado ao Nível 1:

MODEL → Low VRAM: mantenha ON por segurança em 24GB; uma vez que você souber que sua resolução e configuração de controle cabe confortavelmente, você pode experimentar desligar.
MODEL → Layer Offloading: geralmente OFF. Só habilite se você ainda obtiver OOM na sua resolução escolhida e número de fluxos de controle.
QUANTIZATION → Transformer / Text Encoder: mantenha ambos em float8. Desabilitar quantização neste nível raramente ajuda e só queima VRAM que você poderia gastar em resolução ou tamanho de batch.
TRAINING → Batch Size: 1 ainda é o padrão. Batch Size 2 às vezes é possível a 768×768 com dois controles se Low VRAM está ON e quantização permanece ON.
DATASETS → Resolutions: habilite 512, 768, e 1024. Considere 768 seu bucket "sempre seguro" e 1024 o bucket high-end que pode precisar de Low VRAM e possivelmente offload parcial.
TRAINING → Text Encoder Optimizations / Regularization: você geralmente pode manter Differential Output Preservation ON e Cache Text Embeddings OFF, especialmente se você treina principalmente a 768×768. Se você absolutamente precisa de 1024×1024 em uma placa de 24GB e ainda obtém OOM após outros ajustes, a próxima alavanca é desligar DOP e ligar Cache Text Embeddings.

Nível 3 – 32GB+ confortável local e cloud H100/H200

Em placas locais de 32GB e GPUs cloud de 80–141GB (H100 / H200), você para de lutar contra VRAM e pode simplificar a configuração:

MODEL → Low VRAM: opcional. Você pode desligar em GPUs locais de 32GB+ e H100/H200 para passos ligeiramente mais rápidos e traces mais simples.
MODEL → Layer Offloading: mantenha OFF. Todos os componentes do Qwen‑Image‑Edit‑2509 podem permanecer residentes na GPU.
QUANTIZATION → Transformer / Text Encoder: deixe ambos em float8 por padrão. Em H100/H200 você pode experimentar desabilitar quantização do Text Encoder se quiser, mas não é necessário para boa qualidade e oferece pouco benefício comparado a usar essa VRAM para tamanho de batch ou resolução.
TRAINING → Batch Size: use 1–2 em GPUs locais de 32GB, e 2–4 em H100/H200 a 1024×1024 com dois fluxos de controle.
TARGET → LoRA Rank: 32 é um padrão confortável. Você pode tentar 48–64 em H100/H200 para comportamentos muito complexos (por exemplo, LoRAs de edição multi-efeito) se você observar overfitting.
DATASETS → Resolutions: treine principalmente a 768 e 1024. Você geralmente pode eliminar 512 a menos que você se preocupe especificamente com comportamento de baixa resolução.
TRAINING → Text Encoder Optimizations / Regularization: execute com Differential Output Preservation ON e Cache Text Embeddings OFF por padrão. VRAM é suficiente para manter o text encoder residente, e você obtém a separação mais limpa entre comportamento "com gatilho" e "sem gatilho".

7. Problemas comuns no Treinamento LoRA Qwen-Edit-2509 e como resolvê-los

7.1 Datasets mal pareados (ordem errada / pessoas não correspondentes)

Sintoma: Designs aparecem, mas no lugar errado, na pessoa errada, ou distorcidos.

Verifique se datasets alvo e de controle estão alinhados: shirt_target/img_0001.jpg deve estar pareado com shirt_control/img_0001.jpg, e shirt_design/img_0001.png, e assim por diante. Se você misturar imagens manualmente, mantenha os nomes de arquivo pareados para que a ordem alfabética ainda se alinhe.

7.2 VRAM OOM mesmo com quantização

Se você treina com uma resolução alvo pequena (por exemplo 512×512) mas seus datasets de controle ainda usam 1024×1024 como seu bucket mais alto e Match Target Res está desligado, cada fluxo de controle será codificado a 1024×1024 enquanto o alvo é apenas 512×512. Com dois ou três desses fluxos de controle, o tamanho total de latent se torna muito maior do que esperado e você pode facilmente obter CUDA OOM mesmo com quantização habilitada.

Para corrigir isto:

Ligue Match Target Res ON no painel MODEL para que todas as imagens de controle sejam automaticamente redimensionadas para o mesmo bucket de resolução do alvo, ou
Mantenha Match Target Res OFF mas diminua o bucket de resolução mais alto para seus datasets de controle para corresponder ao alvo (elimine 1024 e fique com 512/768).

Em H100/H200 na nuvem você pode manter buckets de 1024×1024 para ambos alvo e controles e depender menos desses truques, mas a regra mais segura é: evite misturar alvos pequenos com controles muito grandes quando Match Target Res está desabilitado.

7.3 Treinamento nunca converge / parece aleatório

Verifique o seguinte:

No painel TRAINING o noise scheduler e configurações de timestep ainda correspondem a FlowMatch. No YAML exportado você deve ver noise_scheduler: "flowmatch", e no painel SAMPLE o sampler também deve estar definido para FlowMatch; se o sampler usa um scheduler diferente, previews podem parecer ruído puro mesmo se o LoRA está treinando corretamente.
O Learning Rate não é muito alto. 0.0001 é um padrão seguro para Treinamento LoRA Qwen-Edit-2509; se previews continuam oscilando ou parecem muito instáveis após algumas centenas de passos, diminua para 0.00005 e retome do último checkpoint bom.

7.4 LoRA sobreajusta (design sangra por toda parte)

Possíveis correções:

Reduza o total de Steps (por exemplo, de 5000 para 3000).
Considere um LoRA Rank ligeiramente mais baixo (16 em vez de 32).
Diversifique o dataset com pessoas, poses e iluminações diferentes.
Certifique-se de que Differential Output Preservation está habilitado e, se necessário, aumente o DOP Loss Multiplier um pouco para que o comportamento base seja preservado mais fortemente.

7.5 Inferno de ambiente

Problemas locais típicos incluem incompatibilidade de versão CUDA, build PyTorch errado, ou drivers não correspondendo à sua GPU / OS. No Cloud AI Toolkit no RunComfy estes problemas desaparecem: AI Toolkit e dependências são pré-instalados e você começa diretamente da UI com configurações e datasets.

Se você se encontra gastando mais tempo consertando CUDA do que treinando, esse é geralmente o ponto onde é mais fácil mover este job específico para a nuvem.

8. Usando seu LoRA Qwen Edit 2509 após o treinamento

Uma vez que o treinamento está completo, você pode usar seu LoRA Qwen Edit 2509 de duas maneiras simples:

Model playground – abra o Qwen‑Image‑Edit‑2509 LoRA playground e cole a URL do seu LoRA treinado para ver rapidamente como ele se comporta no modelo base.
Workflows ComfyUI – inicie uma instância ComfyUI e construa seu próprio workflow ou carregue um como Qwen Edit 2509 MultipleAngles, troque seu LoRA no nó carregador de LoRA, e ajuste o peso do LoRA e outras configurações para controle mais detalhado.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample