Guia de Treinamento LoRA Qwen-Image-Edit-2511 com Ostris AI Toolkit

Qwen‑Image‑Edit‑2511 (frequentemente abreviado como Qwen 2511) é o checkpoint "consistência primeiro" da Qwen para edição de imagens: foi projetado para reduzir o drift de imagem, preservar a identidade em edições criativas, e permanecer estruturalmente fiel quando você edita apenas parte de uma imagem. Também vem com capacidades LoRA integradas nos pesos base, saída mais forte de design industrial/produto e raciocínio geométrico aprimorado, tudo isso o torna especialmente interessante para LoRAs de edição práticos e repetíveis.

Este guia mostra como realizar o Treinamento LoRA Qwen Image Edit 2511 usando o Ostris AI Toolkit.

Este artigo faz parte da série de treinamento LoRA do AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA do AI Toolkit antes de mergulhar neste guia.

Índice

1. Qwen 2511 vs 2509: o que é diferente
2. O modelo mental central: o que um Edit LoRA realmente aprende
3. Onde treinar: AI Toolkit local vs RunComfy Cloud AI Toolkit
4. Planejamento de hardware e VRAM para Treinamento LoRA Qwen-Edit-2511
5. Design de dataset que realmente funciona para modelos Qwen Edit
6. Passo a passo: Treinar LoRA Qwen Edit 2511 no AI Toolkit
7. O switch específico do 2511: zero_cond_t
8. Falhas de treinamento comuns e soluções
9. Usando seu LoRA treinado (Playground + ComfyUI)

1. Qwen 2511 vs 2509: o que é diferente

Qwen 2511 não é um checkpoint para "fazer imagens bonitas" — é um editor de imagens que segue instruções. Se você vem do Tutorial LoRA Qwen Edit 2509, pense no 2511 como a iteração "consistência primeiro": é ajustado para reduzir drift, preservar identidade/estrutura, e manter as edições localizadas no que você pediu (especialmente para trabalho de design de produto/industrial e posicionamento sensível à geometria).

Três diferenças em relação ao Qwen 2509 são diretamente relevantes para o Treinamento LoRA Qwen Image Edit 2511:

Primeiro: maior resistência ao drift e retenção de identidade. Comparado ao Qwen 2509, o Qwen 2511 tende a manter as partes "inalteradas" mais estáveis, o que permite ao seu LoRA aprender uma regra de edição mais limpa em vez de incorporar acidentalmente o efeito em rostos, fundos ou composição.

Segundo: o condicionamento multi-imagem continua sendo o núcleo, mas o sinal de controle precisa ser limpo. Como o Qwen 2509, o Qwen 2511 funciona melhor quando você fornece 1-3 imagens de referência mais uma instrução. A diferença prática é que o 2511 recompensa fluxos de controle bem alinhados; se o pareamento estiver errado ou os controles forem fracos, você verá mais sobre-edição e drift.

Terceiro: mais amigabilidade LoRA incorporada (e maior necessidade de especificidade). O Qwen 2511 vem com uma capacidade LoRA integrada mais forte nos pesos base. Isso é ótimo para LoRAs de edição práticos e repetíveis, mas também significa que seu Treinamento LoRA Qwen-Edit-2511 deve ser feito com um mapeamento claro e estreito para que não se torne um vago "filtro de tudo".

2. O modelo mental central: o que um Edit LoRA realmente aprende

Para o Qwen 2511, seu LoRA está aprendendo uma regra de transformação:

"Dada(s) esta(s) imagem(ns) de referência e esta instrução, produza o resultado editado enquanto preserva as partes que devem permanecer consistentes."

É por isso que datasets de edição devem incluir todos os três componentes:

Imagem(ns) de controle/referência: o que deve ser preservado (identidade, geometria, iluminação, fundo — o que sua tarefa exigir)
Instrução (caption/prompt): o que deve mudar, declarado explicitamente
Imagem alvo: o resultado "depois" que demonstra a mudança

Se você fornecer apenas imagens "depois", o modelo não tem sinal estável para o que manter, então ele aprenderá um atalho ruidoso: pode incorporar mudanças na identidade, fundo ou composição. Isso parece "o LoRA é forte", mas na verdade é drift descontrolado.

A maneira mais simples de julgar se seu dataset é "correto para edição" é esta: se você remover a instrução, um humano ainda poderia inferir o que mudou comparando controle(s) com alvo? Se sim, você tem um sinal de edição aprendível. Se não (ou se a mudança for ambígua), seu LoRA será frágil.

3. Onde treinar: AI Toolkit local vs RunComfy Cloud AI Toolkit

AI Toolkit local é melhor se você já tem uma GPU NVIDIA compatível, está confortável gerenciando versões CUDA/PyTorch, e quer controle máximo sobre arquivos e iteração. (Instale o AI Toolkit do repo GitHub do Ostris: ostris/ai-toolkit.) Para o Treinamento LoRA Qwen Image Edit 2511, o treinamento local pode ser totalmente viável — mas o modelo é pesado, e o condicionamento multi-imagem pode fazer a VRAM subir rapidamente, então você frequentemente dependerá de quantização, modos low-VRAM, ou buckets de resolução menores.

RunComfy Cloud AI Toolkit é o caminho "pular configuração" e frequentemente a escolha prática especificamente para Treinamento LoRA Qwen Image Edit 2511. Você executa a mesma UI do AI Toolkit no navegador, mas com GPUs grandes disponíveis (e menos surpresas de ambiente). Também é conveniente para equipes: datasets, configurações e checkpoints permanecem em um workspace persistente, então você pode iterar como um workflow de produto em vez de um experimento local único.

👉 Abra aqui: Cloud AI Toolkit no RunComfy

4. Planejamento de hardware e VRAM para Treinamento LoRA Qwen-Edit-2511

Qwen 2511 tem um backbone grande e foi projetado para rodar em 1024×1024 por padrão para melhores resultados. Além disso, cada fluxo adicional de imagem de controle aumenta o uso de memória, porque o modelo precisa processar mais informações de condicionamento.

Na prática, você verá três tiers viáveis para Treinamento LoRA Qwen Image Edit 2511:

Tier A: 24-32GB VRAM (esforço alto, mas possível).

Espere estratégias agressivas: modos low-VRAM, gradient checkpointing, buckets menores (frequentemente 768 como ponto de partida), e quantização (idealmente com opção Accuracy Recovery Adapter se seu build a fornecer). Mantenha batch size em 1 e escale com gradient accumulation.

Tier B: 40-48GB VRAM (confortável).

Você frequentemente pode treinar em 1024 com um ou dois fluxos de controle, com quantização moderada ou mesmo principalmente bf16 dependendo de suas configurações exatas. Este tier é onde o treinamento LoRA Qwen Edit se torna "repetível" em vez de "delicado".

Tier C: 80GB+ VRAM (rápido, baixa fricção).

Você pode manter mais componentes em bf16, executar datasets multi-controle confortavelmente, amostrar mais frequentemente, e iterar rapidamente — esta é a configuração que você obtém com RunComfy Cloud AI Toolkit em GPUs grandes.

A ideia chave: resolução e número de fluxos de controle são suas maiores alavancas de VRAM. Se você estiver travado, mude esses antes de começar a ajustar aleatoriamente o learning rate.

5. Design de dataset que realmente funciona para modelos Qwen Edit

5.1 Estrutura de pastas que combina com o trainer Qwen Edit do AI Toolkit

Uma estrutura prática que previne 90% dos bugs:

targets/ → as imagens editadas "depois"
control_1/ → primeiro fluxo de imagem de referência (frequentemente a imagem "antes")
control_2/ → segundo fluxo de referência (opcional; segunda pessoa/produto/fundo/design)
control_3/ → terceiro fluxo (raro; apenas se seu workflow realmente precisar)
captions/ → captions .txt opcionais alinhados por nome de arquivo (ou captions armazenados ao lado dos targets dependendo do seu workflow)

A parte importante é o pareamento. O AI Toolkit só pode treinar corretamente se conseguir combinar targets/0001.png com control_1/0001.png (e control_2/0001.png, etc.). Se a ordem dos arquivos diferir, seu LoRA aprende o mapeamento errado e você terá "treina mas parece aleatório."

5.2 Três padrões de dataset que cobrem a maioria dos LoRAs reais

Padrão A: Edição de referência única (1 imagem de controle).

Use para: mudanças de cor, trocas locais de objetos, relighting, substituição de fundo, "transforme isso em aquarela," etc. Seu control_1 é a imagem original, seu alvo é o resultado editado, e o caption é uma instrução direta ("faça o chapéu vermelho"). Este padrão é o mais fácil de treinar e debugar.

Padrão B: Fusão multi-referência (2-3 imagens de controle).

Use para: pessoa + pessoa, pessoa + cena, produto + fundo, "mescle essas duas identidades," ou qualquer situação onde você quer que o modelo preserve múltiplas fontes. Seus captions devem esclarecer o papel de cada referência ("use pessoa de ref1, fundo de ref2").

Padrão C: Triplets de inserção de design (em branco + design → aplicado).

Este é o padrão de dataset com maior ROI para trabalho comercial: logos em camisetas, adesivos em produtos, padrões em tecido, rótulos em embalagens. control_1 é o produto/pessoa sem o design, control_2 é a imagem do design, e o alvo é a imagem final "design aplicado". Esta separação ensina ao LoRA exatamente o que preservar (geometria/iluminação/material) versus o que mudar (a região do design).

5.3 Captions que ajudam (em vez de prejudicar)

Para Edit LoRAs, seus captions devem se comportar como instruções, não descrições. "Um homem vestindo uma camiseta, ao ar livre" não é útil; "Coloque o logo fornecido centralizado no peito, preserve dobras do tecido e iluminação" é útil.

Um bom caption de instrução geralmente inclui:

a mudança pretendida
o que deve ser preservado
quaisquer restrições de posicionamento ou geometria (especialmente para inserção de design)

Mantenha captions consistentes através do dataset. Consistência torna o mapeamento mais fácil de aprender e torna seu LoRA mais controlável na inferência.

5.4 Quantos samples você precisa?

Para edições estreitas e repetíveis (inserção de logo, uma regra específica de relighting, uma transformação de material consistente), você frequentemente pode começar com 20-60 triplets bem construídos. Para estilização mais ampla ou fusão multi-sujeito, planeje 60-200+ exemplos, porque o espaço do "que deve permanecer consistente" é maior.

Se você não tem certeza, comece pequeno com um set "smoke test" de 8-12 samples. O objetivo do smoke test não é qualidade — é confirmar que seu pareamento e fiação de controles funciona antes de investir em uma execução longa.

6. Passo a passo: Treinar LoRA Qwen Edit 2511 no AI Toolkit

6.1 Crie seus datasets no AI Toolkit (Targets + Control Streams)

Em DATASETS (veja Seção 5 para a lógica da estrutura de pastas):

Crie um dataset para targets/, depois adicione control_1 / control_2 / control_3 se você os usa.
Verifique se as contagens e o pareamento de nomes de arquivo correspondem entre targets e controls (verifique ~10 samples aleatoriamente).
Se você usa captions, defina a extensão de caption (geralmente .txt) e mantenha os nomes de arquivo de captions alinhados com targets.

6.2 Crie um novo job

Em JOB:

Escolha um nome de treinamento que você reconhecerá depois.
Defina um trigger word apenas se você quer que o LoRA seja "invocável" com uma única palavra-chave. Para muitos Edit LoRAs, a instrução em si é suficiente, e um trigger é opcional.
Defina Steps para algo conservador para a primeira execução (você está validando o setup, não buscando o modelo final perfeito).

Em MODEL:

Selecione a arquitetura Qwen Image Edit "Plus" (a variante de edição multi-imagem).
Name or Path – o Hugging Face model id (repo id) para o checkpoint base, ex.: Qwen/Qwen-Image-Edit-2511.
Na maioria dos builds do AI Toolkit, selecionar a arquitetura do modelo irá auto-preencher este valor; deixe-o assim a menos que você tenha razão para mudar.
Use bf16 se sua GPU suporta; caso contrário FP16 pode funcionar, mas bf16 é geralmente mais estável quando disponível.
Habilite opções "Low VRAM" ou offloading apenas se necessário; comece simples quando puder.

Em QUANTIZATION (apenas se necessário):

Se você está em 24-32GB, quantize o transformer/backbone primeiro. Se seu build oferece uma opção "with ARA" para Qwen 2511, prefira-a sobre quantização plain low-bit porque ela tende a reter mais qualidade.
Quantize o text encoder/lado de conditioning apenas se a VRAM ainda estiver apertada após a quantização do transformer.

Em TARGET / NETWORK (configurações de LoRA):

Comece com rank moderado. Para edições "tipo regra" (inserção de logo, relighting), você frequentemente não precisa de rank extremo.
Se seu build expõe ranks linear/conv separados, mantenha conv conservador a menos que você tenha evidência de que ajuda sua tarefa específica. Sobre-parametrizar é um caminho rápido para overfitting e drift.

Em TRAINING:

Mantenha Batch Size = 1 e use Gradient Accumulation para aumentar o batch efetivo se necessário.
Comece com AdamW 8-bit se você está limitado em VRAM.
Use as configurações de scheduler recomendadas/padrão do Qwen que seu build fornece (para jobs Qwen Edit isso é comumente um scheduler flow-matching).
Mantenha "train text encoder" desligado para sua primeira execução bem-sucedida a menos que você tenha uma razão específica para adaptar comportamento de linguagem. A maioria dos Edit LoRAs práticos precisa apenas de adaptação de backbone/transformer.
Ligue Gradient Checkpointing se a VRAM está apertada.

Em DATASETS / RESOLUTIONS (Buckets):

Se você pode pagar, 1024 é um padrão forte para qualidade Qwen Edit.
Se você está limitado em VRAM, use 768 para a primeira execução, depois escale uma vez que você confirme que o pipeline está fiado corretamente.
Prefira um pequeno conjunto de buckets (ex., 768 e 1024) em vez de uma distribuição caótica que torna o mapeamento inconsistente.

Em SAMPLE / PREVIEWS:

Sampling é seu sistema de alerta antecipado. Configure 1-3 prompts de preview que representam seu caso de uso real, e sempre use as mesmas imagens de controle fixas e seed para que você possa comparar checkpoints visualmente.

Uma boa cadência de sampling para execuções iniciais:

amostra a cada 100-250 steps cedo
salve checkpoints a cada 250-500 steps
mantenha apenas um punhado de checkpoints recentes para evitar inchaço de disco

6.3 Como saber se o treinamento está funcionando

Por ~200-500 steps, você deve ver pelo menos um destes:

a edição começa a acontecer consistentemente
as partes preservadas (identidade/fundo/geometria) permanecem mais estáveis que "geração aleatória"
a mudança corresponde direcionalmente à instrução do caption

Se você só vê ruído, ou o modelo ignora controles, não "conserte" primeiro com learning rate. Conserte pareamento, fiação de controles, e zero_cond_t primeiro.

7. O switch específico do 2511: `zero_cond_t`

Este é um detalhe importante específico do 2511. zero_cond_t muda como timesteps são aplicados através de streams quando o modelo tem um stream de-noised (a imagem sendo gerada) e streams de conditioning (suas imagens de referência/controle). Com zero_cond_t habilitado, as imagens de conditioning são tratadas como referências limpas (efetivamente timestep 0) enquanto a imagem principal segue o schedule normal de timestep de difusão.

Se suas imagens de conditioning são "ruidosas" junto com o stream principal, o modelo tem uma referência mais fraca e desfocada para identidade/estrutura. Isso aumenta diretamente o drift e diminui a fidelidade de edição. Manter controles em timestep 0 é uma escolha de engenharia limpa que se alinha com o objetivo de "preservar a referência".

Para o Qwen 2511, trate zero_cond_t como um requisito de compatibilidade, não como um hiperparâmetro:

Habilite para treinamento.
Mantenha habilitado para inferência.
Se seus resultados parecem inesperadamente mais driftados do que o 2511 é conhecido, esta é a primeira coisa a verificar.

8. Falhas de treinamento comuns e soluções

8.1 "Missing control images for QwenImageEditPlusModel"

Se você vê isso, o AI Toolkit está dizendo que não recebeu imagens de controle no tempo de treinamento. As causas mais comuns são:

você anexou o dataset de targets mas não atribuiu control_1 / control_2 na fiação de dataset/job
o caminho da pasta de controle está errado ou vazio
as contagens de target/control não correspondem, então os controles falham em carregar para alguns samples

Conserte tornando os controles explícitos: re-verifique as atribuições de dataset, confirme os caminhos das pastas, e garanta que nomes de arquivo/contagens correspondam através dos streams.

8.2 "tuple index out of range" / erros de shape de tensor cedo no treinamento

Isso quase sempre significa que o loader esperava um tensor de imagem mas obteve None ou uma shape inesperada. As razões subjacentes são geralmente chatas mas consertáveis:

um arquivo de imagem corrompido
modo de imagem não suportado (CMYK, escala de cinza)
uma imagem de controle faltando para um índice específico (desalinhamento de pareamento)

Seu loop de conserto deve ser: validar integridade de dados → validar pareamento → executar um pequeno smoke test (3-5 samples) antes de reiniciar um job grande.

8.3 `KeyError: 'pixel_values'` (frequentemente causado por imagens em escala de cinza)

Pipelines Qwen Edit tipicamente esperam imagens RGB. Imagens em escala de cinza (canal único) podem quebrar a extração de features e resultar em erros de pixel_values. Converta suas imagens do dataset para PNG/JPG RGB padrão de 3 canais e tente novamente.

8.4 Out of memory (OOM), especialmente durante sampling

Treinamento de edição multi-imagem pode fazer a VRAM disparar durante o sampling de preview porque executa forward passes adicionais e pode usar buffers intermediários maiores.

Conserte OOM nesta ordem:

reduza a frequência de preview ou resolução de preview
mantenha batch size em 1, aumente gradient accumulation
reduza buckets (ou desça para 768)
habilite quantização/offloading
temporariamente treine com menos streams de controle enquanto debuga
se você ainda tem OOM localmente, execute o mesmo job no RunComfy Cloud AI Toolkit em uma GPU maior

8.5 LoRA carrega mas "não faz nada" (ou carrega com keys faltando) no ComfyUI

Quando um LoRA não faz nada, geralmente é um de:

você está carregando em uma arquitetura diferente daquela para qual foi treinado
a escala do LoRA está muito baixa para notar
há um desalinhamento de prefixo de key entre o que a pilha de inferência espera e o que o trainer salvou

Se você vê avisos de keys faltando especificamente para Qwen LoRAs, um workaround conhecido é reescrever o prefixo de key do state dict do LoRA (ex., mapeando keys diffusion_model. para keys transformer.). Se seu build do AI Toolkit e seus nodes ComfyUI estão ambos atualizados, isso pode já estar consertado — mas é a primeira coisa a tentar quando você vê problemas sistemáticos de "keys not loaded".

9. Usando seu LoRA treinado (Playground + ComfyUI)

Uma vez que o treinamento está completo, a maneira mais rápida de verificar seu Qwen 2511 LoRA é carregá-lo no Qwen‑Image‑Edit‑2511 LoRA Playground; quando você quiser um graph de nodes repetível para trabalho real, comece do workflow ComfyUI Qwen‑Image‑Edit‑2511 e substitua seu LoRA.

Treinamento LoRA Qwen 2511 (Qwen-Image-Edit-2511) com Ostris AI Toolkit (Guia atualizado)

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Índice

1. Qwen 2511 vs 2509: o que é diferente

2. O modelo mental central: o que um Edit LoRA realmente aprende

3. Onde treinar: AI Toolkit local vs RunComfy Cloud AI Toolkit

4. Planejamento de hardware e VRAM para Treinamento LoRA Qwen-Edit-2511

5. Design de dataset que realmente funciona para modelos Qwen Edit

5.1 Estrutura de pastas que combina com o trainer Qwen Edit do AI Toolkit

5.2 Três padrões de dataset que cobrem a maioria dos LoRAs reais

5.3 Captions que ajudam (em vez de prejudicar)

5.4 Quantos samples você precisa?

6. Passo a passo: Treinar LoRA Qwen Edit 2511 no AI Toolkit

6.1 Crie seus datasets no AI Toolkit (Targets + Control Streams)

6.2 Crie um novo job

6.3 Como saber se o treinamento está funcionando

7. O switch específico do 2511: `zero_cond_t`

8. Falhas de treinamento comuns e soluções

8.1 "Missing control images for QwenImageEditPlusModel"

8.2 "tuple index out of range" / erros de shape de tensor cedo no treinamento

8.3 `KeyError: 'pixel_values'` (frequentemente causado por imagens em escala de cinza)

8.4 Out of memory (OOM), especialmente durante sampling

8.5 LoRA carrega mas "não faz nada" (ou carrega com keys faltando) no ComfyUI

9. Usando seu LoRA treinado (Playground + ComfyUI)

Mais guias de treinamento LoRA do AI Toolkit

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Índice

1. Qwen 2511 vs 2509: o que é diferente

2. O modelo mental central: o que um Edit LoRA realmente aprende

3. Onde treinar: AI Toolkit local vs RunComfy Cloud AI Toolkit

4. Planejamento de hardware e VRAM para Treinamento LoRA Qwen-Edit-2511

5. Design de dataset que realmente funciona para modelos Qwen Edit

5.1 Estrutura de pastas que combina com o trainer Qwen Edit do AI Toolkit

5.2 Três padrões de dataset que cobrem a maioria dos LoRAs reais

5.3 Captions que ajudam (em vez de prejudicar)

5.4 Quantos samples você precisa?

6. Passo a passo: Treinar LoRA Qwen Edit 2511 no AI Toolkit

6.1 Crie seus datasets no AI Toolkit (Targets + Control Streams)

6.2 Crie um novo job

6.3 Como saber se o treinamento está funcionando

7. O switch específico do 2511: zero_cond_t

8. Falhas de treinamento comuns e soluções

8.1 "Missing control images for QwenImageEditPlusModel"

8.2 "tuple index out of range" / erros de shape de tensor cedo no treinamento

8.3 KeyError: 'pixel_values' (frequentemente causado por imagens em escala de cinza)

8.4 Out of memory (OOM), especialmente durante sampling

8.5 LoRA carrega mas "não faz nada" (ou carrega com keys faltando) no ComfyUI

9. Usando seu LoRA treinado (Playground + ComfyUI)

Mais guias de treinamento LoRA do AI Toolkit

7. O switch específico do 2511: `zero_cond_t`

8.3 `KeyError: 'pixel_values'` (frequentemente causado por imagens em escala de cinza)