AI Toolkit LoRA Training Guides

Entrenamiento LoRA Qwen 2511 (Qwen-Image-Edit-2511) con Ostris AI Toolkit (Guía actualizada)

Este tutorial explica cómo entrenar LoRAs de Qwen 2511 (Qwen-Image-Edit-2511) con Ostris AI Toolkit para edición multi-imagen y geometry-aware. Aprenderás a construir datasets de edición (controles + instrucción → objetivo), planificar VRAM para 1–3 streams de control, ajustar parámetros clave y corregir errores comunes de entrenamiento.

Train Diffusion Models with Ostris AI Toolkit

Desplázate horizontalmente para ver el formulario completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2511 (a menudo abreviado como Qwen 2511) es el checkpoint "consistencia primero" de Qwen para edición de imágenes: está diseñado para reducir la deriva de imagen, preservar la identidad bajo ediciones imaginativas, y mantenerse estructuralmente fiel cuando editas solo parte de una imagen. También incluye capacidades LoRA integradas en los pesos base, mejor salida de diseño industrial/producto y razonamiento geométrico mejorado, todo lo cual lo hace especialmente interesante para LoRAs de edición prácticos y repetibles.

Esta guía muestra cómo realizar el Entrenamiento LoRA Qwen Image Edit 2511 usando Ostris AI Toolkit.

Este artículo es parte de la serie de entrenamiento LoRA de AI Toolkit. Si eres nuevo en Ostris AI Toolkit, comienza con la descripción general del entrenamiento LoRA de AI Toolkit antes de sumergirte en esta guía.

Tabla de contenidos


1. Qwen 2511 vs 2509: qué es diferente

Qwen 2511 no es un checkpoint para "hacer imágenes bonitas" — es un editor de imágenes que sigue instrucciones. Si vienes del Tutorial LoRA Qwen Edit 2509, piensa en 2511 como la iteración "consistencia primero": está ajustado para reducir la deriva, preservar identidad/estructura, y mantener las ediciones localizadas en lo que pediste (especialmente para trabajo de diseño de producto/industrial y colocación sensible a la geometría).

Tres diferencias respecto a Qwen 2509 importan directamente para Entrenamiento LoRA Qwen Image Edit 2511:

Primero: mayor resistencia a la deriva y retención de identidad. Comparado con Qwen 2509, Qwen 2511 tiende a mantener las partes "sin cambios" más estables, lo que permite a tu LoRA aprender una regla de edición más limpia en lugar de hornear accidentalmente el efecto en caras, fondos o composición.

Segundo: el condicionamiento multi-imagen sigue siendo el núcleo, pero la señal de control debe ser limpia. Como Qwen 2509, Qwen 2511 funciona mejor cuando proporcionas 1-3 imágenes de referencia más una instrucción. La diferencia práctica es que 2511 recompensa flujos de control bien alineados; si el emparejamiento está mal o los controles son débiles, verás más sobre-edición y deriva.

Tercero: más amigabilidad LoRA incorporada (y mayor necesidad de ser específico). Qwen 2511 viene con una capacidad estilo LoRA integrada más fuerte en los pesos base. Eso es genial para LoRAs de edición prácticos y repetibles, pero también significa que tu Entrenamiento LoRA Qwen-Edit-2511 debe realizarse con un mapeo claro y estrecho para que no se convierta en un vago "filtro de todo".


2. El modelo mental central: qué aprende realmente un Edit LoRA

Para Qwen 2511, tu LoRA está aprendiendo una regla de transformación:

"Dada(s) esta(s) imagen(es) de referencia y esta instrucción, produce el resultado editado mientras preservas las partes que deben permanecer consistentes."

Por eso los datasets de edición deben incluir los tres componentes:

  • Imagen(es) de control/referencia: qué debe preservarse (identidad, geometría, iluminación, fondo — lo que requiera tu tarea)
  • Instrucción (caption/prompt): qué debe cambiar, declarado explícitamente
  • Imagen objetivo: el resultado "después" que demuestra el cambio

Si solo proporcionas imágenes "después", el modelo no tiene señal estable para qué mantener, así que aprenderá un atajo ruidoso: puede hornear cambios en identidad, fondo o composición. Eso parece "el LoRA es fuerte", pero en realidad es deriva descontrolada.

La forma más simple de juzgar si tu dataset es "edit-correcto" es esta: si eliminas la instrucción, ¿podría un humano todavía inferir qué cambió comparando control(es) con objetivo? Si sí, tienes una señal de edición aprendible. Si no (o si el cambio es ambiguo), tu LoRA será frágil.


3. Dónde entrenar: AI Toolkit local vs RunComfy Cloud AI Toolkit

AI Toolkit local es mejor cuando ya tienes una GPU NVIDIA compatible, estás cómodo gestionando versiones CUDA/PyTorch, y quieres máximo control sobre archivos e iteración. (Instala AI Toolkit del repo GitHub de Ostris: ostris/ai-toolkit.) Para Entrenamiento LoRA Qwen Image Edit 2511, el entrenamiento local puede ser totalmente viable — pero el modelo es pesado, y el condicionamiento multi-imagen puede disparar el VRAM rápidamente, así que a menudo dependerás de cuantización, modos low-VRAM, o buckets de resolución más pequeños.

RunComfy Cloud AI Toolkit es el camino "omitir la configuración" y a menudo la elección práctica específicamente para Entrenamiento LoRA Qwen Image Edit 2511. Ejecutas la misma UI de AI Toolkit en el navegador, pero con GPUs grandes disponibles (y menos sorpresas de entorno). También es conveniente para equipos: datasets, configuraciones y checkpoints permanecen en un workspace persistente, para que puedas iterar como un flujo de trabajo de producto en lugar de un experimento local único.

👉 Ábrelo aquí: Cloud AI Toolkit en RunComfy


4. Planificación de hardware y VRAM para Entrenamiento LoRA Qwen-Edit-2511

Qwen 2511 tiene un backbone grande y está diseñado para ejecutarse a 1024×1024 por defecto para mejores resultados. Además, cada flujo de imagen de control adicional aumenta el uso de memoria, porque el modelo necesita procesar más información de condicionamiento.

En la práctica, verás tres niveles viables para Entrenamiento LoRA Qwen Image Edit 2511:

Nivel A: 24-32GB VRAM (esfuerzo alto, pero posible).

Espera usar estrategias agresivas: modos low-VRAM, gradient checkpointing, buckets más pequeños (a menudo 768 como punto de partida), y cuantización (idealmente con opción Accuracy Recovery Adapter si tu build la proporciona). Mantén batch size en 1 y escala con gradient accumulation.

Nivel B: 40-48GB VRAM (cómodo).

A menudo puedes entrenar a 1024 con uno o dos flujos de control, con cuantización moderada o incluso mayormente bf16 dependiendo de tus configuraciones exactas. Este nivel es donde el entrenamiento LoRA de Qwen Edit se vuelve "repetible" en lugar de "delicado".

Nivel C: 80GB+ VRAM (rápido, baja fricción).

Puedes mantener más componentes en bf16, ejecutar datasets multi-control cómodamente, samplear más a menudo, e iterar rápidamente — esta es la configuración que obtienes con RunComfy Cloud AI Toolkit en GPUs grandes.

La idea clave: resolución y número de flujos de control son tus mayores palancas de VRAM. Si estás atascado, cambia esos antes de empezar a ajustar aleatoriamente la learning rate.


5. Diseño de dataset que realmente funciona para modelos Qwen Edit

5.1 Estructura de carpetas que coincide con el trainer Qwen Edit de AI Toolkit

Una estructura práctica que previene el 90% de los bugs:

  • targets/ → las imágenes editadas "después"
  • control_1/ → primer flujo de imagen de referencia (a menudo la imagen "antes")
  • control_2/ → segundo flujo de referencia (opcional; segunda persona/producto/fondo/diseño)
  • control_3/ → tercer flujo (raro; solo si tu flujo de trabajo realmente lo necesita)
  • captions/ → captions .txt opcionales alineados por nombre de archivo (o captions almacenados junto a targets dependiendo de tu flujo de trabajo)

La parte importante es el emparejamiento. AI Toolkit solo puede entrenar correctamente si puede hacer coincidir targets/0001.png con control_1/0001.png (y control_2/0001.png, etc.). Si el orden de archivos difiere, tu LoRA aprende el mapeo incorrecto y obtendrás "entrena pero se ve aleatorio."


5.2 Tres patrones de dataset que cubren la mayoría de LoRAs reales

Patrón A: Edición de referencia única (1 imagen de control).

Usa esto para: cambios de color, intercambios locales de objetos, relighting, reemplazo de fondo, "convertir esto en acuarela," etc. Tu control_1 es la imagen original, tu objetivo es el resultado editado, y el caption es una instrucción directa ("haz el sombrero rojo"). Este patrón es el más fácil de entrenar y depurar.

Patrón B: Fusión multi-referencia (2-3 imágenes de control).

Usa esto para: persona + persona, persona + escena, producto + fondo, "fusionar estas dos identidades," o cualquier situación donde quieras que el modelo preserve múltiples fuentes. Tus captions deben aclarar el rol de cada referencia ("usar persona de ref1, fondo de ref2").

Patrón C: Tripletes de inserción de diseño (en blanco + diseño → aplicado).

Este es el patrón de dataset con mayor ROI para trabajo comercial: logos en camisetas, calcomanías en productos, patrones en tela, etiquetas en empaques. control_1 es el producto/persona sin el diseño, control_2 es la imagen del diseño, y el objetivo es la imagen final "diseño aplicado". Esta separación enseña al LoRA exactamente qué preservar (geometría/iluminación/material) versus qué cambiar (la región del diseño).


5.3 Captions que ayudan (en lugar de perjudicar)

Para Edit LoRAs, tus captions deben comportarse como instrucciones, no descripciones. "Un hombre usando una camiseta, al aire libre" no es útil; "Coloca el logo proporcionado centrado en el pecho, preserva arrugas de la tela e iluminación" es útil.

Un buen caption de instrucción usualmente incluye:

  • el cambio previsto
  • qué debe preservarse
  • cualquier restricción de colocación o geometría (especialmente para inserción de diseño)

Mantén los captions consistentes a través del dataset. La consistencia hace el mapeo más fácil de aprender y hace tu LoRA más controlable en inferencia.


5.4 ¿Cuántos samples necesitas?

Para ediciones estrechas y repetibles (inserción de logo, una regla específica de relighting, una transformación de material consistente), a menudo puedes empezar con 20-60 tripletes bien construidos. Para estilización más amplia o fusión multi-sujeto, planea con 60-200+ ejemplos, porque el espacio de "qué debe permanecer consistente" es más grande.

Si no estás seguro, empieza pequeño con un conjunto "smoke test" de 8-12 samples. El objetivo del smoke test no es calidad — es confirmar que tu emparejamiento y cableado de controles funciona antes de invertir en una ejecución larga.


6. Paso a paso: Cómo entrenar LoRA Qwen Edit 2511 en AI Toolkit

6.1 Crea tus datasets en AI Toolkit (Targets + Control Streams)

En DATASETS (ver Sección 5 para la lógica de estructura de carpetas):

  • Crea un dataset para targets/, luego añade control_1 / control_2 / control_3 si los usas.
  • Verifica que los conteos y el emparejamiento de nombres de archivo coincidan a través de targets y controls (comprueba al azar ~10 samples).
  • Si usas captions, establece la extensión de caption (usualmente .txt) y mantén los nombres de archivo de captions coincidentes con targets.

6.2 Crea un nuevo job

En JOB:

  • Elige un nombre de entrenamiento que reconocerás después.
  • Establece un trigger word solo si quieres que el LoRA sea "invocable" con una sola palabra clave. Para muchos Edit LoRAs, la instrucción misma es suficiente, y un trigger es opcional.
  • Establece Steps en algo conservador para la primera ejecución (estás validando la configuración, no buscando un modelo final perfecto).

En MODEL:

  • Selecciona la arquitectura Qwen Image Edit "Plus" (la variante de edición multi-imagen).
  • Name or Path – el Hugging Face model id (repo id) para el checkpoint base, por ejemplo: Qwen/Qwen-Image-Edit-2511.

    En la mayoría de builds de AI Toolkit, seleccionar la arquitectura del modelo auto-completará este valor; déjalo así a menos que tengas razón para cambiarlo.

  • Usa bf16 si tu GPU lo soporta; de lo contrario FP16 puede funcionar, pero bf16 es usualmente más estable cuando está disponible.
  • Habilita cualquier opción "Low VRAM" u offloading solo si las necesitas; empieza simple cuando puedas.

En QUANTIZATION (solo si lo necesitas):

  • Si estás en 24-32GB, cuantiza primero el transformer/backbone. Si tu build ofrece una opción "with ARA" para Qwen 2511, prefiérela sobre cuantización plain low-bit porque tiende a retener más calidad.
  • Cuantiza el text encoder/lado de conditioning solo si VRAM sigue apretado después de la cuantización del transformer.

En TARGET / NETWORK (configuración de LoRA):

  • Empieza con un rank moderado. Para ediciones "tipo regla" (inserción de logo, relighting), a menudo no necesitas rank extremo.
  • Si tu build expone ranks linear/conv separados, mantén conv conservador a menos que tengas evidencia de que ayuda a tu tarea específica. Sobre-parametrizar es un camino rápido al overfitting y deriva.

En TRAINING:

  • Mantén Batch Size = 1 y usa Gradient Accumulation para aumentar el batch efectivo si es necesario.
  • Empieza con AdamW 8-bit si estás limitado en VRAM.
  • Usa las configuraciones de scheduler recomendadas/por defecto de Qwen que proporciona tu build (para jobs de Qwen Edit esto es comúnmente un scheduler flow-matching).
  • Mantén "train text encoder" desactivado para tu primera ejecución exitosa a menos que tengas una razón específica para adaptar el comportamiento del lenguaje. La mayoría de Edit LoRAs prácticos solo necesitan adaptación de backbone/transformer.
  • Activa Gradient Checkpointing si VRAM está apretado.

En DATASETS / RESOLUTIONS (Buckets):

  • Si puedes permitírtelo, 1024 es un fuerte default para calidad de Qwen Edit.
  • Si estás limitado en VRAM, usa 768 para la primera ejecución, luego escala después una vez que confirmes que el pipeline está cableado correctamente.
  • Prefiere un pequeño conjunto de buckets (ej., 768 y 1024) en lugar de una distribución caótica que hace el mapeo inconsistente.

En SAMPLE / PREVIEWS:

El sampling es tu sistema de alerta temprana. Configura 1-3 prompts de preview que representen tu caso de uso real, y siempre usa las mismas imágenes de control fijas y seed para que puedas comparar checkpoints visualmente.

Una buena cadencia de sampling para ejecuciones tempranas:

  • samplea cada 100-250 pasos temprano
  • guarda checkpoints cada 250-500 pasos
  • mantén solo un puñado de checkpoints recientes para evitar bloat de disco

6.3 Cómo saber si el entrenamiento está funcionando

Para ~200-500 pasos, deberías ver al menos uno de estos:

  • la edición comienza a ocurrir consistentemente
  • las partes preservadas (identidad/fondo/geometría) permanecen más estables que "generación aleatoria"
  • el cambio coincide direccionalmente con la instrucción del caption

Si solo ves ruido, o el modelo ignora controles, no lo "arregles" primero con learning rate. Arregla emparejamiento, cableado de controles, y zero_cond_t primero.


7. El interruptor específico de 2511: zero_cond_t

Este es un detalle importante específico de 2511. zero_cond_t cambia cómo se aplican los timesteps a través de streams cuando el modelo tiene un stream denoised (la imagen siendo generada) y streams de conditioning (tus imágenes de referencia/control). Con zero_cond_t habilitado, las imágenes de conditioning se tratan como referencias limpias (efectivamente timestep 0) mientras la imagen principal sigue el schedule normal de timestep de difusión.

Si tus imágenes de conditioning son "ruidosas" junto con el stream principal, el modelo tiene una referencia más débil y borrosa para identidad/estructura. Eso aumenta directamente la deriva y disminuye la fidelidad de edición. Mantener controles en timestep 0 es una elección de ingeniería limpia que se alinea con el objetivo de "preservar la referencia".

Para Qwen 2511, trata zero_cond_t como un requisito de compatibilidad, no como un hiperparámetro:

  • Habilítalo para entrenamiento.
  • Mantenlo habilitado para inferencia.
  • Si tus resultados se ven inesperadamente más derivados de lo que 2511 es conocido, esto es lo primero que verificar.

8. Fallos de entrenamiento comunes y soluciones

8.1 "Missing control images for QwenImageEditPlusModel"

Si ves esto, AI Toolkit te está diciendo que no recibió imágenes de control en tiempo de entrenamiento. Las causas más comunes son:

  • adjuntaste el dataset de targets pero no asignaste control_1 / control_2 en el cableado de dataset/job
  • la ruta de la carpeta de control es incorrecta o está vacía
  • los conteos de target/control no coinciden, así que los controles fallan al cargar para algunos samples

Arréglalo haciendo los controles explícitos: re-verifica las asignaciones de dataset, confirma las rutas de carpetas, y asegúrate de que los nombres de archivo/conteos coincidan a través de streams.


8.2 "tuple index out of range" / errores de shape de tensor temprano en entrenamiento

Esto casi siempre significa que el loader esperaba un tensor de imagen pero obtuvo None o una shape inesperada. Las razones subyacentes son usualmente aburridas pero arreglables:

  • un archivo de imagen corrupto
  • modo de imagen no soportado (CMYK, escala de grises)
  • una imagen de control faltante para un índice específico (desajuste de emparejamiento)

Tu bucle de arreglo debería ser: validar integridad de datos → validar emparejamiento → ejecutar un smoke test pequeño (3-5 samples) antes de reiniciar un job grande.


8.3 KeyError: 'pixel_values' (a menudo causado por imágenes en escala de grises)

Los pipelines de Qwen Edit típicamente esperan imágenes RGB. Imágenes en escala de grises (un solo canal) pueden romper la extracción de características y resultar en errores de pixel_values. Convierte tus imágenes del dataset a PNG/JPG RGB estándar de 3 canales e intenta de nuevo.


8.4 Out of memory (OOM), especialmente durante sampling

El entrenamiento de edición multi-imagen puede disparar el VRAM durante el sampling de preview porque ejecuta forward passes adicionales y puede usar buffers intermedios más grandes.

Arregla OOM en este orden:

  1. reduce la frecuencia de preview o la resolución de preview
  2. mantén batch size en 1, aumenta gradient accumulation
  3. reduce buckets (o baja a 768)
  4. habilita cuantización/offloading
  5. temporalmente entrena con menos streams de control mientras depuras
  6. si todavía tienes OOM localmente, ejecuta el mismo job en RunComfy Cloud AI Toolkit en una GPU más grande

8.5 LoRA carga pero "no hace nada" (o carga con keys faltantes) en ComfyUI

Cuando un LoRA no hace nada, usualmente es uno de:

  • lo estás cargando en una arquitectura diferente para la que fue entrenado
  • la escala del LoRA es muy baja para notarse
  • hay un desajuste de prefijo de key entre lo que espera el stack de inferencia y lo que guardó el trainer

Si ves advertencias de keys faltantes específicamente para Qwen LoRAs, un workaround conocido es reescribir el prefijo de key del state dict del LoRA (por ejemplo, mapeando keys diffusion_model. a keys transformer.). Si tu build de AI Toolkit y tus nodos de ComfyUI están ambos actualizados, esto puede ya estar arreglado — pero es lo primero que probar cuando ves problemas sistemáticos de "keys not loaded".


9. Usando tu LoRA entrenado (Playground + ComfyUI)

Una vez que el entrenamiento está completo, la forma más rápida de verificar tu Qwen 2511 LoRA es cargarlo en el Qwen‑Image‑Edit‑2511 LoRA Playground; cuando quieras un graph de nodos repetible para trabajo real, empieza desde el workflow ComfyUI de Qwen‑Image‑Edit‑2511 e intercambia tu LoRA.


Más guías de entrenamiento LoRA de AI Toolkit

Ready to start training?