Guías de entrenamiento LoRA con AI Toolkit

Entrenamiento LoRA Qwen-Image-Edit-2509 con Ostris AI Toolkit

Este tutorial explica cómo entrenar LoRAs de Qwen-Image-Edit-2509 con Ostris AI Toolkit para edición multi-imagen, geometry-aware. Cubre cómo crear datasets tipo tripleta para try-on, relighting y reemplazo de objetos, cómo usar cuantización ARA de 3 bits y el modo Low VRAM, y cómo ajustar DOP (Differential Output Preservation) y otros parámetros desde GPUs de <10GB hasta H100/H200.

Entrena modelos de difusión con Ostris AI Toolkit

Desplázate horizontalmente para ver el formulario completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2509 es un modelo de edición multi‑imagen de 20B que puede procesar hasta tres imágenes simultáneamente (objetivo, control y diseño) para realizar ediciones precisas y conscientes de la geometría. Esta guía te muestra cómo realizar el Entrenamiento LoRA Qwen-Edit-2509. Al final, podrás:

  • Realizar el Entrenamiento LoRA Qwen-Edit-2509 para tareas de edición dirigidas confiables (por ejemplo, poner cualquier diseño en una camiseta) usando AI Toolkit by Ostris.
  • Ejecutar todo el flujo de trabajo de Entrenamiento LoRA Qwen Edit 2509 ya sea localmente (incluso con <10GB VRAM usando layer offloading), o en el navegador con el Cloud AI Toolkit en RunComfy en H100 / H200 (80GB / 141GB VRAM).
  • Entender por qué los parámetros clave importan para este modelo: las opciones Match Target Res y Low VRAM, cuantización Transformer/Text Encoder, Layer Offloading, Cache Text Embeddings, Differential Output Preservation, Differential Guidance, además de hiperparámetros básicos como Batch Size, Steps y LoRA Rank.
  • Ajustar configuraciones con confianza para tus propios LoRAs de edición (relighting, prueba de ropa, piel, reemplazos de objetos…).

Si buscas el checkpoint más reciente y un comportamiento de edición más orientado a la "consistencia primero", consulta Tutorial de Entrenamiento LoRA Qwen-Edit-2509 versión 2511.

Este artículo es parte de la serie de entrenamiento LoRA de AI Toolkit. Si eres nuevo en Ostris AI Toolkit, comienza con la descripción general del entrenamiento LoRA de AI Toolkit antes de sumergirte en esta guía.

Tabla de contenidos

1. Descripción general de Qwen‑Image‑Edit‑2509: qué puede hacer este modelo de edición

Qwen‑Image‑Edit‑2509 (a menudo abreviado como Qwen Edit 2509 o Qwen Image Edit Plus) es la iteración de septiembre de 2025 del modelo Qwen‑Image‑Edit. Está construido sobre la base de 20B Qwen‑Image, con pesos oficiales en la página del modelo Qwen‑Image‑Edit‑2509 en Hugging Face.

En comparación con la primera versión de Qwen‑Image‑Edit, 2509 añade:

  • Edición multi-imagen – el modelo puede tomar 1–3 imágenes de entrada a la vez (por ejemplo, persona + ropa + pose, o foto fuente + referencia de iluminación).
  • Comportamiento de concatenación de imágenes – en los pipelines oficiales, cada imagen de entrada se redimensiona a aproximadamente 1 megapíxel y luego se procesa junta. El modelo efectivamente ve un presupuesto de píxeles fijo incluso cuando proporcionas múltiples controles.
  • Mejor edición de texto y detalles – impulsado por Qwen2.5-VL y un VAE dedicado, maneja texto pequeño, logos y detalles finos mucho mejor.

Casos de uso típicos de LoRA donde la gente ya usa Qwen Image Edit 2509 LoRA entrenamiento incluyen:

Qwen‑Image‑Edit y Qwen‑Image comparten esencialmente la misma base. Las pruebas de la comunidad muestran que los LoRAs entrenados en Qwen‑Image son compatibles con Qwen‑Image‑Edit / 2509 y viceversa, porque los adaptadores se conectan al mismo backbone.


2. Opciones de entorno: AI Toolkit local vs Cloud AI Toolkit en RunComfy

2.1 AI Toolkit local (tu propia GPU)

Instala AI Toolkit desde el repositorio GitHub de AI Toolkit, luego ejecuta la Web UI. El entrenamiento local es una buena opción si ya tienes una tarjeta NVIDIA de 24GB+, estás cómodo gestionando CUDA / controladores / espacio en disco, y no te importa dejar el entrenamiento corriendo durante la noche.


2.2 Cloud AI Toolkit en RunComfy (H100 / H200)

Con el Cloud AI Toolkit en RunComfy, AI Toolkit se ejecuta completamente en la nube:

  • No necesitas instalar nada – solo abre un navegador, inicia sesión y estarás en la UI de AI Toolkit.
  • Tienes acceso a GPUs grandes como H100 (80GB) y H200 (141GB) para ejecuciones pesadas de Entrenamiento LoRA Qwen-Edit-2509.
  • Obtienes un workspace persistente – datasets, configuraciones y trabajos anteriores permanecen adjuntos a tu cuenta para que puedas volver e iterar.

👉 Ábrelo aquí: Cloud AI Toolkit en RunComfy

El resto de este tutorial funciona de manera idéntica en ambos entornos; solo cambia el lugar donde vive la GPU.


3. Requisitos de hardware y VRAM para Entrenamiento LoRA Qwen-Edit-2509

Qwen‑Image‑Edit‑2509 es un modelo pesado:

  • El modelo base tiene alrededor de 20B parámetros.
  • El pipeline de edición puede alimentar hasta 3 × ~1MP imágenes a través del transformer a la vez.

En la configuración de ejemplo de 32GB estándar para 2509 (train_lora_qwen_image_edit_2509_32gb.yaml), los usuarios reportan aproximadamente:

  • 27–28.5GB VRAM para entrenamiento a 1024×1024.
  • 25–26GB VRAM para entrenamiento a 768×768 — aún sin suerte para 24GB.

Por eso el ejemplo oficial es explícitamente una configuración de 32GB. Pero con cuantización ARA de 3 bits + modo Low VRAM + Layer Offloading (RAMTorch), Ostris muestra que puedes realizar Entrenamiento LoRA Qwen-Edit-2509 con solo ~8–9GB GPU VRAM, a costa de alto RAM de CPU (60GB+) y entrenamiento más lento.

Nivel Dónde Hardware de ejemplo Cómo se ve
VRAM bajo (~10–12GB) Local RTX 3060 12GB, 4070, etc. Debes habilitar cuantización en el panel QUANTIZATION (ARA de 3 bits para el modelo base) y usar Layer Offloading agresivo. Espera ~8–9GB GPU VRAM y 60GB+ CPU RAM, con ~10–12s/paso en una CPU de gama media. Esta configuración (2 flujos de control) entrena cómodamente hasta 1024×1024; trata 1024² como tu resolución máxima práctica en este nivel.
24GB ajustado Local RTX 3090 / 4090 / 5090 24GB no puede ejecutar la configuración estándar de 32GB Qwen‑Edit LoRA a 1024² con 2 controles sin offloading (pico alrededor de ~24.7GB VRAM), así que aún necesitas trucos de Low VRAM como ARA de 3 bits, gradient checkpointing y/o offload parcial. Trata 768×768 como la resolución objetivo máxima práctica con 2 controles a menos que añadas algo de offloading.
32GB cómodo Local RTX 4090 32GB, tarjetas más nuevas Este es el nivel para el que está ajustado el oficial train_lora_qwen_image_edit_32gb.yaml: cuantización ARA de 3 bits, buckets de resolución 1024², rango LoRA medio, sin offloading. Con 32GB puedes tratar 1024×1024 (con 2–3 flujos de control) como una resolución de trabajo normal.
VRAM alto (80–141GB) Cloud AI Toolkit en RunComfy H100 80GB / H200 141GB Puedes mantener las configuraciones simples (cuantización activada, offloading desactivado), usar batches más grandes (4–8), y entrenar a 1024×1024 por defecto sin preocuparte por OOM. En este nivel también puedes experimentar con resoluciones ligeramente más altas (por ejemplo, 1280–1536px), pero 1024² sigue siendo el tamaño objetivo más seguro y probado.

En una 4090 con offloading completo, el ejemplo de Ostris alcanza ~9GB VRAM y ~64GB CPU RAM, ejecutando ~5k pasos en aproximadamente un día. En una 5090 sin offload, las iteraciones son aproximadamente 2–3× más rápidas.


4. Construyendo un dataset para Entrenamiento LoRA Qwen-Edit-2509

Reflejaremos el ejemplo de "diseño de camiseta" del tutorial de Ostris y lo generalizaremos para que puedas adaptarlo a otras tareas.

4.1 Tres flujos lógicos de imágenes

Para un LoRA de diseño de ropa, el modelo debe aprender: Dada una persona usando una camiseta en blanco y una imagen de diseño, poner este diseño en su camiseta preservando pose, iluminación y pliegues.

  • Imágenes objetivo (lo que quieres como resultado) – una persona usando una camiseta con el diseño ya puesto. Estas son las salidas que quieres que el modelo reproduzca.
  • Imágenes de control (camisetas en blanco, mismas personas) – los mismos sujetos y poses que los objetivos, pero sin el diseño (o con una camiseta lisa). Estas controlan geometría, pliegues, iluminación y oclusiones (brazos, cabello, collares, etc.).
  • Imágenes de diseño – el diseño en sí sobre un fondo neutral (gris, negro o blanco). Puedes incluir algunas variantes (diferentes colores de fondo) para aumentar la robustez.

En el ejemplo de Ostris, alrededor de 26 tripletas (persona + camiseta en blanco + diseño) fueron suficientes para obtener un rendimiento muy fuerte, incluyendo códigos QR y logos complejos mapeándose correctamente a la tela. Para LoRAs de producción, comenzar con 20–60 tripletas bien curadas (objetivo + control + diseño) es una buena base.


4.2 Resolución y relación de aspecto

Qwen‑Image‑Edit‑2509:

  • Redimensiona cada entrada internamente a aproximadamente 1MP (por ejemplo, 1024×1024 o equivalente).
  • Funciona mejor cuando tus imágenes de entrenamiento son cuadradas o casi cuadradas (usaremos 1024×1024 aquí), o una relación de aspecto consistente (por ejemplo, todas 3:4).

En este tutorial asumimos imágenes cuadradas para que el bucketing sea simple:

  • Objetivos, controles y diseños todos alrededor de 1024×1024. AI Toolkit hará buckets en 512 / 768 / 1024 dependiendo de lo que habilites en el panel DATASETS.

4.3 Captions

Para este LoRA de diseño de ropa, usamos sin captions por imagen, solo un único caption por defecto a nivel de dataset: put this design on their shirt

Esto funciona porque:

  • La semántica es simple e idéntica en todas las muestras.
  • Las imágenes de control y diseño llevan la mayor parte de la información interesante.

Para LoRAs de edición más complejos (como "iluminar como luz de borde de estudio" vs "hora dorada"), deberías usar captions por imagen describiendo la edición deseada.


5. Paso a paso: Cómo entrenar LoRA Qwen Edit 2509 en AI Toolkit

5.1 Paso 0 – Elige dónde ejecutarás AI Toolkit

Puedes ejecutar AI Toolkit de dos maneras para este tutorial:

  • AI Toolkit local (tu propia GPU) – instala AI Toolkit, ejecuta la Web UI y ábrela localmente. Asegúrate de tener una GPU NVIDIA con al menos 10–12GB VRAM (24GB+ preferido) y suficiente RAM de CPU (idealmente 64GB+ si planeas usar Layer Offloading).
  • Cloud AI Toolkit en RunComfy – inicia sesión en el Cloud AI Toolkit en RunComfy. Aterrizas directamente en la UI de AI Toolkit ejecutándose en la nube. Cuando inicias un trabajo desde la Training Queue eliges una máquina H100 (80GB) o H200 (141GB).

5.2 Paso 1 – Crear datasets en AI Toolkit

En la UI de AI Toolkit, abre la pestaña Datasets.

Crea tres datasets (los nombres son solo ejemplos):

  • shirt_target
  • shirt_control
  • shirt_design

Sube tus imágenes para que cada dataset tenga un rol claro:

  • shirt_target – 20–60 fotos de personas usando camisetas con diseños.
  • shirt_control – las mismas personas y poses sin diseños (o con una camiseta en blanco).
  • shirt_design – imágenes de diseño cuadradas sobre fondos simples (gris, negro o blanco).

Si no tienes captions preparados como archivos .txt, deja los captions por imagen vacíos por ahora. Añadiremos un único Caption por Defecto a nivel de trabajo más tarde.

Nota importante sobre emparejamiento

Las imágenes objetivo y de control deben estar emparejadas en orden (misma persona, misma pose) tanto como sea posible. Para mantener el emparejamiento estable, usa nombres de archivo coincidentes entre carpetas para que el orden alfabético se alinee, por ejemplo: shirt_target/img_0001.jpg, shirt_control/img_0001.jpg, shirt_design/img_0001.png. Cada imagen objetivo debe tener una imagen de control y diseño correspondiente con el mismo índice.


5.3 Paso 2 – Crear un nuevo Job

Abre la pestaña New Job. Configuremos cada panel en el orden en que aparecen.


5.3.1 Panel JOB – nombre del job, GPU, palabra trigger

  • Training Name – establece cualquier nombre descriptivo, por ejemplo qwen_edit2509_shirt_lora_v1. Esto se convierte en el nombre del trabajo y el nombre de la carpeta donde se guardan los checkpoints.
  • GPU ID – en una instalación local, elige la GPU en tu máquina. En el Cloud AI Toolkit en RunComfy, deja GPU ID en el valor por defecto. El tipo de máquina real (H100 / H200) se elige más tarde cuando inicias el trabajo desde la Training Queue.
  • Trigger Word – ingresa la frase que quieres escribir en el momento de inferencia, por ejemplo: put this design on their shirt. En los captions de tu dataset puedes usar [trigger] como marcador de posición. AI Toolkit reemplaza [trigger] con el Trigger Word durante el entrenamiento. Una frase trigger clara te da un interruptor limpio de encendido/apagado para el LoRA: los prompts que no lo contienen deben permanecer cerca del comportamiento base de Qwen‑Image‑Edit‑2509, especialmente si también habilitas Differential Output Preservation (DOP) como se recomienda más adelante.

5.3.2 Panel MODEL – modelo base y opciones de VRAM

  • Model Architecture – selecciona Qwen‑Image‑Edit‑2509.
  • Name or Path – el Hugging Face model id (repo id) para el checkpoint base, por ejemplo: Qwen/Qwen-Image-Edit-2509.

    En la mayoría de builds de AI Toolkit, seleccionar Qwen‑Image‑Edit‑2509 auto-llenará este valor; déjalo así a menos que tengas una razón para cambiarlo.

En Options:

  • Low VRAM – activa ON para GPUs con ≤ 24GB VRAM. Esto habilita checkpointing extra y trucos de ahorro de memoria dentro del backbone para que el gran modelo Qwen quepa más fácilmente.
  • Match Target Res – activa ON para trabajos de Entrenamiento LoRA Qwen-Edit-2509. Esto redimensiona las imágenes de control para que coincidan con el mismo bucket de resolución que la imagen objetivo (por ejemplo, 768×768 o 1024×1024). Mantiene la geometría de edición alineada y evita desperdiciar VRAM en controles sobredimensionados.
  • Layer Offloading – trata esto como una válvula de seguridad. Actívalo ON en GPUs muy pequeñas si aún obtienes CUDA OOM después de habilitar Low VRAM y cuantización; esto descargará algunas capas a RAM de CPU a costa de pasos más lentos. Déjalo OFF en GPUs de 24GB+ o GPUs en la nube en RunComfy para mejor velocidad.

5.3.3 Panel QUANTIZATION – ajustando el gran transformer

Qwen‑Image‑Edit‑2509 es lo suficientemente grande como para que la cuantización casi siempre sea una buena idea.

  • Transformer – establece en float8 (default). En AI Toolkit esto típicamente corresponde a una base ARA de 3 bits con un adaptador de "recuperación" de 8 bits, así que obtienes uso de VRAM cercano a un modelo de 3 bits con calidad cercana a precisión completa.
  • Text Encoder – establece en float8 (default) también. El text encoder es grande, y ejecutarlo en fp8 ahorra mucho VRAM con pérdida de calidad mínima.

No necesitas configurar manualmente archivos ARA en la UI; seleccionar las opciones float8 es suficiente.


5.3.4 Panel TARGET – tipo de LoRA y rango

Este panel le dice a AI Toolkit que estás entrenando un LoRA y cuánta capacidad debe tener.

  • Target Type – elige LoRA.
  • Linear Rank – para Entrenamiento LoRA Qwen-Edit-2509, 32 es un valor por defecto sólido. Es lo suficientemente expresivo para comportamientos como "poner este diseño en su camiseta" pero aún ligero para entrenar y cargar. En GPUs muy pequeñas puedes bajar a 16; para comportamientos más complejos puedes experimentar con 48–64 (vigila de cerca el overfitting con rangos más altos).

5.3.5 Panel SAVE – tipo de checkpoint y frecuencia

  • Data Type – elige BF16. Qwen‑Image‑Edit‑2509 típicamente se ejecuta en bfloat16, y guardar pesos LoRA en BF16 los mantiene compatibles y razonablemente pequeños.
  • Save Every250 pasos es un valor práctico por defecto; obtendrás un checkpoint cada 250 pasos de entrenamiento.
  • Max Step Saves to Keep4 mantiene los últimos cuatro checkpoints y elimina automáticamente los más antiguos para que tu disco no se llene.

5.3.6 Panel TRAINING – hiperparámetros básicos

El panel TRAINING controla qué tan agresivamente ajustamos Qwen‑Image‑Edit‑2509.

Valores iniciales recomendados para un LoRA de dataset único (10–40 imágenes a 768–1024px):

  • Batch Size – establece esto en 1 por defecto. Usa 2 solo en GPUs muy grandes (nivel A100 / H100 / H200).
  • Gradient Accumulation – comienza en 1. Si quieres un tamaño de batch efectivo más grande sin más VRAM, aumenta esto a 2–4. Tamaño de batch efectivo es Batch Size × Gradient Accumulation.
  • Steps – usa 2500–3000. Para el ejemplo de diseño de camiseta con ~20–30 tripletas, 3000 funciona bien. Si tu dataset es pequeño (<15 imágenes), considera 1500–2200 para evitar overfitting.
  • Optimizer – elige AdamW8Bit. Adam de 8 bits reduce dramáticamente la memoria mientras se comporta como AdamW estándar.
  • Learning Rate – establece 0.0001. Si el entrenamiento se ve ruidoso o inestable, reduce a 0.00005.
  • Weight Decay – establece 0.0001 como un regularizador leve para que el LoRA no se desvíe demasiado en datasets pequeños.
  • Timestep Type – establece en Weighted. Esto sesga el entrenamiento hacia los niveles de ruido que más importan para Qwen‑Image‑Edit.
  • Timestep Bias – establece en Balanced, un valor seguro por defecto que no sobre-enfatiza timesteps muy tempranos o muy tardíos.
  • Loss Type – déjalo en Mean Squared Error, la opción estándar para entrenamiento de difusión / rectified-flow.
  • EMA (Exponential Moving Average → Use EMA) – deja OFF para LoRAs. EMA es más útil cuando se entrenan modelos completos.

5.3.7 Sección de Regularización y Text Encoder (lado derecho del panel TRAINING)

En el lado derecho del panel TRAINING verás dos áreas importantes: Text Encoder Optimizations y Regularization.

Text Encoder Optimizations

  • Cache Text Embeddings – para Qwen‑Image‑Edit + Differential Output Preservation (DOP), esto debe permanecer OFF. DOP reescribe el texto del prompt internamente cada batch, por lo que los embeddings cacheados ya no coincidirían con los prompts reales. Cuando DOP está OFF y tus captions son estáticos, puedes activar Cache Text Embeddings ON para codificar todos los captions una vez, almacenar los embeddings en disco, y luego liberar el text encoder de VRAM.
  • Unload Text Encoder (Unload TE) – este es un modo especial de solo-trigger. Cuando lo activas ON, AI Toolkit cachea los embeddings para tu Trigger Word y prompts de Sample una vez, descarga el text encoder de VRAM, e ignora todos los captions del dataset. Para LoRAs de Qwen‑Image‑Edit‑2509 que dependen de captions normales (y especialmente cuando Differential Output Preservation está ON), debes dejar Unload TE OFF.

Debido a que caption dropout se implementa eliminando aleatoriamente captions durante el entrenamiento, depende de codificación de texto fresca cada paso. Si habilitas Cache Text Embeddings, debes establecer Caption Dropout Rate = 0 en el panel DATASETS (ver abajo) para que no haya desajuste entre embeddings cacheados y el comportamiento de dropout previsto.

Regularization → Differential Output Preservation

  • Differential Output Preservation – activa esto ON para la mayoría de proyectos reales. Es crucial para Qwen‑Image‑Edit: permite que el modelo base se comporte normalmente cuando falta la frase trigger y solo inyecta tu comportamiento cuando el trigger está presente.
  • DOP Loss Multiplier – déjalo en 1 para empezar. Puedes aumentarlo ligeramente si ves demasiado estilo filtrándose en prompts sin trigger.
  • DOP Preservation Class – usa una palabra de clase neutral que describa lo que editas más frecuentemente. Para ediciones centradas en personas, person es un buen valor por defecto; para ediciones solo de productos, usa algo como product u object.

Cómo DOP se conecta con tus captions y Trigger Word:

  • Supongamos que un caption es "[trigger] a person walking down the street, wearing the design on their shirt"
  • Con Trigger Word = put this design on their shirt
  • Y DOP Preservation Class = person

AI Toolkit internamente crea dos prompts:

  1. put this design on their shirt a person walking down the street, wearing the design on their shirt – la ruta LoRA.
  2. person a person walking down the street, wearing the design on their shirt – la ruta del modelo base.

El LoRA se entrena solo en la diferencia entre estos dos. Las generaciones sin la frase trigger permanecen mucho más cerca del Qwen‑Image‑Edit‑2509 vanilla porque DOP preserva explícitamente ese comportamiento.

  • Blank Prompt Preservation – deja esto OFF a menos que tengas una razón muy específica para preservar el comportamiento para prompts vacíos.

5.3.8 Panel ADVANCED – Differential Guidance

  • Do Differential Guidance – activa esto ON.
  • Differential Guidance Scale – comienza con 3.

Differential Guidance es un truco específico de AI Toolkit que escala la señal de error que ve el LoRA. Una escala más grande hace que la señal de "estás equivocado aquí" sea más fuerte, por lo que el LoRA típicamente aprende el cambio deseado más rápido sin aumentar la tasa de aprendizaje.

Si las muestras se ven inestables o excesivamente "nítidas" temprano en el entrenamiento, baja esto a 2. Si el aprendizaje se siente muy lento, puedes experimentar con 4 más tarde.


5.3.9 Panel DATASETS – conectando imágenes objetivo, control y diseño

Para Entrenamiento LoRA Qwen-Edit-2509 debes proporcionar al menos un dataset objetivo y un dataset de control.

Dentro de Dataset 1:

  • Target Dataset – elige tu dataset de salida / editado, es decir, imágenes que representan "después de aplicar el comportamiento LoRA".
  • Control Dataset 1 – elige el dataset que contiene tus imágenes de entrada (las fotos originales que quieres editar). Cada archivo debe coincidir con una imagen objetivo por nombre (por ejemplo, scene_001.pngscene_001.png).
  • Control Dataset 2 / 3 – estos son opcionales. Para el LoRA de camiseta, establece Control Dataset 2 en shirt_design para que el modelo vea el logo o arte como un segundo flujo de control. Deja los slots de control vacíos a menos que tengas condiciones extra como mapas de profundidad o keypoints.
  • LoRA Weight – déjalo en 1 a menos que añadas más datasets. Cuando añadas más datasets puedes rebalancear su influencia aquí.
  • Default Caption – si tus imágenes ya tienen captions .txt, puedes dejarlo vacío. De lo contrario ingresa algo como:

    "[trigger] put this design on their shirt, full‑body street photo"

    Recuerda: [trigger] será reemplazado por el Trigger Word del panel JOB.

  • Caption Dropout Rate0.05 es un buen valor inicial cuando no estás cacheando text embeddings; aproximadamente uno de cada veinte pasos ignorará el caption para que el modelo no sobreajuste a la redacción exacta. Si planeas activar Cache Text Embeddings ON en el panel TRAINING, establece Caption Dropout Rate = 0, porque dropout requiere re-codificar captions cada paso y no funciona correctamente con embeddings cacheados.
  • Settings → Cache Latents – activa esto ON. AI Toolkit codifica cada imagen objetivo a VAE latents una vez y los reutiliza, lo que elimina el pesado VAE de la GPU después del caching y acelera significativamente el entrenamiento.
  • Settings → Is Regularization – deja esto OFF para tu dataset principal. Si más tarde añades un segundo dataset puramente para imágenes de regularización (por ejemplo fotos genéricas de personas), establecerías Is Regularization de ese segundo dataset en ON.
  • Flipping (Flip X / Flip Y) – para la mayoría de LoRAs de personas / productos deja ambos OFF, a menos que estés seguro de que los volteos espejo son seguros para tu sujeto (Flip X reflejará cualquier texto en camisetas).
  • Resolutions – habilita los buckets en los que quieres que Qwen‑Image‑Edit entrene, por ejemplo 512, 768, y 1024. 768 es un punto dulce para muchos LoRAs de Qwen; añadir 512 y 1024 hace el entrenamiento robusto a ligeros cambios de resolución.

Puedes añadir datasets adicionales con Add Dataset (por ejemplo, un dataset de regularización con LoRA Weight < 1), pero un solo Dataset 1 con un objetivo + uno o dos sets de control es suficiente para la mayoría de casos de uso de "poner este diseño en su camiseta".


5.3.10 Panel SAMPLE – previsualizaciones de entrenamiento

El panel SAMPLE controla previsualizaciones periódicas durante el entrenamiento. Estas muestras no afectan la pérdida de entrenamiento; son solo para monitoreo.

  • Sample Every – establece esto en 250 para que generes previsualizaciones cada 250 pasos, lo que se alinea bien con tu horario de checkpoints.
  • Width / Height – haz coincidir tu resolución principal de entrenamiento, por ejemplo 1024 × 1024 o 768 × 1024 dependiendo de tu dataset.
  • Seed – elige un seed estable como 42. Puedes habilitar Walk Seed si quieres que cada batch de previsualización use seeds consecutivos y muestre más variedad.
  • Sampler – elige FlowMatch (o el sampler Qwen por defecto en tu build). Esto debe coincidir con el scheduler FlowMatch usado en TRAINING.
  • Guidance Scale – establece 4 para previsualizaciones. Cuando hagas inferencia más tarde en ComfyUI u otras UIs, típicamente experimentarás entre 3–6.
  • Sample Steps – alrededor de 25 pasos es un buen compromiso calidad-vs-velocidad para previsualizaciones.
  • Advanced Sampling – puedes dejar Skip First Sample, Force First Sample, y Disable Sampling todos OFF. Activa Disable Sampling ON solo si estás debugueando o quieres máxima velocidad sin previsualizaciones en absoluto.
  • Sample Prompts – añade 4–8 prompts que representen casos de uso realistas para tu LoRA.

5.4 Paso 3 – Lanzar entrenamiento y monitorear

Después de configurar el job, ve a la pestaña Training Queue, selecciona tu job, y prepáralo para ejecutar.

Haz clic en Start / Play y principalmente observa dos cosas:

  • GPU VRAM / CPU RAM – especialmente en tarjetas de bajo VRAM usando Layer Offloading, mantén un ojo en el uso de RAM del sistema.
  • Sample images – el diseño debe permanecer en la camiseta y seguir pliegues y pose. Si comienza a sangrar en toda la imagen o los colores se vuelven extremos, considera parar temprano o reducir el total de pasos.

6. Configuraciones recomendadas para Entrenamiento LoRA Qwen-Edit-2509 por nivel de VRAM

Si solo quieres un valor por defecto seguro para GPUs locales de 24GB y todas las ejecuciones en nube H100/H200, usa la configuración de las secciones 3–6: Low VRAM = ON, cuantización Transformer/Text Encoder = float8, Batch Size = 1, LoRA Rank = 32, Resolutions = 512 / 768 / 1024, Differential Output Preservation = ON, Cache Text Embeddings = OFF.

Abajo están solo las configuraciones que realmente cambian con el hardware. Cualquier cosa no mencionada aquí (Steps, Learning Rate, Optimizer, etc.) puede permanecer en las recomendaciones anteriores.


Nivel 1 – VRAM bajo (~10–12GB local)

  • MODEL → Low VRAM: activa ON. Esto habilita checkpointing extra y shuffling para que Qwen‑Image‑Edit‑2509 quepa en una tarjeta de 10–12GB.
  • MODEL → Layer Offloading: activa ON si aún obtienes CUDA OOM. Espera alto uso de CPU RAM (≈60GB+) y pasos más lentos, pero GPU VRAM puede bajar a alrededor de 8–9GB.
  • QUANTIZATION → Transformer / Text Encoder: establece ambos en float8. En esta arquitectura que usa adaptadores Qwen 3-bit ARA bajo el capó, float8 es el mínimo práctico para calidad estable.
  • TRAINING → Batch Size: bloquea en 1. Si quieres un batch efectivo más grande, aumenta Gradient Accumulation en lugar de Batch Size.
  • DATASETS → Resolutions: habilita 512 y 768 como tus buckets principales. Puedes añadir 1024 si aceptas ejecuciones más lentas y frágiles; trata 1024×1024 con dos flujos de control como el límite superior práctico en este nivel.
  • TRAINING → Text Encoder Optimizations / Regularization: si no puedes hacer caber Differential Output Preservation incluso con Low VRAM y Layer Offloading, desactiva DOP y activa Cache Text Embeddings para que los captions se codifiquen una vez y el text encoder se libere de VRAM. Pierdes algo de preservación del modelo base pero ganas varios GB de margen.

Nivel 2 – 24GB ajustado (clase 3090 / 4090 / 5090)

Lo que puedes relajar comparado con el Nivel 1:

  • MODEL → Low VRAM: mantén ON por seguridad en 24GB; una vez que sepas que tu resolución y configuración de control cabe cómodamente, puedes experimentar desactivándolo.
  • MODEL → Layer Offloading: usualmente OFF. Solo habilítalo si aún obtienes OOM en tu resolución elegida y número de flujos de control.
  • QUANTIZATION → Transformer / Text Encoder: mantén ambos en float8. Deshabilitar cuantización en este nivel rara vez ayuda y solo quema VRAM que podrías gastar en resolución o tamaño de batch.
  • TRAINING → Batch Size: 1 sigue siendo el valor por defecto. Batch Size 2 a veces es posible a 768×768 con dos controles si Low VRAM está ON y cuantización permanece ON.
  • DATASETS → Resolutions: habilita 512, 768, y 1024. Considera 768 tu bucket "siempre seguro" y 1024 el bucket de alta gama que puede necesitar Low VRAM y posiblemente offload parcial.
  • TRAINING → Text Encoder Optimizations / Regularization: usualmente puedes mantener Differential Output Preservation ON y Cache Text Embeddings OFF, especialmente si entrenas principalmente a 768×768. Si absolutamente necesitas 1024×1024 en una tarjeta de 24GB y aún obtienes OOM después de otros ajustes, la siguiente palanca es desactivar DOP y activar Cache Text Embeddings.

Nivel 3 – 32GB+ cómodo local y nube H100/H200

En tarjetas locales de 32GB y GPUs en nube de 80–141GB (H100 / H200), dejas de luchar contra VRAM y puedes simplificar la configuración:

  • MODEL → Low VRAM: opcional. Puedes desactivarlo en GPUs locales de 32GB+ y H100/H200 para pasos ligeramente más rápidos y trazas más simples.
  • MODEL → Layer Offloading: mantén OFF. Todos los componentes de Qwen‑Image‑Edit‑2509 pueden permanecer residentes en la GPU.
  • QUANTIZATION → Transformer / Text Encoder: deja ambos en float8 por defecto. En H100/H200 puedes experimentar deshabilitando cuantización de Text Encoder si quieres, pero no es requerido para buena calidad y ofrece poco beneficio comparado con usar ese VRAM para tamaño de batch o resolución.
  • TRAINING → Batch Size: usa 1–2 en GPUs locales de 32GB, y 2–4 en H100/H200 a 1024×1024 con dos flujos de control.
  • TARGET → LoRA Rank: 32 es un valor por defecto cómodo. Puedes probar 48–64 en H100/H200 para comportamientos muy complejos (por ejemplo, LoRAs de edición multi-efecto) si vigilas el overfitting.
  • DATASETS → Resolutions: entrena principalmente a 768 y 1024. Usualmente puedes eliminar 512 a menos que específicamente te preocupe el comportamiento de baja resolución.
  • TRAINING → Text Encoder Optimizations / Regularization: ejecuta con Differential Output Preservation ON y Cache Text Embeddings OFF como valor por defecto. VRAM es suficiente para mantener el text encoder residente, y obtienes la separación más limpia entre comportamiento "con trigger" y "sin trigger".

7. Problemas comunes en Entrenamiento LoRA Qwen-Edit-2509 y cómo solucionarlos

7.1 Datasets mal emparejados (orden incorrecto / personas no coincidentes)

Síntoma: Los diseños aparecen, pero en el lugar equivocado, persona equivocada, o deformados.

Verifica que los datasets objetivo y de control estén alineados: shirt_target/img_0001.jpg debe emparejarse con shirt_control/img_0001.jpg, y shirt_design/img_0001.png, y así sucesivamente. Si mezclas imágenes manualmente, mantén los nombres de archivo emparejados para que el orden alfabético siga alineado.


7.2 VRAM OOM incluso con cuantización

Si entrenas con una resolución objetivo pequeña (por ejemplo 512×512) pero tus datasets de control aún usan 1024×1024 como su bucket más alto y Match Target Res está desactivado, cada flujo de control será codificado a 1024×1024 mientras el objetivo es solo 512×512. Con dos o tres de tales flujos de control, el tamaño total de latent se vuelve mucho más grande de lo esperado y puedes fácilmente obtener CUDA OOM incluso con cuantización habilitada.

Para solucionar esto:

  • Ya sea activar Match Target Res ON en el panel MODEL para que todas las imágenes de control se redimensionen automáticamente al mismo bucket de resolución que el objetivo, o
  • Mantener Match Target Res OFF pero bajar el bucket de resolución más alto para tus datasets de control para coincidir con el objetivo (elimina 1024 y quédate con 512/768).

En H100/H200 en la nube puedes permitirte mantener buckets de 1024×1024 para tanto objetivo como controles y depender menos de estos trucos, pero la regla más segura es: evita mezclar objetivos pequeños con controles muy grandes cuando Match Target Res está deshabilitado.


7.3 El entrenamiento nunca converge / se ve aleatorio

Verifica lo siguiente:

  • En el panel TRAINING el noise scheduler y configuraciones de timestep aún corresponden a FlowMatch. En el YAML exportado deberías ver noise_scheduler: "flowmatch", y en el panel SAMPLE el sampler también debería estar configurado a FlowMatch; si el sampler usa un scheduler diferente, las previsualizaciones pueden verse como ruido puro incluso si el LoRA está entrenando correctamente.
  • El Learning Rate no es muy alto. 0.0001 es un valor por defecto seguro para Entrenamiento LoRA Qwen-Edit-2509; si las previsualizaciones siguen oscilando o se ven muy inestables después de unos cientos de pasos, bájalo a 0.00005 y reanuda desde el último checkpoint bueno.

7.4 LoRA sobreajusta (el diseño sangra por todas partes)

Posibles soluciones:

  • Reduce el total de Steps (por ejemplo, de 5000 a 3000).
  • Considera un LoRA Rank ligeramente más bajo (16 en lugar de 32).
  • Diversifica el dataset con diferentes personas, poses e iluminaciones.
  • Asegúrate de que Differential Output Preservation esté habilitado y, si es necesario, aumenta el DOP Loss Multiplier un poco para que el comportamiento base se preserve más fuertemente.

7.5 Infierno de entorno

Problemas locales típicos incluyen desajuste de versión CUDA, build incorrecto de PyTorch, o drivers que no coinciden con tu GPU / SO. En el Cloud AI Toolkit en RunComfy estos problemas desaparecen: AI Toolkit y dependencias están preinstalados y comienzas directamente desde la UI con configuraciones y datasets.

Si te encuentras gastando más tiempo arreglando CUDA que entrenando, ese usualmente es el punto donde es más fácil mover este job específico a la nube.


8. Usando tu LoRA de Qwen Edit 2509 después del entrenamiento

Una vez que el entrenamiento está completo, puedes usar tu LoRA de Qwen Edit 2509 de dos maneras simples:

  • Model playground – abre el Qwen‑Image‑Edit‑2509 LoRA playground y pega la URL de tu LoRA entrenado para ver rápidamente cómo se comporta sobre el modelo base.
  • Workflows de ComfyUI – inicia una instancia de ComfyUI y ya sea construye tu propio workflow o carga uno como Qwen Edit 2509 MultipleAngles, intercambia tu LoRA en el nodo cargador de LoRA, y ajusta el peso del LoRA y otras configuraciones para control más detallado.

Más guías de entrenamiento LoRA de AI Toolkit

¿Listo para comenzar el entrenamiento?