Guía de entrenamiento LoRA Qwen-Image-2512 con Ostris AI Toolkit

Qwen‑Image‑2512 (a menudo abreviado como Qwen 2512) es un modelo base grande de texto a imagen que puede ajustarse con pequeños adaptadores para aprender de forma fiable un personaje (likeness), un estilo o un producto/concepto. Esta guía te muestra cómo realizar Entrenamiento LoRA Qwen Image 2512 práctico usando Ostris AI Toolkit, con valores predeterminados estables y soluciones para los problemas más comunes.

Al final de esta guía de Entrenamiento LoRA Qwen Image 2512, podrás:

Elegir los valores predeterminados correctos para LoRAs de personaje vs estilo vs producto en Qwen-Image-2512.
Planificar los requisitos de VRAM y decidir cuándo ARA vale la pena.
Construir datasets, captions y triggers que eviten los modos de fallo comunes (sobreajuste/bleed).
Ejecutar un smoke test corto y luego fijar los pasos y configuraciones con confianza.

Este artículo es parte de la serie de entrenamiento LoRA de AI Toolkit. Si eres nuevo en Ostris AI Toolkit, comienza con la Introducción al entrenamiento LoRA con AI Toolkit antes de profundizar en esta guía sobre cómo entrenar LoRA Qwen Image 2512.

Tabla de contenidos

1. Visión general de Qwen‑Image‑2512: qué puede hacer este modelo de texto a imagen
2. Opciones de entorno: trabajando en la interfaz de entrenamiento de AI Toolkit
3. Hardware y requisitos de VRAM para Entrenamiento LoRA Qwen Image 2512
4. Construyendo un dataset para Qwen-Image-2512 entrenamiento LoRA
5. Paso a paso: Qwen 2512 entrenamiento LoRA en AI Toolkit
6. Configuraciones recomendadas de Entrenamiento LoRA Qwen Image 2512 por nivel de VRAM
7. Problemas comunes del Entrenamiento LoRA Qwen Image 2512 y cómo solucionarlos
8. Usando tu LoRA Qwen‑Image‑2512 después del entrenamiento

1. Visión general de Qwen‑Image‑2512: qué puede hacer este modelo de texto a imagen

Qué es el Entrenamiento LoRA Qwen Image 2512 (y qué significa "bueno")

En el Entrenamiento LoRA Qwen Image 2512, no estás reemplazando el modelo base—estás añadiendo un pequeño adaptador que lo ajusta hacia una identidad, estilo o concepto de producto específico.

Un LoRA fuerte tiene tres cualidades:

Fuerza: cambia claramente las salidas cuando está activo
Control: se activa solo cuando lo deseas
Generalización: funciona con nuevos prompts, no solo con tus imágenes de entrenamiento

Elige tu objetivo: Personaje vs Estilo vs Producto/Concepto

Tu objetivo determina los mejores valores predeterminados para el diseño del dataset y los ajustes de entrenamiento en AI Toolkit LoRA Qwen Image 2512.

Personaje / likeness

Ideal para: una persona específica, personaje, similitud con celebridad, rostro/identidad consistente
Riesgos principales: bleed de identidad (afecta a otras personas), rostros sobrecocidos, sobreajuste rápido
Necesita: estrategia de timestep más ajustada, pasos cuidadosos, generalmente un trigger, a menudo DOP

Estilo

Ideal para: un look/grado, estilo de ilustración, estilo de iluminación, lenguaje de textura
Riesgos principales: convertirse en un "filtro para todo", perder fidelidad al prompt
Necesita: más variedad, generalmente menos repeticiones/imagen que personaje, trigger opcional

Producto / concepto

Ideal para: un producto específico (zapato, botella), empaque con logo, un nuevo concepto de objeto
Riesgos principales: deriva de forma, materiales inconsistentes, geometría inestable
Necesita: encuadre consistente + captions limpios; trigger generalmente recomendado

Si no estás seguro, comienza el Entrenamiento LoRA Qwen Image 2512 como un smoke test (ejecución corta), luego fija los pasos finales una vez que veas qué tan rápido tu dataset se "imprime".

2. Opciones de entorno: AI Toolkit local vs AI Toolkit en la nube en RunComfy

Para el Qwen-Image-2512 entrenamiento LoRA, puedes usar los mismos dos entornos que otros flujos de trabajo de LoRA con AI Toolkit:

AI Toolkit local en tu propia GPU
AI Toolkit en la nube en RunComfy con GPUs grandes (H100 / H200)

La interfaz de entrenamiento, parámetros y flujo de trabajo son idénticos en ambos casos. La única diferencia es dónde está la GPU y cuánta VRAM tienes disponible.

2.1 AI Toolkit local (tu propia GPU)

Instala AI Toolkit desde el repositorio de GitHub de AI Toolkit, luego ejecuta la Web UI. El entrenamiento local es una buena opción si:

Ya tienes una GPU NVIDIA (típicamente 24GB de VRAM o más para entrenamiento cómodo a 1024)
Te sientes cómodo gestionando CUDA, drivers, espacio en disco y trabajos de larga duración

2.2 AI Toolkit en la nube en RunComfy (H100 / H200)

Con el AI Toolkit en la nube en RunComfy, el entrenamiento AI Toolkit LoRA Qwen Image 2512 se ejecuta completamente en el navegador:

No instalas nada localmente
Abres un navegador, inicias sesión y llegas directamente a la interfaz de entrenamiento de AI Toolkit
Puedes seleccionar GPUs grandes como H100 (80GB) o H200 (141GB) al lanzar un trabajo
Obtienes un workspace persistente donde los datasets, configuraciones y checkpoints se guardan y pueden reutilizarse entre sesiones

Este entorno es especialmente útil para el Qwen 2512 entrenamiento LoRA cuando:

Quieres iteración más rápida a 1024×1024 sin trucos agresivos de memoria
Quieres experimentar con rangos de LoRA más grandes, más buckets o tamaños de batch más altos
No quieres pasar tiempo debugueando problemas de CUDA o drivers

👉 Ábrelo aquí: AI Toolkit en la nube en RunComfy

3. Hardware y requisitos de VRAM para Entrenamiento LoRA Qwen Image 2512

3.1 Planificación de hardware: niveles de VRAM y cuándo importa ARA

Qwen 2512 es grande. Para el Entrenamiento LoRA Qwen Image 2512 práctico, piensa en niveles:

24GB VRAM (común): viable, pero típicamente necesitas cuantización de bajo bit + ARA para entrenamiento a 1024
40–48GB VRAM: entrenamiento cómodo a 1024 con menos compromisos
80GB+ VRAM: configuración más simple, iteración más rápida, menos necesidad de optimizar memoria

Si estás por debajo de 24GB: a veces puedes entrenar a menor resolución (ej. 768) con tácticas agresivas de memoria, pero espera ejecuciones más lentas y estabilidad más delicada.

3.2 ARA explicado: qué es, cuándo usarlo y cómo afecta al entrenamiento

Qué es ARA

ARA (Accuracy Recovery Adapter) es un mecanismo de recuperación usado con cuantización de muy bajo bit (comúnmente 3-bit o 4-bit). El modelo base se ejecuta cuantizado para ahorrar VRAM, mientras ARA ayuda a recuperar la precisión perdida por la cuantización.

Cuándo usar ARA para Qwen 2512

Usa ARA si quieres cualquiera de estos:

Entrenar Qwen 2512 a 1024×1024 en 24GB
Menos problemas de OOM
Convergencia estable sin offload pesado a CPU

Cómo ARA afecta al entrenamiento (compromisos)

Pros

Hace viable el entrenamiento a 1024 en GPUs de consumidor
A menudo mejora la estabilidad comparado con cuantización "simple de bajo bit"

Contras

Añade partes móviles adicionales (la compatibilidad de herramientas/versiones importa)
Si la cuantización falla, puede que necesites ajustar el modo de cuantización o actualizar tu entorno

Guía práctica para Entrenamiento LoRA Qwen Image 2512

Comienza con ARA de 3-bit en 24GB
Si hay errores de cuantización, prueba ARA de 4-bit
Si los problemas persisten, usa temporalmente un modo de cuantización de mayor precisión para validar el resto de tu pipeline, luego vuelve a ARA

4. Construyendo un dataset para Qwen-Image-2512 entrenamiento LoRA

4.1 Diseño del dataset: qué recopilar para cada objetivo

La mayoría de los fallos en el Entrenamiento LoRA Qwen Image 2512 son fallos de dataset disfrazados.

Reglas universales

Convierte todo a RGB (evita escala de grises/CMYK)
Elimina imágenes rotas/corruptas
Evita casi-duplicados a menos que intencionalmente quieras que esa toma domine
Mantén la resolución consistente donde sea posible (o usa un pequeño conjunto de buckets)

Dataset de personaje (15–50 imágenes)

Apunta a:

30–60% primeros planos / cabeza y hombros
30–50% planos medios
10–20% cuerpo completo (opcional pero ayuda a la generalización de ropa/pose)

Mantén la iluminación y fondos suficientemente variados para que "identidad" sea la señal consistente.

Dataset de estilo (30–200 imágenes)

Apunta a:

Amplia variedad de sujetos (personas, objetos, entornos)
Composición y situaciones de color variadas
Señales de estilo consistentes (pincel, sombreado, paleta, grano de película, etc.)

Los LoRAs de estilo en Qwen-Image-2512 entrenamiento LoRA generalizan mejor cuando el estilo es el único factor consistente.

Dataset de producto / concepto (20–80 imágenes)

Apunta a:

Ángulos y encuadre consistentes (frontal/lateral/45 grados)
Escala del producto consistente en el encuadre (evita diferencias de zoom extremas)
Múltiples condiciones de iluminación si el material importa (mate vs brillante)
Fondos limpios ayudan al principio (puedes añadir escenas complejas después)

4.2 Captions y triggers: plantillas para Personaje / Estilo / Producto

Puedes entrenar Qwen 2512 con solo trigger o con captions cortos consistentes.

4.2.1 La regla clave de los captions

Si una característica aparece en muchas imágenes de entrenamiento pero nunca la mencionas en los captions, el modelo puede aprender que el trigger implícitamente significa esa característica—así que intentará reproducirla cada vez que uses el trigger.

Esta es una razón común por la que un LoRA "fuerza" un corte de pelo, outfit, color de fondo o estilo de cámara cada vez que se activa.

4.2.2 Plantillas de caption para personaje

Recomendado: usa un trigger. Mantén los captions cortos.

Solo trigger:
[trigger]
Caption corto:
portrait photo of [trigger], studio lighting, sharp focus

photo of [trigger], natural skin texture, realistic

Evita describir excesivamente las partes del rostro (ojos, nariz, etc.). Deja que el modelo aprenda la identidad de las imágenes.

4.2.3 Plantillas de caption para estilo

El trigger es opcional. Si usas uno, te da un interruptor de encendido/apagado.

Sin trigger, caption corto:
in a watercolor illustration style, soft edges, pastel palette
Trigger + caption corto:
[trigger], watercolor illustration, pastel palette, soft edges

Para estilo, los captions deben describir atributos de estilo, no contenido de escena.

4.2.4 Plantillas de caption para producto/concepto

El trigger es fuertemente recomendado para control.

Simple:
product photo of [trigger], clean background, studio lighting
Si el producto tiene características definitorias:
product photo of [trigger], transparent bottle, blue label, studio lighting

Evita captions largos. Para productos, la formulación consistente mejora la estabilidad de geometría.

5. Paso a paso: Entrenamiento LoRA Qwen Image 2512 en AI Toolkit

Esta sección sigue el mismo flujo que la interfaz de entrenamiento de AI Toolkit. Crea tus datasets primero, luego configura un nuevo trabajo panel por panel.

5.1 Paso 0 – Elige tu objetivo (Personaje vs Estilo vs Producto)

Antes de tocar configuraciones, decide qué estás entrenando. Esto determina los mejores valores predeterminados para captions, pasos y regularización.

Personaje / likeness: consistencia de identidad más fuerte (rostro/apariencia). Mayor riesgo de bleed y sobreajuste rápido.
Estilo: look visual consistente (paleta/textura/iluminación). Mayor riesgo de convertirse en un "filtro para todo".
Producto / concepto: identidad de objeto estable y geometría. Mayor riesgo de deriva de forma/material.

Si no estás seguro, ejecuta primero un smoke test corto (ver TRAINING + SAMPLE abajo), luego fija los pasos una vez que veas qué tan rápido tu dataset se "imprime".

5.2 Paso 1 – Crear datasets en AI Toolkit

En la interfaz de AI Toolkit, abre la pestaña Datasets.

Crea al menos un dataset (nombre de ejemplo):

my_dataset_2512

Sube tus imágenes a este dataset.

Reglas de calidad del dataset (todos los objetivos)

Convierte todo a RGB (evita escala de grises/CMYK).
Elimina archivos rotos/corruptos.
Evita casi-duplicados a menos que intencionalmente quieras que ese look/pose domine.

Tamaños de dataset sugeridos

Personaje: 15–50 imágenes
Estilo: 30–200 imágenes (más variedad ayuda)
Producto: 20–80 imágenes (encuadre consistente ayuda)

5.3 Paso 2 – Crear un nuevo Job

Abre la pestaña New Job. Configura cada panel en el orden en que aparecen.

5.3.1 Panel JOB – Training Name, GPU ID, Trigger Word

Training Name
Elige un nombre claro que reconocerás después (ej. qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).
GPU ID – en una instalación local, elige la GPU de tu máquina. En el AI Toolkit en la nube en RunComfy, deja GPU ID en el valor predeterminado. El tipo de máquina real (H100 / H200) se elige después cuando inicias el trabajo desde la Training Queue.
Trigger Word
Uso recomendado según tu objetivo:

Personaje: fuertemente recomendado (te da control limpio de encendido/apagado y ayuda a prevenir bleed).
Estilo: opcional (úsalo si quieres un "estilo invocable" en lugar de siempre activo).
Producto: fuertemente recomendado (ayuda a mantener el concepto aprendido controlable).

Si usas un trigger, tus captions pueden incluir un placeholder como [trigger] y seguir plantillas consistentes (ver abajo).

5.3.2 Panel MODEL – Model Architecture, Name or Path, Options

Model Architecture
Selecciona Qwen-Image-2512.
Name or Path
Usa Qwen/Qwen-Image-2512. En la mayoría de builds de AI Toolkit, seleccionar Qwen‑Image‑2512 autocompletará este valor.

Si lo sobrescribes, usa el formato de ID de repo de Hugging Face: org-or-user/model-name (opcionalmente org-or-user/model-name@revision).
Options

Low VRAM: actívalo para GPUs de 24GB cuando hagas Qwen-Image-2512 entrenamiento LoRA.
Layer Offloading: trátalo como último recurso si sigues teniendo OOM después de usar cuantización, menor rango y menos buckets.

Orden de offloading (mejores prácticas):

1) ARA + Low VRAM

2) Reducir rango

3) Reducir buckets de resolución

4) Reducir frecuencia/resolución de muestreo

5) Luego activar Layer Offloading

5.3.3 Panel QUANTIZATION – Transformer, Text Encoder

Aquí es donde la mayoría de ejecuciones de Entrenamiento LoRA Qwen Image 2512 en 24GB tienen éxito o fracasan.

Baseline de 24GB (recomendado para entrenamiento a 1024)

Cuantiza el Transformer y usa ARA (3-bit primero, 4-bit si es necesario).
Cuantiza el Text Encoder a float8 si necesitas margen adicional de VRAM.

GPUs con VRAM grande
Puedes reducir la cuantización o desactivarla para simplicidad si el entrenamiento es estable y suficientemente rápido.

Si la cuantización falla (errores de dtype/quantize), trátalo primero como un problema de compatibilidad de herramientas:

cambia entre ARA de 3-bit ↔ 4-bit,
actualiza AI Toolkit/dependencias,
o usa temporalmente un modo de mayor precisión para validar el resto de tu configuración de trabajo, luego vuelve a ARA.

5.3.4 Panel TARGET – Target Type, Linear Rank

Target Type: elige LoRA.
Linear Rank
Puntos de partida recomendados por objetivo:

Personaje: 32
Estilo: 16–32
Producto: 32

Reglas generales:

Si tienes OOM → reduce el rango antes de tocar todo lo demás.
Si hay underfitting → ajusta primero timesteps/steps/LR, luego considera aumentar el rango.
Si hay overfitting → reduce repeticiones/pasos, reduce rango, añade variedad, considera DOP.

5.3.5 Panel SAVE – Data Type, Save Every, Max Step Saves to Keep

Data Type: BF16 (valor predeterminado estable).
Save Every: 250 (buena cadencia de checkpoints).
Max Step Saves to Keep: 4 (mantiene el uso de disco bajo control).

5.3.6 Panel TRAINING – hiperparámetros principales

Estos son los valores predeterminados con los que empiezan la mayoría de ejecuciones:

Batch Size: 1
Gradient Accumulation: 1
Optimizer: AdamW8Bit
Learning Rate: 0.0001
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
Use EMA: OFF (para LoRAs de Qwen 2512)

Guía de Timestep Type por objetivo

Personaje: Weighted es una baseline segura; si el likeness no se fija o se ve inconsistente, prueba una configuración de timestep más amigable con identidad (a menudo mejora la impresión del personaje).
Estilo: Weighted generalmente funciona; aumenta la variedad antes de aumentar los pasos.
Producto: Weighted es una baseline estable; si la geometría deriva, reduce primero las repeticiones o ajusta los captions/trigger.

Steps: valores recomendados para Personaje vs Estilo vs Producto

Los steps no deberían ser un único número mágico. Una forma más confiable son las repeticiones por imagen:

repeticiones ≈ (steps × batch_size × grad_accum) ÷ num_images
con batch_size=1 y grad_accum=1: steps ≈ repeticiones × num_images

Si aumentas gradient accumulation a 2 o 4, reduce los steps proporcionalmente.

Repeticiones por imagen para personaje (likeness)

Smoke test: 30–50
Sweet spot típico: 50–90
Push de alto likeness: 90–120 (vigila el bleed)

Ejemplos (batch=1, accum=1):

Imágenes	30–50 rep.	50–90 rep.	90–120 rep.
15	450–750	750–1350	1350–1800
25	750–1250	1250–2250	2250–3000
40	1200–2000	2000–3600	3600–4800

Repeticiones por imagen para estilo

Smoke test: 15–30
Sweet spot típico: 25–60
Límite superior: 60–80 (solo con datasets grandes y diversos)

Ejemplos (batch=1, accum=1):

Imágenes	15–30 rep.	25–60 rep.	60–80 rep.
30	450–900	750–1800	1800–2400
100	1500–3000	2500–6000	6000–8000

Repeticiones por imagen para producto / concepto

Smoke test: 20–40
Sweet spot típico: 30–70
Push de alta fidelidad: 70–90 (solo si forma/material sigue en underfitting)

Ejemplos (batch=1, accum=1):

Imágenes	20–40 rep.	30–70 rep.	70–90 rep.
20	400–800	600–1400	1400–1800
50	1000–2000	1500–3500	3500–4500
80	1600–3200	2400–5600	5600–7200

Optimizaciones del Text Encoder (lado derecho de TRAINING)

Unload TE
Úsalo solo para flujos de trabajo de solo trigger donde quieres minimizar el uso de VRAM y no dependes de captions por imagen.
Cache Text Embeddings
Actívalo solo si:

los captions son estáticos,
caption dropout está OFF,
DOP está OFF.

Si usas caption dropout o DOP, mantenlo OFF.

Regularización (lado derecho de TRAINING)

Differential Output Preservation (DOP) puede ayudar a prevenir el bleed.

Qué hace DOP
Anima al LoRA a comportarse como un delta controlado:

efecto fuerte cuando el trigger está presente,
efecto mínimo cuando el trigger está ausente.

Cuándo activar DOP

Personaje: generalmente sí (especialmente para comportamiento limpio de trigger encendido/apagado).
Estilo: opcional (úsalo si quieres un estilo invocable).
Producto: recomendado si la identidad del producto se filtra a todo.

Regla de compatibilidad clave para Entrenamiento LoRA Qwen Image 2512

Si DOP está ON, no cachees text embeddings.

Blank Prompt Preservation

Déjalo OFF a menos que tengas una razón específica para preservar el comportamiento para prompts vacíos.

5.3.7 Panel ADVANCED – Opciones de velocidad y estabilidad

Do Differential Guidance
Ajuste opcional para aumentar la "señal de aprendizaje". Si lo activas, comienza de forma conservadora (un valor medio) y solo aumenta si el aprendizaje se siente demasiado lento.
Latent caching
En la sección DATASETS puedes activar Cache Latents (recomendado para velocidad si tienes suficiente disco y quieres iteraciones más rápidas).

5.3.8 Panel DATASETS – Target Dataset, Default Caption, Settings, Resolutions

Dentro de Dataset 1:

Target Dataset
Elige el dataset que subiste (ej. my_dataset_2512).
Default Caption
Elige según tu estrategia de caption:

solo trigger: déjalo vacío o solo [trigger]
captions cortos: usa una plantilla consistente para todo el dataset

Plantillas de caption:

Personaje: portrait photo of [trigger], studio lighting, sharp focus
Estilo: [trigger], watercolor illustration, pastel palette, soft edges (trigger opcional)
Producto: product photo of [trigger], clean background, studio lighting

Regla clave de caption

Caption Dropout Rate
0.05 es un punto de partida común cuando no estás cacheando text embeddings.

Si activas el caching de text embeddings, establece dropout en 0.
Settings

Cache Latents: recomendado para velocidad (especialmente en datasets grandes).
Is Regularization: úsalo solo si este dataset es un dataset de regularización.
Flip X / Flip Y: OFF por defecto. Solo actívalo si los volteos de espejo son seguros para tu sujeto/producto (nota: voltear puede romper texto/logos).

Resolutions
Empieza simple:

Personaje: solo 1024 (impresión limpia), añade 768 después si es necesario
Estilo: 768 + 1024 si el dataset mezcla tamaños
Producto: solo 1024 al principio, añade otro bucket una vez que la forma sea estable

5.3.9 Panel SAMPLE – vistas previas de entrenamiento

El muestreo es tu sistema de alerta temprana para el Entrenamiento LoRA Qwen Image 2512.

Valores predeterminados recomendados:

Sample Every: 250
Sampler: FlowMatch (coincidir con entrenamiento)
Guidance Scale: 4
Sample Steps: 25
Width/Height: coincidir con tu bucket principal de entrenamiento (a menudo 1024×1024)
Seed: 42
Walk Seed: opcional (más variedad en vistas previas)

Señales de parada temprana

Personaje: el likeness alcanza su pico y luego se sobrecocina; comienza el bleed de identidad; la fidelidad al prompt cae.
Estilo: se convierte en un "filtro para todo"; aparecen texturas repetitivas; los prompts dejan de ser respetados.
Producto: la geometría se deforma después de mejorar; las etiquetas/logos se vuelven demasiado asertivos; los materiales se degradan.

5.4 Paso 3 – Lanzar entrenamiento y monitorear

Después de configurar el trabajo, ve a la Training Queue, selecciona tu trabajo e inicia el entrenamiento.

Observa dos cosas:

Uso de VRAM (especialmente con GPUs de 24GB)
Imágenes de muestra (te dicen cuándo parar y qué checkpoint es mejor)

La mayoría de usuarios obtienen mejores resultados de Qwen 2512 entrenamiento LoRA seleccionando el mejor checkpoint del muestreo (a menudo antes) en lugar de siempre terminar los pasos máximos.

6. Configuraciones recomendadas de Entrenamiento LoRA Qwen Image 2512 por nivel de VRAM

Qwen 2512 es grande. Para el Qwen 2512 entrenamiento LoRA práctico, piensa en niveles:

24GB VRAM (común): viable, pero típicamente necesitas cuantización de bajo bit + ARA para entrenamiento a 1024
40–48GB VRAM: entrenamiento cómodo a 1024 con menos compromisos
80GB+ VRAM: configuración más simple, iteración más rápida, menos necesidad de optimizar memoria

Si estás por debajo de 24GB: a veces puedes entrenar a menor resolución (ej. 768) con tácticas agresivas de memoria, pero espera ejecuciones más lentas y estabilidad más delicada.

Usa ARA si quieres cualquiera de estos:

Entrenar Qwen 2512 a 1024×1024 en 24GB
Menos problemas de OOM
Convergencia estable sin offload pesado a CPU

7. Problemas comunes del Entrenamiento LoRA Qwen Image 2512 y cómo solucionarlos

7.1 La cuantización falla al inicio (ARA / desajuste de dtype en Qwen-Image-2512)

Síntomas

El entrenamiento se detiene inmediatamente durante el inicio.
Errores como "Failed to quantize … Expected dtype …".

Por qué sucede

El modo ARA o cuantización seleccionado no es completamente compatible con el build actual de AI Toolkit o el entorno.

Solución (orden más rápido)

Actualiza AI Toolkit y dependencias a una versión que se sabe que soporta Qwen-Image-2512.
Cambia el modo ARA:

Si ARA de 3-bit falla → prueba ARA de 4-bit.
Si ARA de 4-bit falla → prueba ARA de 3-bit.

Usa temporalmente un modo de cuantización de mayor precisión para confirmar que el resto de la configuración de entrenamiento funciona, luego vuelve a ARA.

7.2 La identidad del personaje se vuelve genérica cuando batch size > 1

Síntomas

Las muestras tempranas se ven prometedoras, pero el LoRA final se siente "promediado".
El personaje ya no se parece a una persona específica.

Por qué sucede

Los batches más grandes pueden fomentar la sobregeneralización en el Qwen-Image-2512 entrenamiento LoRA para personajes.

Solución

Prefiere Batch Size = 1 y Gradient Accumulation = 1.
Si necesitas un batch efectivo más grande, aumenta Gradient Accumulation en lugar de Batch Size y monitorea las muestras de cerca.

7.3 El likeness nunca "se fija" (comportamiento incorrecto de timestep)

Síntomas

La ropa, pose o vibe son correctos, pero el rostro o identidad es inconsistente.
Los resultados varían mucho entre prompts.

Por qué sucede

Para personajes realistas, Qwen-Image-2512 a menudo responde mejor al comportamiento de timestep tipo sigmoid que a timesteps ponderados.

Solución

Para LoRAs de personaje (y a menudo producto), cambia Timestep Type a sigmoid.
Evalúa las muestras temprano; no esperes hasta el final del entrenamiento.

7.4 Los rostros se "fríen" o se ven cerosos en checkpoints posteriores

Síntomas

Un checkpoint se ve genial, pero los posteriores se ven sobre-afilados, plásticos o inestables.
El bleed de identidad aumenta rápidamente.

Por qué sucede

Los LoRAs de personaje en Qwen-Image-2512 entrenamiento LoRA pueden degradarse rápidamente una vez que excedes aproximadamente ~100 repeticiones por imagen.

Solución

Selecciona un checkpoint anterior (a menudo la mejor solución).
Reduce el total de repeticiones/pasos y mantente más cerca del rango recomendado.
Si es necesario, reduce el rango del LoRA o añade más variedad al dataset antes de aumentar los pasos.

7.5 El LoRA de estilo es inconsistente o actúa como un "filtro para todo"

Síntomas

A veces el estilo aparece, a veces no.
O siempre sobrescribe el contenido del prompt.

Por qué sucede

Los LoRAs de estilo a menudo necesitan más amplitud de dataset y entrenamiento general más largo que los LoRAs de personaje.

Solución

Añade más ejemplos de estilo diversos (personas, objetos, entornos).
Mantén las repeticiones por imagen razonables y aumenta la señal total a través de más imágenes en lugar de repeticiones extremas.
Muestrea a menudo para evitar que el estilo se convierta en un filtro global contundente.

8. Usando tu LoRA Qwen 2512 después del entrenamiento

Una vez que el entrenamiento esté completo, puedes usar tu LoRA Qwen 2512 de dos formas simples:

Run LoRA – abre la página de Run LoRA de Qwen‑Image‑2512. En esta página de inferencia del modelo base, puedes seleccionar un asset LoRA que entrenaste en RunComfy o importar un archivo LoRA que entrenaste con AI Toolkit, y luego ejecutar inferencia desde el playground o vía la API. RunComfy usa el mismo modelo base y la definición completa del pipeline de AI Toolkit de tu configuración de entrenamiento, así que lo que viste durante el training es lo que obtienes en inferencia; esta alineación estrecha entre training e inference ayuda a mantener resultados consistentes con tus muestras de entrenamiento.
Flujos de trabajo ComfyUI – inicia una instancia de ComfyUI y construye tu propio flujo de trabajo o carga uno como Qwen Image 2512, añade un nodo cargador de LoRA, pon tu LoRA en él, y ajusta el peso del LoRA y otras configuraciones para un control más detallado.

Probando tu LoRA Qwen 2512 en inferencia

Pruebas de personaje

Prompt de retrato en primer plano
Prompt de plano medio
Prompt de cuerpo completo

Pruebas de estilo

Múltiples categorías de sujeto (humano/objeto/entorno)

Pruebas de producto

Prompt de estudio limpio + un prompt de escena compleja

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Tabla de contenidos

1. Visión general de Qwen‑Image‑2512: qué puede hacer este modelo de texto a imagen

Qué es el Entrenamiento LoRA Qwen Image 2512 (y qué significa "bueno")

Elige tu objetivo: Personaje vs Estilo vs Producto/Concepto

Personaje / likeness

Estilo

Producto / concepto

2. Opciones de entorno: AI Toolkit local vs AI Toolkit en la nube en RunComfy

2.1 AI Toolkit local (tu propia GPU)

2.2 AI Toolkit en la nube en RunComfy (H100 / H200)

3. Hardware y requisitos de VRAM para Entrenamiento LoRA Qwen Image 2512

3.1 Planificación de hardware: niveles de VRAM y cuándo importa ARA

3.2 ARA explicado: qué es, cuándo usarlo y cómo afecta al entrenamiento

Qué es ARA

Cuándo usar ARA para Qwen 2512

Cómo ARA afecta al entrenamiento (compromisos)

4. Construyendo un dataset para Qwen-Image-2512 entrenamiento LoRA

4.1 Diseño del dataset: qué recopilar para cada objetivo

Reglas universales

Dataset de personaje (15–50 imágenes)

Dataset de estilo (30–200 imágenes)

Dataset de producto / concepto (20–80 imágenes)

4.2 Captions y triggers: plantillas para Personaje / Estilo / Producto

4.2.1 La regla clave de los captions

4.2.2 Plantillas de caption para personaje

4.2.3 Plantillas de caption para estilo

4.2.4 Plantillas de caption para producto/concepto

5. Paso a paso: Entrenamiento LoRA Qwen Image 2512 en AI Toolkit

5.1 Paso 0 – Elige tu objetivo (Personaje vs Estilo vs Producto)

5.2 Paso 1 – Crear datasets en AI Toolkit

5.3 Paso 2 – Crear un nuevo Job

5.3.1 Panel JOB – Training Name, GPU ID, Trigger Word

5.3.2 Panel MODEL – Model Architecture, Name or Path, Options

5.3.3 Panel QUANTIZATION – Transformer, Text Encoder

5.3.4 Panel TARGET – Target Type, Linear Rank

5.3.5 Panel SAVE – Data Type, Save Every, Max Step Saves to Keep

5.3.6 Panel TRAINING – hiperparámetros principales

Steps: valores recomendados para Personaje vs Estilo vs Producto

Optimizaciones del Text Encoder (lado derecho de TRAINING)

Regularización (lado derecho de TRAINING)

5.3.7 Panel ADVANCED – Opciones de velocidad y estabilidad

5.3.8 Panel DATASETS – Target Dataset, Default Caption, Settings, Resolutions

5.3.9 Panel SAMPLE – vistas previas de entrenamiento

5.4 Paso 3 – Lanzar entrenamiento y monitorear

6. Configuraciones recomendadas de Entrenamiento LoRA Qwen Image 2512 por nivel de VRAM

7. Problemas comunes del Entrenamiento LoRA Qwen Image 2512 y cómo solucionarlos

7.1 La cuantización falla al inicio (ARA / desajuste de dtype en Qwen-Image-2512)

7.2 La identidad del personaje se vuelve genérica cuando batch size > 1

7.3 El likeness nunca "se fija" (comportamiento incorrecto de timestep)

7.4 Los rostros se "fríen" o se ven cerosos en checkpoints posteriores

7.5 El LoRA de estilo es inconsistente o actúa como un "filtro para todo"

8. Usando tu LoRA Qwen 2512 después del entrenamiento

Más guías de entrenamiento LoRA con AI Toolkit