Wan 2.2 T2V 14B Entrenamiento LoRA de texto a vídeo te permite generar clips ricos de 5 segundos con movimiento fuerte, detalles y control de cámara a partir de simples indicaciones de texto. Al final de esta guía, serás capaz de:
- Entrenar Wan 2.2 T2V 14B LoRAs con AI Toolkit para personajes consistentes, estilos marcados y comportamientos de movimiento/cámara.
- Elegir entre entrenamiento local en una GPU NVIDIA de 24GB+ (con cuantización ARA de 4 bits) y entrenamiento en la nube en GPUs H100/H200, y entender qué puede manejar cada nivel de forma realista.
- Comprender cómo los expertos de alto ruido y bajo ruido de Wan interactúan con Multi-stage, Timestep Type/Bias, Num Frames y resolución, para que puedas controlar dónde el LoRA inyecta cambios.
- Configurar AI Toolkit panel por panel (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, SAVE, TRAINING, DATASETS, SAMPLE) para adaptar la misma receta a diferentes objetivos de LoRA y hardware.
Este artículo es parte de la serie de entrenamiento LoRA de AI Toolkit. Si eres nuevo en Ostris AI Toolkit, comienza con la descripción general del entrenamiento LoRA de AI Toolkit antes de sumergirte en esta guía.
Tabla de contenidos
- 1. Descripción general de Wan 2.2 T2V 14B para entrenamiento LoRA
- 2. Dónde entrenar Wan 2.2 T2V LoRAs (local vs nube)
- 3. Expectativas de hardware y VRAM para Wan 2.2 T2V LoRAs
- 4. Construcción de un dataset de Wan 2.2 T2V LoRA
- 5. Paso a paso: entrenar un Wan 2.2 T2V 14B LoRA en AI Toolkit
- 6. Configuraciones de entrenamiento Wan 2.2 T2V 14B LoRA
- 7. Exportar y usar tu Wan T2V LoRA
1. Descripción general de Wan 2.2 T2V 14B para entrenamiento LoRA
Wan 2.2 es una familia de modelos abiertos de texto/vídeo con tres variantes principales: un modelo de texto/imagen a vídeo de 5B y dos modelos 14B (T2V e I2V). (Wan 2.2 GitHub). Esta guía se enfoca en el modelo 14B de texto a vídeo Wan2.2‑T2V‑A14B.
Diseño de doble transformer "alto ruido / bajo ruido"
Bajo el capó, Wan 2.2 14B utiliza un backbone Mixture-of-Experts de texto a vídeo para el Wan 2.2 T2V 14B Entrenamiento LoRA de texto a vídeo:
- Alto ruido: transformer de ~14B parámetros que maneja la parte inicial muy ruidosa del denoising (composición gruesa, movimiento global, cámara).
- Bajo ruido: transformer de ~14B parámetros que refina frames relativamente limpios cerca del final (detalles, textura, identidad).
En conjunto, el modelo tiene aproximadamente 27B parámetros, pero en cada paso de difusión solo un experto (≈14B parámetros) está activo. Los timesteps se dividen alrededor de t ≈ 875 de 1000 en el schedule de ruido: aproximadamente 1000→875 van al experto de alto ruido y 875→0 van al experto de bajo ruido, con desplazamiento interno para mantener una cobertura equilibrada a lo largo de la trayectoria.
Para aprender cómo entrenar una LoRA para Wan 2.2, esto significa:
- Generalmente querrás entrenar ambos expertos para que tu LoRA funcione en toda la cadena de denoising – tanto composición/movimiento como detalles/identidad.
- En GPUs más pequeñas es costoso mantener ambos transformers en VRAM e intercambiarlos en cada paso, por eso AI Toolkit expone un panel Multi-stage y opciones de Low VRAM + cuantización ARA + "Switch Every N steps" para intercambiar velocidad por VRAM.
2. Dónde entrenar Wan 2.2 T2V LoRAs (local vs nube)
Puedes seguir este tutorial en dos entornos; la interfaz de AI Toolkit es la misma.
Opción A – AI Toolkit local (tu propia GPU)
- Instala AI Toolkit desde GitHub repositorio de AI Toolkit y ejecuta la interfaz web. Esto es lo mejor si estás cómodo con CUDA/drivers y ya tienes una GPU NVIDIA de 24GB+ (RTX 4090 / 5090 / A6000, etc.).
- Debido a que Wan 2.2 14B es pesado, Macs y GPUs bajo 24GB generalmente solo son adecuados para pequeños LoRAs solo de imagen a resolución 512 (Num Frames = 1). Para un serio Wan 2.2 T2V 14B Entrenamiento LoRA de texto a vídeo realmente necesitas 24GB+ y cuantización agresiva.
Opción B – AI Toolkit en la nube en RunComfy (H100 / H200)
- Abre el AI Toolkit en la nube en RunComfy e inicia sesión. Llegas directamente a la interfaz de AI Toolkit con todas las dependencias preinstaladas.
- Para el Wan 2.2 T2V 14B Entrenamiento LoRA de texto a vídeo, elige una máquina H100 (80GB) o H200 (141GB) cuando inicies el trabajo para poder entrenar vídeos largos a mayor resolución.
Beneficios de usar la nube:
- Cero configuración – CUDA, drivers y pesos del modelo ya están configurados.
- VRAM enorme – puedes ejecutar LoRAs de 33–81 frames a resolución 768–1024 con tamaños de batch razonables sin luchar contra errores OOM.
- Workspace persistente – tus datasets, trabajos y checkpoints de LoRA viven en tu cuenta de RunComfy, para que puedas reanudar o iterar más tarde.
3. Expectativas de hardware y VRAM para Wan 2.2 T2V LoRAs
Wan 2.2 14B es mucho más pesado que los modelos de imagen o Wan 2.1:
- Los workflows oficiales de T2V a 1024×1024 y 81 frames pueden causar OOM incluso en GPUs de consumidor de gama alta si no cuantizas.
- El entrenamiento de LoRA de secuencia larga a 1024² / 81 frames puede tomar muchas horas incluso en tarjetas de servidor de 48–96GB, especialmente a 2–4k pasos.
- La configuración de ejemplo oficial de AI Toolkit para este modelo (
train_lora_wan22_14b_24gb.yaml) está optimizada para GPUs de 24GB y usa cuantización ARA de 4 bits con Num Frames = 1 (solo imagen) como valor predeterminado seguro.
Un modelo mental razonable por nivel de VRAM para el ajuste fino LoRA Wan 2.2 T2V:
| Nivel | GPUs de ejemplo | Qué es cómodo |
|---|---|---|
| 24GB "consumidor" | 4090 / 5090 / A6000 | LoRAs solo de imagen (Num Frames = 1) a 512–768 px, usando ARA de 4 bits y Low VRAM = ON. LoRAs de vídeo cortos (33–41 frames @ 512) son posibles pero lentos. |
| 48–64GB "prosumer" | dual 4090, algunas GPUs servidor | LoRAs de vídeo de 33–41 frames a 768–1024 px con ARA de 4 bits y offloading mínimo. Buen equilibrio de velocidad, capacidad y calidad. |
| 80–141GB "nube" | H100 / H200 en RunComfy | Entrenamiento de 81 frames a 1024², Batch Size 1–2, poco o nada de offloading, usando float8 o ARA de 4 bits. Ideal para LoRAs de vídeo de secuencia larga serios. |
4. Construcción de un dataset de Wan 2.2 T2V LoRA
Los Wan T2V LoRAs pueden entrenarse en:
- Imágenes – tratadas como "vídeos" de 1 frame (Num Frames = 1).
- Clips de vídeo – la verdadera fortaleza del modelo T2V; normalmente trabajarás con clips cortos de 3–8s.
4.1 Decide qué tipo de LoRA estás entrenando
Piensa en términos de tres familias amplias y diseña tu dataset en consecuencia:
- LoRA de personaje (cara / cuerpo / atuendo)
Objetivo: mantener las habilidades generales de Wan pero inyectar una nueva persona, avatar o atuendo que puedas direccionar mediante un trigger. Usa 10–30 imágenes de alta calidad o clips cortos de la misma persona, con poses, fondos e iluminación variados. Evita filtros pesados o estilización que luche contra el modelo base. Incluye un token trigger único en los captions (p.ej.
"zxq-person"), más una descripción rica de ropa, iluminación y encuadre para que el LoRA aprenda el concepto limpiamente. - LoRA de estilo (look & feel)
Objetivo: mantener el contenido flexible pero imponer un estilo visual (película, look anime, pictórico, etc.). Usa 10–40 imágenes o clips que compartan el mismo look – colores consistentes, contraste, sensación de cámara – pero con sujetos y escenas diversos. Los captions deben enfatizar palabras de estilo, p.ej.
"pintura al óleo, impasto grueso, iluminación naranja cálida, alto contraste"en lugar de enumerar objetos exactos. - LoRA de movimiento / cámara
Objetivo: enseñar a Wan comportamientos temporales (órbitas, paneos, dollies, loops tipo sprite, etc.). Usa 10–30 clips cortos (~5s) que muestren el movimiento objetivo, idealmente el mismo tipo de movimiento a través de diferentes sujetos y entornos. Los captions deben mencionar explícitamente la palabra clave de movimiento, como
"órbita 180 alrededor del sujeto","animación de ataque de desplazamiento lateral", o"zoom dolly lento hacia el personaje"para que el modelo sepa qué comportamiento te importa.
4.2 Resolución y relación de aspecto
Wan 2.2 14B T2V está construido para frames de clase cuadrada 1024×1024. Los ejemplos oficiales usan 1024² o variantes cercanas, con bucketing interno para resoluciones más bajas.
Para el Wan 2.2 T2V 14B Entrenamiento LoRA de texto a vídeo:
- En GPUs de 24GB, prefiere buckets de resolución 512 o 768 y desmarca 1024 en el panel DATASETS para ahorrar VRAM.
- En GPUs de 48GB+ o H100/H200, puedes habilitar buckets de 768 y 1024 para obtener resultados más nítidos, especialmente para LoRAs de personaje y estilo.
AI Toolkit reducirá la escala y clasificará tus vídeos en las resoluciones seleccionadas; principalmente necesitas asegurar que tus clips fuente sean de alta calidad y no tengan letterbox con grandes barras negras.
4.3 Duración del clip de vídeo y Num Frames
Wan 2.2 fue preentrenado en aproximadamente clips de 5 segundos a 16 FPS, dando alrededor de 81 frames por secuencia de entrenamiento (siguiendo un patrón 4k+1).
El campo Num Frames de AI Toolkit en el panel DATASETS controla cuántos frames se muestrean de cada vídeo:
- Para imágenes, establece Num Frames = 1 – cada imagen se trata como un vídeo de 1 frame.
- Para vídeos, buenas opciones son:
- 81 – "fidelidad completa"; coincide con el preentrenamiento pero es muy hambriento de VRAM.
- 41 – aproximadamente la mitad de los frames y aproximadamente la mitad del VRAM/tiempo; un buen punto medio para GPUs más grandes.
- 33 – una opción agresiva y amigable con VRAM para entrenamiento local de 24GB cuando se combina con resolución de 512 px.
Los frames se muestrean uniformemente a través de cada clip, así que no necesitas que cada vídeo tenga exactamente 5 segundos. Lo que importa es que el movimiento útil ocupe el clip: recorta intros/outros estáticos largos para que casi cada frame muestreado contenga señal de movimiento o identidad significativa.
Los conteos de frames típicamente se eligen para seguir el patrón "4n+1" específico de Wan (p.ej. 9, 13, 17, 21, 33, 41, 81). Seguir estos valores tiende a producir comportamiento temporal más estable porque coincide con el windowing interno del modelo.
4.4 Estrategia de captions
Los captions por clip importan más para LoRAs de vídeo que para LoRAs de imagen simples, especialmente para movimiento y estilo.
- Para LoRAs de imagen / personaje, apunta a 10–30 imágenes o clips cortos, cada uno con un caption que incluya tu trigger más una descripción, por ejemplo:
"retrato de [trigger], plano medio, iluminación de estudio, usando chaqueta de cuero, lente 35mm".En tiempo de entrenamiento AI Toolkit reemplazará
[trigger]con la Trigger Word real del panel JOB si usas ese patrón. - Para LoRAs de movimiento, asegúrate de que la palabra de movimiento aparezca y sea consistente entre clips, p.ej.:
"órbita 180 alrededor de un castillo medieval","animación de ataque de desplazamiento lateral de un oso de peluche blandiendo una espada".
Por ahora, simplemente asegura que cada imagen o clip tenga un buen caption .txt por archivo o que establecerás un Default Caption útil en el panel DATASETS. En la sección TRAINING decidiremos si ejecutar en modo basado en caption (usando estos captions directamente) o en modo solo Trigger Word en configuraciones de alto VRAM.
5. Paso a paso: entrenar un Wan 2.2 T2V 14B LoRA en AI Toolkit
En esta sección recorremos panel por panel la interfaz de AI Toolkit para un LoRA de vídeo en Wan 2.2 T2V 14B.
Suposiciones base para este recorrido:
- Estás entrenando un LoRA de vídeo (Num Frames = 33) a resolución de 512 o 768.
- Estás en una GPU de 24–32GB o ejecutando una configuración equivalente en RunComfy con trucos de Low VRAM.
- Tu dataset es una carpeta de dataset Wan T2V con vídeos + captions.
Más adelante añadiremos notas para H100/H200 y niveles de VRAM más altos.
5.1 Panel JOB – metadatos básicos del trabajo
Establece los metadatos de alto nivel para que puedas encontrar tu trabajo más tarde:
- Job Name – un nombre conciso como
wan22_t2v_char_zxq_v1owan22_t2v_style_neon_v1. Incluye modelo, tarea y un identificador corto. - Output Directory – donde AI Toolkit escribirá checkpoints y logs, p.ej.
./output/wan22_t2v_char_zxq_v1. - GPU ID – en una instalación local esto apunta a tu GPU física. En el AI Toolkit en la nube de RunComfy puedes dejarlo como predeterminado; el tipo de máquina real (H100/H200) se elige más tarde en la Training Queue.
- Trigger Word (opcional) – si planeas usar un workflow de trigger word, establécelo a tu token (por ejemplo
zxqperson). En captions puedes escribir[trigger]y AI Toolkit lo reemplazará con tu Trigger Word en tiempo de carga. Mantenlo corto y único para que no colisione con tokens existentes.
5.2 Panel MODEL – modelo base Wan 2.2 T2V
Configura el modelo base y opciones relacionadas con VRAM para el ComfyUI Wan 2.2 texto a video LoRA:
- Model Architecture – elige
Wan 2.2 T2V 14B(o etiqueta equivalente en tu build). - Name or Path – el Hugging Face model id (repo id) para el checkpoint base, por ejemplo:
ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16.En la mayoría de builds de AI Toolkit, seleccionar
Wan 2.2 T2V 14Bauto-rellenará este valor; déjalo como está a menos que tengas una razón para cambiarlo.Si lo sobrescribes, usa el formato de repo id de Hugging Face:
org-or-user/model-name(opcionalmenteorg-or-user/model-name@revision). - Low VRAM – en GPUs de 24–32GB, establece Low VRAM = ON para que AI Toolkit pueda usar estrategias extra de checkpointing/offload que hacen posible el entrenamiento. En H100/H200 o 48GB+ puedes establecer Low VRAM = OFF para máxima velocidad.
- Layer Offloading – si tu build expone esto, puedes dejarlo OFF en 24GB+ a menos que sigas teniendo OOM. En configuraciones extremadamente ajustadas puede transmitir algunas capas a RAM de CPU, a costa de pasos notablemente más lentos.
5.3 Panel QUANTIZATION – ARA de 4 bits + text encoder float8
La cuantización es lo que hace práctico el Wan 2.2 T2V 14B Entrenamiento LoRA de texto a vídeo en hardware de consumidor.
- Transformer – establece a
4bit with ARA. Esta es una cuantización de 4 bits con un Accuracy Recovery Adapter; el uso de VRAM está cerca del 4 bits puro, pero la calidad está mucho más cerca de bf16. - Text Encoder – establece a
float8(oqfloat8). Esto reduce VRAM y cómputo para el text encoder con impacto insignificante en la calidad de entrenamiento del LoRA.
En GPUs de 24–32GB, esta combinación es la razón principal por la que el entrenamiento de LoRA de vídeo es posible en absoluto.
En H100/H200 / GPUs de 48GB+:
- Puedes mantener
4bit with ARAy gastar VRAM extra en mayor resolución, más frames, o mayor rank de LoRA, lo que a menudo da mejor retorno. - Si prefieres un stack más simple, puedes cambiar el Transformer a una opción de
float8puro mientras mantienes el Text Encoder enfloat8. Volver completamente a bf16 en todas partes usualmente no es necesario.
5.4 Panel MULTISTAGE – entrenar expertos de alto y bajo ruido
Este panel expone la arquitectura de doble experto (transformer de alto ruido vs bajo ruido) y cómo se dividen los pasos de entrenamiento entre ellos.
- Stages to Train – para la mayoría de LoRAs, establece High Noise = ON y Low Noise = ON. Esto significa que ambos expertos se actualizan durante el entrenamiento para que el LoRA afecte tanto la composición/movimiento temprano como los detalles/identidad tardíos.
- Switch Every – en GPUs de 24–32GB con Low VRAM = ON, establece Switch Every = 10. Esto le dice a AI Toolkit cuántos pasos pasar en un experto antes de cambiar al otro. Por ejemplo, con Steps = 3000:
- Pasos 1–10 → experto de alto ruido
- Pasos 11–20 → experto de bajo ruido
- …repetir hasta el final del entrenamiento.
Por qué esto importa:
- Con Low VRAM = ON, AI Toolkit típicamente mantiene solo un experto en memoria GPU a la vez. Cuando cambia, descarga un transformer de ~14B parámetros y carga el otro.
- Si estableces Switch Every = 1, fuerzas una carga/descarga de pesos enormes cada paso, lo cual es extremadamente lento.
- Con Switch Every = 10, aún obtienes aproximadamente cobertura 50/50 de alto/bajo ruido, pero solo cambias cada 10 pasos en lugar de cada paso, lo cual es mucho más eficiente.
Consejos por tipo de LoRA:
- Para LoRAs de vídeo de personaje o estilo, mantén ambos High Noise y Low Noise ON; tanto composición como detalles importan.
- Para LoRAs de movimiento / cámara, el alto ruido es crucial para el movimiento global. Comienza con ambas etapas ON y luego experimenta más tarde con entrenamiento solo de alto ruido si quieres comportamiento muy dirigido.
En H100/H200:
- Puedes establecer Switch Every = 1, ya que ambos expertos pueden permanecer residentes en VRAM y el overhead de cambiar es insignificante.
5.5 Panel TARGET – rank y capacidad del LoRA
Este panel controla qué tipo de adaptador entrenas y cuánta capacidad tiene.
- Target Type – establece a
LoRA. - Linear Rank – un buen valor predeterminado es
16para Wan 2.2 T2V: - Rank 16 mantiene el LoRA pequeño y rápido de entrenar.
- Usualmente es suficiente para LoRAs de personaje, estilo y movimiento a resolución 512–768.
Si tienes un dataset muy diverso (muchos sujetos, estilos o movimientos) y suficiente VRAM:
- Puedes aumentar Linear Rank a
32para dar al LoRA más poder expresivo. - Evita ir más allá de 64 a menos que sepas que necesitas tanta capacidad; ranks muy altos pueden sobreajustar y hacer el LoRA más difícil de controlar.
En H100/H200, comenzar en Rank 16 y subir a 32 para LoRAs complejos todo-en-uno es un rango razonable.
5.6 Panel SAVE – programación de checkpoints
Configura con qué frecuencia guardar checkpoints de LoRA durante el entrenamiento:
- Data Type – establece a
BF16. Esto coincide con cómo se ejecuta usualmente Wan 2.2 y es estable para pesos de LoRA. - Save Every – establece a
250pasos. Para una ejecución de 3000 pasos esto produce 12 checkpoints distribuidos a lo largo del entrenamiento. - Max Step Saves to Keep – establece a
4o6para no perder checkpoints tempranos que podrían verse mejor que el final.
En la práctica raramente terminas usando el último checkpoint; muchos usuarios prefieren algo en el rango de 2000–3000 pasos después de comparar muestras.
En H100/H200:
- Si ejecutas muy largo (p.ej. 5000–6000 pasos para un dataset grande), mantén
Save Every = 250y aumentaMax Step Saves to Keep, o estableceSave Every = 500para limitar el número de checkpoints.
5.7 Panel TRAINING – hiperparámetros core y modo de text encoder
Ahora establecemos los hiperparámetros de entrenamiento core, luego elegimos cómo manejar el text encoder y la regularización opcional.
5.7.1 Configuraciones de entrenamiento core
Para un LoRA de vídeo de propósito general en Wan 2.2 T2V:
- Batch Size – en 24–32GB, establece Batch Size = 1. Para T2V esto ya consume mucho VRAM. En H100/H200 puedes subir a 2 si tienes suficiente margen.
- Gradient Accumulation – comienza con 1. Si VRAM es ajustado pero quieres un batch efectivo más grande, puedes establecerlo a 2–4; el tamaño de batch efectivo es
Batch Size × Gradient Accumulation. - Steps – rangos típicos:
- LoRA de movimiento pequeño y enfocado con ~10–20 clips: 1500–2500 pasos.
- LoRA de personaje o estilo con 20–50 clips: 2000–3000 pasos.
- Datasets muy grandes pueden ir más alto, pero a menudo es mejor mejorar la calidad de datos que simplemente añadir más pasos.
- Optimizer – establece Optimizer = AdamW8Bit. Adam de 8 bits reduce VRAM significativamente mientras se comporta similarmente a AdamW estándar.
- Learning Rate – establece Learning Rate = 0.0001 como un valor predeterminado fuerte. Si el entrenamiento se ve inestable o las muestras oscilan salvajemente entre pasos, bájalo a 0.00005. Si el entrenamiento parece estancarse temprano, considera aumentar los pasos en lugar de subir el Learning Rate.
- Loss Type – mantén
Mean Squared Error (MSE). Esto coincide con la pérdida de entrenamiento original de Wan y es la elección estándar.
Wan 2.2 usa un flow-matching noise scheduler, que AI Toolkit maneja internamente. En el panel SAMPLE también debes usar un sampler compatible con FlowMatch para que las previsualizaciones coincidan con la configuración de entrenamiento.
5.7.2 Timestep Type y Timestep Bias – dónde se enfoca el LoRA
Estos dos campos controlan qué timesteps se enfatizan durante el entrenamiento y cómo se distribuyen las actualizaciones a través de la cadena de difusión.
- Timestep Type – controla la distribución de timesteps:
- Linear – muestrea timesteps uniformemente a través del schedule; un valor predeterminado neutral y seguro.
- Sigmoid / otros patrones formados – sesga el entrenamiento hacia ruido medio/bajo; a veces útil para personajes y estilos detallados.
- Shift / Weighted – enfatizan más regiones específicas del schedule de ruido, a menudo combinados con Timestep Bias.
- Timestep Bias – le dice a AI Toolkit qué parte de la trayectoria enfatizar:
- Balanced – las actualizaciones se distribuyen aproximadamente por igual entre alto y bajo ruido.
- Favor High Noise – sesga hacia pasos tempranos y ruidosos, enfatizando composición, layout y movimiento global.
- Favor Low Noise – sesga hacia pasos tardíos y limpios, enfatizando identidad, textura y micro-detalles.
Combinaciones recomendadas para el ajuste fino LoRA Wan 2.2 T2V:
- LoRA de movimiento / cámara – establece Timestep Type = Linear y Timestep Bias = Balanced como valor predeterminado seguro.
Si quieres un LoRA de movimiento puro que realmente fije trayectorias de cámara, puedes empujar esto más hacia Timestep Bias = Favor High Noise, ya que el experto de alto ruido es donde Wan 2.2 decide layout y movimiento.
- LoRA de estilo – establece Timestep Type = Linear o Shift y Timestep Bias = Favor High Noise.
El estilo, la gradación de color y el "film stock" viven principalmente en la parte de alto ruido / temprana de la trayectoria, así que favorecer alto ruido permite al LoRA reescribir el tono global mientras deja los detalles de etapa tardía principalmente al modelo base.
- LoRA de personaje – establece Timestep Type = Sigmoid (o Linear) y Timestep Bias = Balanced.
La identidad y el parecido se apoyan más en el experto de bajo ruido, pero aún quieres algo de influencia en composición e iluminación. Para LoRAs muy enfocados en identidad puedes experimentar favoreciendo ligeramente los pasos de bajo ruido, pero Balanced es el valor predeterminado más seguro.
5.7.3 EMA (Exponential Moving Average)
- Use EMA – para LoRAs, EMA es opcional y añade overhead extra. La mayoría de usuarios lo dejan OFF para LoRAs de Wan 2.2 y reservan EMA para entrenamiento de modelo completo. Es seguro ignorar EMA a menos que sepas que quieres ensamblar pesos más suaves.
5.7.4 Optimizaciones de Text Encoder – modo caption vs trigger-word
Estos interruptores controlan si el text encoder permanece cargado y si los embeddings se cachean.
- Unload TE – si se establece ON, AI Toolkit removerá el text encoder del VRAM entre pasos y se apoyará en embeddings estáticos (p.ej. un Trigger Word), efectivamente apagando el captioning dinámico durante el entrenamiento. Esto ahorra VRAM pero significa que los captions no se re-encodificarán cada paso.
- Cache Text Embeddings – cuando se establece ON, AI Toolkit ejecuta el text encoder una vez por caption, cachea los embeddings, y luego libera de forma segura el text encoder del VRAM. Esto es altamente recomendado para entrenamiento basado en caption en VRAM restringido, ya que evita re-encodificar cada paso pero aún usa tus captions por clip.
Patrones típicos:
- Para entrenamiento basado en caption de 24–32GB, establece Cache Text Embeddings = ON y deja Unload TE = OFF. Esto te da entrenamiento eficiente con información completa de caption.
- Para entrenamiento solo de Trigger Word en VRAM muy alto (H100/H200), puedes establecer Unload TE = ON y apoyarte en un único token trigger en lugar de captions completos.
5.7.5 Differential Output Preservation (DOP)
Differential Output Preservation es una regularización opcional que alienta al LoRA a comportarse como un edit residual puro del modelo base:
- AI Toolkit renderiza dos predicciones:
- una con el modelo base (sin LoRA), y
- una con el LoRA habilitado.
- Penaliza diferencias entre estas salidas excepto donde explícitamente quieres cambio (mediante tu Trigger Word y captions).
Campos clave:
- Differential Output Preservation – interruptor principal.
- DOP Loss Multiplier – fuerza de la pérdida de regularización.
- DOP Preservation Class – un token de clase como
person,scene, olandscapeque describe qué debe preservarse.
Uso:
- Para LoRAs de estilo y personaje, DOP puede ayudar a mantener intacto el excelente realismo base de Wan mientras el LoRA añade una modificación controlada. Una receta simple:
- Differential Output Preservation = ON
- DOP Loss Multiplier = 1
- DOP Preservation Class =
personpara LoRAs de personaje, oscene/landscapepara LoRAs de estilo amplios si está disponible. - Para LoRAs de movimiento / cámara, usualmente no necesitas DOP; el cambio de comportamiento ya está localizado, y DOP aproximadamente duplica el cómputo.
Nota importante de compatibilidad:
- DOP funciona reescribiendo prompts cada paso (intercambiando tu Trigger Word con la Preservation Class en una de las ramas). Por esto, DOP requiere que el text encoder re-encodifique prompts cada paso, y no es compatible con Cache Text Embeddings.
- Si activas DOP ON:
- debes establecer un Trigger Word en el panel JOB,
- y debes mantener Cache Text Embeddings = OFF para que el text encoder permanezca activo y pueda re-encodificar los prompts modificados cada paso.
En H100/H200, el costo de cómputo extra de DOP usualmente es aceptable para LoRAs de personaje y estilo de alta calidad.
5.8 Panel ADVANCED – Differential Guidance (opcional)
Si tu build expone un panel ADVANCED con:
- Do Differential Guidance
- Differential Guidance Scale
puedes tratarlo como un truco adicional específico de AI-Toolkit:
- Activar Do Differential Guidance = ON con Scale = 3 le dice al modelo que se enfoque más en la diferencia entre predicciones base y modificadas por LoRA, similar en espíritu a DOP pero implementado como un término de guidance.
- Esto puede hacer que edits dirigidos (p.ej. "estilo de contorno neón" o "comportamiento de cámara órbita") converjan más rápido sin subir el Learning Rate.
- Si las muestras se ven inestables o muy nítidas temprano en el entrenamiento, puedes bajar la scale a 2. Si el aprendizaje se siente muy lento, puedes experimentar con 4.
La mayoría de usuarios pueden dejar esto OFF de forma segura para sus primeros LoRAs de Wan 2.2 y experimentar una vez que estén cómodos.
5.9 Panel DATASETS – conectando tu dataset Wan T2V
Cada bloque de Dataset corresponde a una entrada en la lista interna datasets:.
Para un único dataset Wan T2V:
- Target Dataset – selecciona tu carpeta de dataset Wan T2V (p.ej.
wan_orbit_clipsowan_char_zxq_clips) que contiene tus vídeos y captions. - LoRA Weight – establece a 1 a menos que mezcles múltiples datasets y quieras rebalancearlos.
- Default Caption – usado solo cuando clips individuales no tienen caption
.txt. Por ejemplo: - Personaje/estilo:
"retrato de zxqperson, zxqstyle, iluminación cinematográfica". - Movimiento:
"órbita 360 alrededor del sujeto, zxq_orbit". - Caption Dropout Rate – un valor como 0.05 omite captions para 5% de las muestras para que el modelo también preste atención a lo visual en lugar de sobreajustar frases.
Si dependes mucho de Cache Text Embeddings, sé conservador aquí; caption dropout es más efectivo cuando el text encoder está activo y los captions pueden variar.
- Settings → Cache Latents – para LoRAs de vídeo esto usualmente está OFF porque cachear latents del VAE para muchos frames es pesado en disco y RAM. Mantén tus vídeos fuente de alta calidad en su lugar.
- Settings → Is Regularization – deja OFF a menos que tengas un dataset de regularización dedicado.
- Flipping (Flip X / Flip Y) – para la mayoría de LoRAs de vídeo mantén ambos OFF:
- los flips horizontales pueden romper la semántica de movimiento izquierda/derecha y la asimetría del personaje,
- los flips verticales raramente son apropiados para metraje del mundo real.
- Resolutions – habilita las resoluciones en las que quieres que AI Toolkit agrupe:
- En 24–32GB, habilita 512, opcionalmente 768 si VRAM lo permite, y deshabilita 1024+.
- En H100/H200, puedes habilitar 768 y 1024 para coincidir con el punto de operación preferido del modelo.
- Num Frames – establece Num Frames = 33 para la receta base de LoRA de vídeo de 24–32GB.
33 sigue la regla 4n+1 (4·8+1), aproximadamente reduce a la mitad el costo vs entrenamiento completo de 81 frames mientras sigue dando un patrón temporal claro.
AI Toolkit muestreará 33 frames uniformemente a lo largo de la duración de cada clip; solo necesitas recortar clips para que el movimiento que te importa abarque la mayoría del clip.
En H100/H200, puedes subir Num Frames a 41 u 81, y combinar eso con buckets de 768–1024 px y Rank 16–32 para LoRAs de secuencia larga muy fuertes.
5.10 Panel SAMPLE – previsualizando tu LoRA
El panel SAMPLE es para generar vídeos de previsualización durante o después del entrenamiento.
Configuraciones útiles:
- Num Frames – haz coincidir esto aproximadamente con el valor de entrenamiento (p.ej. 33 o 41) para que el comportamiento sea predecible.
- Sampler / Scheduler – usa un sampler compatible con FlowMatch que se alinee con el schedule de ruido del modelo.
- Prompt / Negative Prompt – usa el mismo Trigger Word y conceptos en los que entrenaste para que puedas juzgar rápidamente si el LoRA está haciendo lo correcto.
- Guidance Scale – durante previsualizaciones de entrenamiento, valores moderados (p.ej. 2–4) están bien; recuerda que podrías usar valores diferentes en tus workflows de inferencia normales más tarde.
Genera muestras en múltiples checkpoints (p.ej. cada 250–500 pasos) y guarda las que visualmente balanceen fuerza y estabilidad.
6. Configuraciones de entrenamiento Wan 2.2 T2V 14B LoRA
Esta sección resume recetas prácticas para los tres tipos principales de LoRA.
6.1 LoRA de vídeo de personaje (identidad / avatar)
Objetivo: preservar la cara, cuerpo e identidad general de un personaje a través de muchos prompts y escenas.
Dataset:
- 10–30 clips cortos o imágenes del personaje, con poses, fondos e iluminación variados.
- Los captions incluyen un Trigger Word y clase, por ejemplo:
"retrato de [trigger], mujer joven, ropa casual, iluminación de estudio".
Configuraciones clave para el Wan 2.2 T2V 14B Entrenamiento LoRA de texto a vídeo:
- Num Frames – 33 en 24GB; 41 u 81 en H100/H200.
- Resolutions – 512 o 768; añade 1024 en alto VRAM.
- Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) o 1 (nube).
- Timestep Type / Bias – Linear (o Sigmoid) con Balanced bias, para que captures tanto composición como detalle de identidad de bajo ruido.
- Linear Rank – 16 (24GB) o 16–32 (H100/H200) para identidad más matizada.
- DOP – opcionalmente habilitar para LoRAs de personaje cuando quieras preservar realismo base:
- Differential Output Preservation = ON
- DOP Loss Multiplier = 1
- DOP Preservation Class =
person - Cache Text Embeddings = OFF (requerido para que DOP funcione)
- Steps – 2000–3000, verificando muestras cada 250–500 pasos.
6.2 LoRA de vídeo de estilo (look de película / anime / gradación de color)
Objetivo: imponer un estilo visual fuerte mientras se mantiene el contenido flexible.
Dataset:
- 10–40 imágenes o clips que compartan el mismo estilo a través de diferentes sujetos y escenas.
- Los captions describen el look (p.ej. film stock, pinceladas, paleta) en lugar de los objetos exactos.
Configuraciones clave para cómo entrenar una LoRA para Wan 2.2:
- Num Frames – 33–41 para la mayoría de casos de uso; 81 en GPUs grandes para clips de 5s.
- Resolutions – 512–768 en 24GB; 768–1024 en alto VRAM.
- Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) o 1 (nube).
- Timestep Type / Bias – Linear o Shift con Timestep Bias = Favor High Noise, para que el LoRA pueda reescribir color global y contraste donde la composición aún es fluida.
- Linear Rank – 16 para estilos simples; 16–32 para looks complejos, cinematográficos.
- DOP – recomendado para LoRAs de estilo cuando quieras preservar realismo base:
- Differential Output Preservation = ON
- DOP Loss Multiplier = 1
- DOP Preservation Class =
scene/landscapeo similar - Cache Text Embeddings = OFF
- Steps – 1500–2500, deteniéndose cuando el estilo se vea fuerte pero no sobrecargado.
6.3 LoRA de movimiento / cámara (órbitas, paneos, movimientos dolly)
Objetivo: aprender nuevos movimientos de cámara o patrones de movimiento que puedas aplicar a muchos sujetos.
Dataset:
- 10–30 clips de 3–8s, cada uno mostrando el movimiento objetivo.
- Mantén el movimiento consistente (p.ej. todos son
órbita 180o todos sondesplazamiento lateral), pero varía sujetos y escenas. - Los captions declaran explícitamente la palabra clave de movimiento (
"órbita 180 alrededor del sujeto","animación de ataque de desplazamiento lateral").
Configuraciones clave para el ComfyUI Wan 2.2 texto a video LoRA:
- Num Frames – 33 en 24GB, 41–81 en GPUs más grandes.
- Resolutions – 512 (y 768 si VRAM lo permite).
- Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) o 1 (nube).
- Timestep Type / Bias – Linear con Timestep Bias = Balanced, para que tanto la composición temprana como el refinamiento posterior vean actualizaciones; el movimiento inherentemente se apoya en alto ruido.
- Linear Rank – Rank 16 usualmente es suficiente; el movimiento es más sobre comportamiento que detalles pequeños.
- DOP – usualmente mantener OFF; el movimiento ya está localizado y DOP duplica forward passes.
- Steps – 1500–2500; observa previsualizaciones para asegurar que el movimiento generalice más allá de tus clips de entrenamiento.
7. Exportar y usar tu Wan T2V LoRA
Una vez que el entrenamiento está completo, puedes usar tu Wan 2.2 T2V 14B LoRA de dos formas simples:
- Model playground – abre el Wan 2.2 T2V 14B LoRA playground y pega la URL de tu LoRA entrenado para ver rápidamente cómo se comporta sobre el modelo base.
- Workflows de ComfyUI – inicia una instancia de ComfyUI y construye tu propio workflow, añade tu LoRA y ajusta el peso del LoRA y otras configuraciones para control más detallado.
Más guías de entrenamiento LoRA de AI Toolkit
- Wan 2.2 I2V 14B entrenamiento LoRA de imagen a vídeo
- FLUX.2 [dev] entrenamiento LoRA con AI Toolkit
- Z-Image Turbo entrenamiento LoRA con AI Toolkit (8-step Turbo)
- Qwen-Image-Edit-2511 entrenamiento LoRA con AI Toolkit (edición multi-imagen)
- Qwen-Image-Edit-2509 entrenamiento LoRA con AI Toolkit (edición multi-imagen)
- Qwen Image 2512 entrenamiento LoRA
Ready to start training?

