AI Toolkit LoRA Training Guides

Wan 2.2 T2V 14B Text-to-Video LoRA Training mit Ostris AI Toolkit

Dieser Artikel zeigt, wie du Wan 2.2 T2V 14B Text-to-Video LoRAs mit dem Ostris AI Toolkit trainierst – von 24GB Consumer-GPUs bis zu H100/H200 Cloud-Servern. Er erklärt die High-Noise- und Low-Noise-Experts von Wan, den Aufbau von Character-, Style- und Motion-Datasets sowie das Tuning von Multi-stage, Timestep Type/Bias, 4-bit ARA-Quantisierung und Frame Counts für stabile, lange Videosequenzen.

Train Diffusion Models with Ostris AI Toolkit

Horizontal scrollen, um das vollständige Formular zu sehen

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Wan 2.2 T2V 14B Text-zu-Video LoRA-Training ermöglicht es Ihnen, reichhaltige 5-Sekunden-Clips mit starker Bewegung, Details und Kamerasteuerung aus einfachen Textanweisungen zu generieren. Nach diesem Leitfaden werden Sie in der Lage sein:

  • Wan 2.2 T2V 14B LoRAs mit AI Toolkit zu trainieren für konsistente Charaktere, markante Stile und Bewegungs-/Kameraverhalten.
  • Zwischen lokalem Training auf einer 24GB+ NVIDIA GPU (mit 4-Bit ARA-Quantisierung) und Cloud-Training auf H100/H200 GPUs zu wählen und zu verstehen, was jede Stufe realistisch bewältigen kann.
  • Zu verstehen, wie Wans High-Noise- und Low-Noise-Experten mit Multi-Stage, Timestep Type/Bias, Num Frames und Auflösung interagieren, damit Sie steuern können, wo das LoRA Änderungen einbringt.
  • AI Toolkit Panel für Panel zu konfigurieren (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, SAVE, TRAINING, DATASETS, SAMPLE), damit Sie dasselbe Rezept an verschiedene LoRA-Ziele und Hardware anpassen können.
Dieser Artikel ist Teil der AI Toolkit LoRA-Trainingsserie. Wenn Sie neu bei Ostris AI Toolkit sind, beginnen Sie mit der AI Toolkit LoRA-Training Übersicht, bevor Sie in diesen Leitfaden eintauchen.

Inhaltsverzeichnis


1. Wan 2.2 T2V 14B Überblick für LoRA-Training

Wan 2.2 ist eine Familie offener Text/Video-Modelle mit drei Hauptvarianten: einem 5B Text/Bild-zu-Video-Modell und zwei 14B-Modellen (T2V und I2V). (Wan 2.2 GitHub). Dieser Leitfaden zielt auf das 14B Text-zu-Video-Modell Wan2.2‑T2V‑A14B ab.

Dual-Transformer "High Noise / Low Noise" Design

Unter der Haube verwendet Wan 2.2 14B ein Mixture-of-Experts Text-zu-Video-Backbone für das Wan 2.2 T2V 14B Text-zu-Video LoRA-Training:

  • High-Noise: ~14B-Parameter-Transformer, der den sehr verrauschten frühen Teil der Entrauschung behandelt (grobe Komposition, globale Bewegung, Kamera).
  • Low-Noise: ~14B-Parameter-Transformer, der relativ saubere Frames gegen Ende verfeinert (Details, Textur, Identität).

Zusammen hat das Modell etwa 27B Parameter, aber bei jedem Diffusionsschritt ist nur ein Experte (≈14B Parameter) aktiv. Timesteps werden bei etwa t ≈ 875 von 1000 im Noise-Schedule aufgeteilt: ungefähr 1000→875 gehen zum High-Noise-Experten und 875→0 zum Low-Noise-Experten, mit interner Verschiebung für ausgeglichene Abdeckung über die Trajektorie.

Für die Wan2.2-T2V-A14B LoRA Feinabstimmung bedeutet dies:

  • Sie möchten im Allgemeinen beide Experten trainieren, damit Ihr LoRA über die gesamte Entrauschungskette funktioniert – sowohl Komposition/Bewegung als auch Details/Identität.
  • Auf kleineren GPUs ist es teuer, beide Transformer im VRAM zu halten und bei jedem Schritt zu wechseln, weshalb AI Toolkit ein Multi-Stage-Panel und Low VRAM + ARA-Quantisierung + "Switch Every N Steps"-Optionen bereitstellt, um Geschwindigkeit gegen VRAM zu tauschen.

2. Wo man Wan 2.2 T2V LoRAs trainiert (lokal vs. Cloud)

Sie können diesem Tutorial in zwei Umgebungen folgen; die AI Toolkit-Oberfläche ist dieselbe.

Option A – Lokales AI Toolkit (Ihre eigene GPU)

  • Installieren Sie AI Toolkit von GitHub AI Toolkit Repository und führen Sie die Web-Oberfläche aus. Dies ist am besten, wenn Sie mit CUDA/Treibern vertraut sind und bereits eine 24GB+ NVIDIA GPU haben (RTX 4090 / 5090 / A6000, usw.).
  • Da Wan 2.2 14B ressourcenintensiv ist, sind Macs und GPUs unter 24GB im Allgemeinen nur für winzige Nur-Bild-LoRAs bei 512 Auflösung (Num Frames = 1) geeignet. Für ernsthaftes Wan 2.2 T2V 14B Text-zu-Video LoRA-Training brauchen Sie wirklich 24GB+ und aggressive Quantisierung.

Option B – Cloud AI Toolkit auf RunComfy (H100 / H200)

  • Öffnen Sie das Cloud AI Toolkit auf RunComfy und melden Sie sich an. Sie landen direkt in der AI Toolkit-Oberfläche mit allen vorinstallierten Abhängigkeiten.
  • Für das Wan 2.2 T2V 14B Text-zu-Video LoRA-Training wählen Sie eine H100 (80GB) oder H200 (141GB) Maschine, wenn Sie den Job starten, damit Sie lange Videos mit höherer Auflösung trainieren können.

Vorteile der Cloud-Nutzung:

  • Kein Setup – CUDA, Treiber und Modellgewichte sind bereits konfiguriert.
  • Riesiger VRAM – Sie können 33–81 Frame LoRAs bei 768–1024 Auflösung mit vernünftigen Batch-Größen ausführen, ohne OOM-Fehler zu bekämpfen.
  • Persistenter Workspace – Ihre Datensätze, Jobs und LoRA-Checkpoints leben in Ihrem RunComfy-Konto, sodass Sie später fortsetzen oder iterieren können.

3. Hardware & VRAM-Erwartungen für Wan 2.2 T2V LoRAs

Wan 2.2 14B ist viel schwerer als Bildmodelle oder Wan 2.1:

  • Offizielle T2V-Workflows bei 1024×1024 und 81 Frames können sogar auf High-End-Consumer-GPUs OOM verursachen, wenn Sie nicht quantisieren.
  • Lang-Sequenz-LoRA-Training bei 1024² / 81 Frames kann viele Stunden dauern, selbst auf 48–96GB Server-Karten, besonders bei 2–4k Schritten.
  • Die offizielle AI Toolkit Beispielkonfiguration für dieses Modell (train_lora_wan22_14b_24gb.yaml) ist für 24GB GPUs optimiert und verwendet 4-Bit ARA-Quantisierung mit Num Frames = 1 (nur Bild) als sichere Standardeinstellung.

Ein vernünftiges mentales Modell nach VRAM-Stufe für WAN 2.2 LoRA Training High Noise Low Noise:

Stufe Beispiel-GPUs Was komfortabel ist
24GB "Consumer" 4090 / 5090 / A6000 Nur-Bild-LoRAs (Num Frames = 1) bei 512–768 px, mit 4-Bit ARA und Low VRAM = AN. Kurze Video-LoRAs (33–41 Frames @ 512) sind möglich, aber langsam und VRAM-eng.
48–64GB "Prosumer" Dual 4090, einige Server-GPUs 33–41 Frame Video-LoRAs bei 768–1024 px mit 4-Bit ARA und minimalem Offloading. Gute Balance aus Geschwindigkeit, Kapazität und Qualität.
80–141GB "Cloud" H100 / H200 auf RunComfy 81-Frame-Training bei 1024², Batch Size 1–2, wenig oder kein Offloading, mit float8 oder 4-Bit ARA. Ideal für ernsthaftes, lang-sequenzielles Video-LoRA-Training.

4. Aufbau eines Wan 2.2 T2V LoRA-Datensatzes

Wan T2V LoRAs können trainiert werden auf:

  • Bilder – behandelt als 1-Frame-"Videos" (Num Frames = 1).
  • Videoclips – die wahre Stärke des T2V-Modells; Sie werden normalerweise mit kurzen 3–8s Clips arbeiten.

4.1 Entscheiden Sie, welche Art von LoRA Sie trainieren

Denken Sie in drei breiten Familien und gestalten Sie Ihren Datensatz entsprechend:

  1. Charakter-LoRA (Gesicht / Körper / Outfit)

    Ziel: Wans allgemeine Fähigkeiten beibehalten, aber eine neue Person, einen Avatar oder ein Outfit einbringen, das Sie über einen Trigger ansprechen können. Verwenden Sie 10–30 hochwertige Bilder oder kurze Clips derselben Person mit verschiedenen Posen, Hintergründen und Beleuchtung. Vermeiden Sie starke Filter oder Stilisierung, die gegen das Basismodell kämpfen. Fügen Sie ein einzigartiges Trigger-Token in Bildunterschriften ein (z.B. "zxq-person"), plus eine reichhaltige Beschreibung von Kleidung, Beleuchtung und Bildausschnitt, damit das LoRA das Konzept sauber lernt.

  2. Stil-LoRA (Look & Feel)

    Ziel: Inhalt flexibel halten, aber einen visuellen Stil auferlegen (Filmstock, Anime-Look, malerisch, usw.). Verwenden Sie 10–40 Bilder oder Clips, die denselben Look teilen – konsistente Farben, Kontrast, Kameragefühl – aber mit verschiedenen Motiven und Szenen. Bildunterschriften sollten stark auf Stilwörter setzen, z.B. "Ölgemälde, dicker Impasto, warme orangefarbene Beleuchtung, hoher Kontrast" anstatt exakte Objekte aufzuzählen.

  3. Bewegungs-/Kamera-LoRA

    Ziel: Wan temporale Verhaltensweisen beibringen (Orbits, Schwenks, Dollies, Sprite-artige Schleifen, usw.). Verwenden Sie 10–30 kurze Clips (~5s), die die Zielbewegung zeigen, idealerweise dieselbe Art von Bewegung über verschiedene Motive und Umgebungen. Bildunterschriften müssen das Bewegungskeyword explizit erwähnen, wie "Orbit 180 um das Motiv", "Seitwärts-scrollende Angriffsanimation", oder "langsamer Dolly-Zoom auf den Charakter", damit das Modell weiß, welches Verhalten Sie interessiert.


4.2 Auflösung und Seitenverhältnis

Wan 2.2 14B T2V ist für quadratische 1024×1024-Klasse-Frames gebaut. Offizielle Beispiele verwenden 1024² oder nahe Varianten, mit internem Bucketing für niedrigere Auflösungen.

Für das Wan 2.2 T2V 14B Text-zu-Video LoRA-Training:

  • Auf 24GB GPUs bevorzugen Sie 512 oder 768 Auflösungs-Buckets und deaktivieren Sie 1024 im DATASETS-Panel, um VRAM zu sparen.
  • Auf 48GB+ GPUs oder H100/H200 können Sie sowohl 768 als auch 1024 Buckets aktivieren, um schärfere Ergebnisse zu erhalten, besonders für Charakter- und Stil-LoRAs.

AI Toolkit wird Ihre Videos herunterskalieren und in die ausgewählten Auflösungen bucketen; Sie müssen hauptsächlich sicherstellen, dass Ihre Quellclips hochwertig sind und nicht mit riesigen schwarzen Balken letterboxed sind.


4.3 Videocliplänge und Num Frames

Wan 2.2 wurde auf ungefähr 5-Sekunden-Clips bei 16 FPS vortrainiert, was etwa 81 Frames pro Trainingssequenz ergibt (nach einem 4k+1-Muster).

Das Num Frames-Feld von AI Toolkit im DATASETS-Panel steuert, wie viele Frames aus jedem Video gesampelt werden:

  • Für Bilder setzen Sie Num Frames = 1 – jedes Bild wird als 1-Frame-Video behandelt.
  • Für Videos sind gute Optionen:
    • 81 – "volle Treue"; entspricht dem Vortraining, ist aber sehr VRAM-hungrig.
    • 41 – etwa die Hälfte der Frames und ungefähr die Hälfte des VRAM/der Zeit; ein starker Mittelweg für größere GPUs.
    • 33 – eine aggressive, VRAM-freundliche Option für 24GB lokales Training in Kombination mit 512 px Auflösung.

Frames werden gleichmäßig über jeden Clip gesampelt, sodass nicht jedes Video genau 5 Sekunden lang sein muss. Was zählt, ist, dass die nützliche Bewegung den Clip einnimmt: Schneiden Sie lange statische Intros/Outros weg, sodass fast jeder gesampelte Frame bedeutungsvolle Bewegung oder Identitätssignal enthält.

Frame-Anzahlen werden typischerweise gewählt, um dem Wan-spezifischen "4n+1"-Muster zu folgen (z.B. 9, 13, 17, 21, 33, 41, 81). Das Einhalten dieser Werte tendiert dazu, stabileres temporales Verhalten zu produzieren, da es dem internen Windowing des Modells entspricht.


4.4 Bildunterschriften-Strategie

Per-Clip-Bildunterschriften sind wichtiger für Video-LoRAs als für einfache Bild-LoRAs, besonders für Bewegung und Stil.

  • Für Bild-/Charakter-LoRAs streben Sie 10–30 Bilder oder kurze Clips an, jeweils mit einer Bildunterschrift, die Ihren Trigger plus eine Beschreibung enthält, zum Beispiel:

    "Porträt von [trigger], Halbtotale, Studiobeleuchtung, trägt eine Lederjacke, 35mm Objektiv".

    Zur Trainingszeit ersetzt AI Toolkit [trigger] durch das tatsächliche Trigger Word aus dem JOB-Panel, wenn Sie dieses Muster verwenden.

  • Für Bewegungs-LoRAs stellen Sie sicher, dass das Bewegungswort erscheint und über Clips konsistent ist, z.B.:

    "Orbit 180 um eine mittelalterliche Burg",

    "seitwärts-scrollende Angriffsanimation eines Teddybären, der ein Schwert schwingt".

Stellen Sie vorerst einfach sicher, dass jedes Bild oder jeder Clip entweder eine gute Per-Datei .txt-Bildunterschrift hat oder dass Sie eine nützliche Default Caption im DATASETS-Panel setzen werden. Im TRAINING-Abschnitt werden wir entscheiden, ob wir im bildunterschriftenbasierten Modus (mit diesen Bildunterschriften direkt) oder im Nur-Trigger-Word-Modus auf High-VRAM-Setups laufen.


5. Schritt für Schritt: Wan 2.2 T2V 14B LoRA im AI Toolkit trainieren

In diesem Abschnitt gehen wir Panel für Panel durch die AI Toolkit-Oberfläche für ein Video-LoRA auf Wan 2.2 T2V 14B.

Grundannahmen für diese Anleitung:

  • Sie trainieren ein Video-LoRA (Num Frames = 33) bei 512 oder 768 Auflösung.
  • Sie sind auf einer 24–32GB GPU oder führen ein äquivalentes Setup auf RunComfy mit Low VRAM-Tricks aus.
  • Ihr Datensatz ist ein Wan T2V Datensatzordner mit Videos + Bildunterschriften.

Später werden wir Hinweise für H100/H200 und höhere VRAM-Stufen hinzufügen.


5.1 JOB-Panel – grundlegende Job-Metadaten

Setzen Sie die High-Level-Metadaten, damit Sie Ihren Job später finden können:

  • Job Name – ein prägnanter Name wie wan22_t2v_char_zxq_v1 oder wan22_t2v_style_neon_v1. Fügen Sie Modell, Aufgabe und einen kurzen Bezeichner ein.
  • Output Directory – wo AI Toolkit Checkpoints und Logs schreiben wird, z.B. ./output/wan22_t2v_char_zxq_v1.
  • GPU ID – bei einer lokalen Installation zeigt dies auf Ihre physische GPU. Auf dem RunComfy Cloud AI Toolkit können Sie dies als Standard belassen; der tatsächliche Maschinentyp (H100/H200) wird später in der Training Queue gewählt.
  • Trigger Word (optional) – wenn Sie einen Trigger-Word-Workflow planen, setzen Sie dies auf Ihr Token (zum Beispiel zxqperson). In Bildunterschriften können Sie [trigger] schreiben und AI Toolkit wird es zur Ladezeit durch Ihr Trigger Word ersetzen. Halten Sie es kurz und einzigartig, damit es nicht mit bestehenden Tokens kollidiert.

5.2 MODEL-Panel – Wan 2.2 T2V Basismodell

Konfigurieren Sie das Basismodell und VRAM-bezogene Optionen für das ComfyUI Wan 2.2 Text-zu-Video LoRA Training:

  • Model Architecture – wählen Sie Wan 2.2 T2V 14B (oder äquivalente Bezeichnung in Ihrem Build).
  • Name or Path – die Hugging Face Model ID (Repo-ID) für den Basis-Checkpoint, zum Beispiel: ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16.

    In den meisten AI Toolkit-Builds wird die Auswahl von Wan 2.2 T2V 14B diesen Wert automatisch ausfüllen; lassen Sie ihn unverändert, es sei denn, Sie haben einen Grund, ihn zu ändern.

    Wenn Sie ihn überschreiben, verwenden Sie das Hugging Face Repo-ID-Format: org-or-user/model-name (optional org-or-user/model-name@revision).

  • Low VRAM – auf 24–32GB GPUs setzen Sie Low VRAM = AN, damit AI Toolkit zusätzliche Checkpointing/Offload-Strategien verwenden kann, die das Training ermöglichen. Auf H100/H200 oder 48GB+ können Sie Low VRAM = AUS für maximale Geschwindigkeit setzen.
  • Layer Offloading – wenn Ihr Build dies bereitstellt, können Sie es auf 24GB+ AUS lassen, es sei denn, Sie stoßen immer noch auf OOM. Bei extrem engen Setups kann es einige Layer in CPU-RAM streamen, auf Kosten merklich langsamerer Schritte.

5.3 QUANTIZATION-Panel – 4-Bit ARA + float8 Text Encoder

Quantisierung ist es, was das Wan 2.2 T2V 14B Text-zu-Video LoRA-Training auf Consumer-Hardware praktikabel macht.

  • Transformer – setzen Sie auf 4bit with ARA. Dies ist eine 4-Bit-Quantisierung mit einem Accuracy Recovery Adapter; VRAM-Nutzung liegt nahe bei reinem 4-Bit, aber die Qualität ist viel näher an bf16.
  • Text Encoder – setzen Sie auf float8 (oder qfloat8)**. Dies reduziert VRAM und Rechenaufwand für den Text Encoder mit vernachlässigbarem Einfluss auf die LoRA-Trainingsqualität.

Auf 24–32GB GPUs ist diese Kombination der Hauptgrund, warum Video-LoRA-Training überhaupt möglich ist.

Auf H100/H200 / 48GB+ GPUs:

  • Sie können 4bit with ARA beibehalten und zusätzlichen VRAM für höhere Auflösung, mehr Frames oder höheren LoRA-Rank ausgeben, was oft eine bessere Rendite bringt.
  • Wenn Sie einen einfacheren Stack bevorzugen, können Sie den Transformer auf eine reine float8-Option umschalten, während Sie den Text Encoder bei float8 belassen. Ganz zurück zu vollem bf16 überall zu gehen ist normalerweise nicht notwendig.

5.4 MULTISTAGE-Panel – High- und Low-Noise-Experten trainieren

Dieses Panel stellt die Dual-Experten-Architektur (High-Noise vs. Low-Noise Transformer) dar und wie Trainingsschritte zwischen ihnen aufgeteilt werden. Dies ist ein Kernaspekt des WAN 2.2 LoRA Training High Noise Low Noise Ansatzes.

  • Stages to Train – für die meisten LoRAs setzen Sie High Noise = AN und Low Noise = AN. Das bedeutet, beide Experten werden während des Trainings aktualisiert, sodass das LoRA sowohl frühe Komposition/Bewegung als auch späte Details/Identität beeinflusst.
  • Switch Every – auf 24–32GB GPUs mit Low VRAM = AN setzen Sie Switch Every = 10. Dies sagt AI Toolkit, wie viele Schritte auf einem Experten verbracht werden sollen, bevor zum anderen gewechselt wird. Zum Beispiel, mit Steps = 3000:
    • Schritte 1–10 → High-Noise-Experte
    • Schritte 11–20 → Low-Noise-Experte
    • …wiederholen bis zum Ende des Trainings.

Warum das wichtig ist:

  • Mit Low VRAM = AN hält AI Toolkit typischerweise nur einen Experten im GPU-Speicher zu einer Zeit. Beim Wechsel wird ein ~14B-Parameter-Transformer entladen und der andere geladen.
  • Wenn Sie Switch Every = 1 setzen, erzwingen Sie ein Laden/Entladen riesiger Gewichte bei jedem Schritt, was extrem langsam ist.
  • Mit Switch Every = 10 bekommen Sie immer noch ungefähr 50/50-Abdeckung von High/Low Noise, aber wechseln nur alle 10 Schritte statt bei jedem Schritt, was weit effizienter ist.

LoRA-Typ-Hinweise:

  • Für Charakter- oder Stil-Video-LoRAs halten Sie beide High Noise und Low Noise AN; sowohl Komposition als auch Details sind wichtig.
  • Für Bewegungs-/Kamera-LoRAs ist High Noise entscheidend für globale Bewegung. Beginnen Sie mit beiden Stufen AN und experimentieren Sie dann später mit nur-High-Noise-Training, wenn Sie sehr zielgerichtetes Verhalten wollen.

Auf H100/H200:

  • Sie können Switch Every = 1 setzen, da beide Experten im VRAM resident bleiben können und der Overhead des Wechselns vernachlässigbar ist.

5.5 TARGET-Panel – LoRA-Rank und Kapazität

Dieses Panel steuert, welche Art von Adapter Sie trainieren und wie viel Kapazität er hat.

  • Target Type – setzen Sie auf LoRA.
  • Linear Rank – ein guter Standard ist 16 für Wan 2.2 T2V:
    • Rank 16 hält das LoRA klein und schnell zu trainieren.
    • Es reicht normalerweise für Charakter-, Stil- und Bewegungs-LoRAs bei 512–768 Auflösung.

Wenn Sie einen sehr diversen Datensatz haben (viele Motive, Stile oder Bewegungen) und genug VRAM:

  • Sie können Linear Rank auf 32 erhöhen, um dem LoRA mehr Ausdruckskraft zu geben.
  • Vermeiden Sie es, über 64 zu gehen, es sei denn, Sie wissen, dass Sie so viel Kapazität brauchen; sehr hohe Ranks können überfitten und das LoRA schwerer kontrollierbar machen.

Auf H100/H200 ist das Starten bei Rank 16 und das Erhöhen auf 32 für komplexe All-in-One-LoRAs ein vernünftiger Bereich.


5.6 SAVE-Panel – Checkpoint-Zeitplan

Konfigurieren Sie, wie oft LoRA-Checkpoints während des Trainings gespeichert werden:

  • Data Type – setzen Sie auf BF16. Dies entspricht der üblichen Ausführung von Wan 2.2 und ist stabil für LoRA-Gewichte.
  • Save Every – setzen Sie auf 250 Schritte. Für einen 3000-Schritte-Lauf ergibt das 12 Checkpoints, die über das Training verteilt sind.
  • Max Step Saves to Keep – setzen Sie auf 4 oder 6, damit Sie keine frühen Checkpoints verlieren, die tatsächlich besser aussehen könnten als der letzte.

In der Praxis verwenden Sie selten den allerletzten Checkpoint; viele Benutzer bevorzugen etwas im 2000–3000 Schritte-Bereich nach dem Vergleichen von Samples.

Auf H100/H200:

  • Wenn Sie sehr lange laufen (z.B. 5000–6000 Schritte für einen großen Datensatz), entweder behalten Sie Save Every = 250 und erhöhen Max Step Saves to Keep, oder setzen Sie Save Every = 500, um die Anzahl der Checkpoints zu begrenzen.

5.7 TRAINING-Panel – Kern-Hyperparameter und Text Encoder-Modus

Wir setzen nun die Kern-Trainings-Hyperparameter und wählen dann, wie der Text Encoder und optionale Regularisierung behandelt werden.

5.7.1 Kern-Trainingseinstellungen

Für ein allgemeines Video-LoRA auf Wan 2.2 T2V:

  • Batch Size – auf 24–32GB setzen Sie Batch Size = 1. Für T2V verbraucht das bereits viel VRAM. Auf H100/H200 können Sie auf 2 erhöhen, wenn Sie genug Spielraum haben.
  • Gradient Accumulation – beginnen Sie mit 1. Wenn VRAM eng ist, aber Sie eine größere effektive Batch-Größe wollen, können Sie es auf 2–4 setzen; effektive Batch-Größe ist Batch Size × Gradient Accumulation.
  • Steps – typische Bereiche:
    • Kleines, fokussiertes Bewegungs-LoRA mit ~10–20 Clips: 1500–2500 Schritte.
    • Charakter- oder Stil-LoRA mit 20–50 Clips: 2000–3000 Schritte.
    • Sehr große Datensätze können höher gehen, aber es ist oft besser, die Datenqualität zu verbessern als einfach mehr Schritte hinzuzufügen.
  • Optimizer – setzen Sie Optimizer = AdamW8Bit. 8-Bit Adam reduziert VRAM signifikant, während es sich ähnlich wie Standard-AdamW verhält.
  • Learning Rate – setzen Sie Learning Rate = 0.0001 als starken Standard. Wenn das Training instabil aussieht oder Samples wild zwischen Schritten oszillieren, senken Sie sie auf 0.00005. Wenn das Training früh zu plateauen scheint, erwägen Sie, die Schritte zu erhöhen, anstatt die Learning Rate höher zu treiben.
  • Loss Type – behalten Sie Mean Squared Error (MSE). Dies entspricht Wans ursprünglichem Trainingsverlust und ist die Standardwahl.

Wan 2.2 verwendet einen Flow-Matching Noise Scheduler, den AI Toolkit intern handhabt. Im SAMPLE-Panel sollten Sie auch einen FlowMatch-kompatiblen Sampler verwenden, damit Vorschauen dem Trainings-Setup entsprechen.


5.7.2 Timestep Type und Timestep Bias – wo das LoRA fokussiert

Diese beiden Felder steuern, welche Timesteps während des Trainings betont werden und wie Updates über die Diffusionskette verteilt werden. Dies beeinflusst direkt das WAN 2.2 LoRA Training High Noise Low Noise Verhalten.

  • Timestep Type – steuert die Verteilung der Timesteps:
    • Linear – sampelt Timesteps gleichmäßig über den Schedule; ein neutraler, sicherer Standard.
    • Sigmoid / andere geformte Muster – biased Training in Richtung Mid/Low Noise; manchmal hilfreich für Charaktere und detaillierte Stile.
    • Shift / Weighted – betonen weiter spezifische Regionen des Noise-Schedules, oft kombiniert mit Timestep Bias.
  • Timestep Bias – sagt AI Toolkit, welchen Teil der Trajektorie betont werden soll:
    • Balanced – Updates verteilen sich ungefähr gleichmäßig über High und Low Noise.
    • Favor High Noise – biased in Richtung früher, verrauschter Schritte, betont Komposition, Layout und globale Bewegung.
    • Favor Low Noise – biased in Richtung späterer, sauberer Schritte, betont Identität, Textur und Mikro-Details.

Empfohlene Kombinationen für das Wan 2.2 T2V 14B Text-zu-Video LoRA-Training:

  • Bewegungs-/Kamera-LoRA – setzen Sie Timestep Type = Linear und Timestep Bias = Balanced als sicheren Standard.

    Wenn Sie ein reines Bewegungs-LoRA wollen, das Kamerapfade wirklich fixiert, können Sie dies weiter zu Timestep Bias = Favor High Noise verschieben, da der High-Noise-Experte dort ist, wo Wan 2.2 Layout und Bewegung entscheidet.

  • Stil-LoRA – setzen Sie Timestep Type = Linear oder Shift und Timestep Bias = Favor High Noise.

    Stil, Farbkorrektur und "Filmstock" leben hauptsächlich im High-Noise-/frühen Teil der Trajektorie, sodass das Bevorzugen von High Noise dem LoRA erlaubt, den globalen Ton umzuschreiben, während es späte Details größtenteils dem Basismodell überlässt.

  • Charakter-LoRA – setzen Sie Timestep Type = Sigmoid (oder Linear) und Timestep Bias = Balanced.

    Identität und Ähnlichkeit stützen sich mehr auf den Low-Noise-Experten, aber Sie wollen immer noch etwas Einfluss auf Komposition und Beleuchtung. Für sehr identitätsfokussierte LoRAs können Sie experimentieren, Low-Noise-Schritte leicht zu bevorzugen, aber Balanced ist der sicherste Standard.


5.7.3 EMA (Exponential Moving Average)

  • Use EMA – für LoRAs ist EMA optional und fügt zusätzlichen Overhead hinzu. Die meisten Benutzer lassen dies für Wan 2.2 LoRAs AUS und reservieren EMA für Vollmodell-Training. Es ist sicher, EMA zu ignorieren, es sei denn, Sie wissen, dass Sie glattere Gewichte ensemble wollen.

5.7.4 Text Encoder-Optimierungen – Bildunterschriften- vs. Trigger-Word-Modus

Diese Schalter steuern, ob der Text Encoder geladen bleibt und ob Embeddings gecached werden.

  • Unload TE – wenn AN gesetzt, entfernt AI Toolkit den Text Encoder aus dem VRAM zwischen Schritten und verlässt sich auf statische Embeddings (z.B. ein Trigger Word), was effektiv dynamisches Captioning während des Trainings abschaltet. Das spart VRAM, bedeutet aber, dass Bildunterschriften nicht bei jedem Schritt neu encodiert werden.
  • Cache Text Embeddings – wenn AN gesetzt, führt AI Toolkit den Text Encoder einmal pro Bildunterschrift aus, cacht die Embeddings, und gibt dann sicher den Text Encoder aus dem VRAM frei. Dies wird für bildunterschriftenbasiertes Training bei eingeschränktem VRAM sehr empfohlen, da es das Neu-Encodieren bei jedem Schritt vermeidet, aber trotzdem Ihre Per-Clip-Bildunterschriften verwendet.

Typische Muster:

  • Für 24–32GB bildunterschriftenbasiertes Training setzen Sie Cache Text Embeddings = AN und lassen Sie Unload TE = AUS. Dies gibt Ihnen effizientes Training mit vollen Bildunterschriften-Informationen.
  • Für nur Trigger-Word-Training auf sehr hohem VRAM (H100/H200) können Sie Unload TE = AN setzen und sich auf ein einzelnes Trigger-Token statt voller Bildunterschriften verlassen.

5.7.5 Differential Output Preservation (DOP)

Differential Output Preservation ist eine optionale Regularisierung, die das LoRA ermutigt, sich wie ein reines residuales Edit des Basismodells zu verhalten:

  • AI Toolkit rendert zwei Vorhersagen:
    • eine mit dem Basismodell (kein LoRA), und
    • eine mit dem aktivierten LoRA.
  • Es bestraft Unterschiede zwischen diesen Ausgaben außer dort, wo Sie explizit Änderung wollen (über Ihr Trigger Word und Bildunterschriften).

Wichtige Felder:

  • Differential Output Preservation – Hauptschalter.
  • DOP Loss Multiplier – Stärke des Regularisierungsverlusts.
  • DOP Preservation Class – ein Klassen-Token wie person, scene, oder landscape, das beschreibt, was erhalten werden soll.

Verwendung:

  • Für Stil- und Charakter-LoRAs kann DOP helfen, Wans exzellenten Basis-Realismus intakt zu halten, während das LoRA eine kontrollierte Modifikation hinzufügt. Ein einfaches Rezept:
    • Differential Output Preservation = AN
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person für Charakter-LoRAs, oder scene / landscape für breite Stil-LoRAs, falls verfügbar.
  • Für Bewegungs-/Kamera-LoRAs brauchen Sie normalerweise kein DOP; die Verhaltensänderung ist bereits lokalisiert, und DOP verdoppelt ungefähr den Rechenaufwand.

Wichtiger Kompatibilitätshinweis:

  • DOP funktioniert durch Umschreiben von Prompts bei jedem Schritt (Austausch Ihres Trigger Words mit der Preservation Class in einem der Zweige). Deswegen erfordert DOP, dass der Text Encoder Prompts bei jedem Schritt neu encodiert, und es ist nicht kompatibel mit Cache Text Embeddings.
  • Wenn Sie DOP AN schalten:
    • müssen Sie ein Trigger Word im JOB-Panel setzen,
    • und Sie müssen Cache Text Embeddings = AUS halten, damit der Text Encoder aktiv bleibt und die modifizierten Prompts bei jedem Schritt neu encodieren kann.

Auf H100/H200 sind die zusätzlichen Rechenkosten von DOP normalerweise akzeptabel für hochwertige Charakter- und Stil-LoRAs.


5.8 ADVANCED-Panel – Differential Guidance (optional)

Wenn Ihr Build ein ADVANCED-Panel bereitstellt mit:

  • Do Differential Guidance
  • Differential Guidance Scale

können Sie es als einen zusätzlichen, AI-Toolkit-spezifischen Trick behandeln:

  • Das Einschalten von Do Differential Guidance = AN mit Scale = 3 sagt dem Modell, sich mehr auf den Unterschied zwischen Basis- und LoRA-modifizierten Vorhersagen zu konzentrieren, ähnlich im Geiste wie DOP, aber als Guidance-Term implementiert.
  • Dies kann zielgerichtete Edits (z.B. "Neon-Outline-Stil" oder "Orbit-Kamera-Verhalten") schneller konvergieren lassen, ohne die Learning Rate zu erhöhen.
  • Wenn Samples früh im Training instabil oder zu scharf aussehen, können Sie die Scale auf 2 senken. Wenn das Lernen sehr langsam erscheint, können Sie mit 4 experimentieren.

Die meisten Benutzer können dies sicher AUS lassen für ihre ersten Wan 2.2 LoRAs und experimentieren, sobald sie sich wohl fühlen.


5.9 DATASETS-Panel – Verdrahtung Ihres Wan T2V Datensatzes

Jeder Dataset-Block entspricht einem Eintrag in der internen datasets:-Liste.

Für einen einzelnen Wan T2V Datensatz:

  • Target Dataset – wählen Sie Ihren Wan T2V Datensatzordner (z.B. wan_orbit_clips oder wan_char_zxq_clips), der Ihre Videos und Bildunterschriften enthält.
  • LoRA Weight – setzen Sie auf 1, es sei denn, Sie mischen mehrere Datensätze und wollen sie neu gewichten.
  • Default Caption – wird nur verwendet, wenn einzelne Clips keine .txt-Bildunterschrift haben. Zum Beispiel:
    • Charakter/Stil: "Porträt von zxqperson, zxqstyle, kinematische Beleuchtung".
    • Bewegung: "Orbit 360 um das Motiv, zxq_orbit".
  • Caption Dropout Rate – ein Wert wie 0.05 lässt Bildunterschriften für 5% der Samples weg, damit das Modell auch auf Visuals achtet statt Formulierungen überzufitten.

    Wenn Sie stark auf Cache Text Embeddings angewiesen sind, seien Sie hier konservativ; Caption Dropout ist am effektivsten, wenn der Text Encoder aktiv ist und Bildunterschriften variieren können.

  • Settings → Cache Latents – für Video-LoRAs ist dies normalerweise AUS, da das Cachen von VAE-Latents für viele Frames auf Festplatte und RAM schwer ist. Halten Sie stattdessen Ihre Quellvideos hochwertig.
  • Settings → Is Regularization – lassen Sie AUS, es sei denn, Sie haben einen dedizierten Regularisierungsdatensatz.
  • Flipping (Flip X / Flip Y) – für die meisten Video-LoRAs halten Sie beide AUS:
    • horizontale Flips können Links/Rechts-Bewegungssemantik und Charakter-Asymmetrie brechen,
    • vertikale Flips sind selten für reales Filmmaterial geeignet.
  • Resolutions – aktivieren Sie die Auflösungen, in die AI Toolkit bucketen soll:
    • Auf 24–32GB aktivieren Sie 512, optional 768, wenn VRAM es erlaubt, und deaktivieren Sie 1024+.
    • Auf H100/H200 können Sie 768 und 1024 aktivieren, um dem bevorzugten Betriebspunkt des Modells zu entsprechen.
  • Num Frames – setzen Sie Num Frames = 33 für das Basis-24–32GB Video-LoRA-Rezept.

    33 folgt der 4n+1-Regel (4·8+1), halbiert ungefähr die Kosten vs. volles 81-Frame-Training, während es immer noch ein klares temporales Muster gibt.

AI Toolkit wird 33 Frames gleichmäßig über die Dauer jedes Clips sampeln; Sie müssen nur Clips so trimmen, dass die Bewegung, die Sie interessiert, den größten Teil des Clips einnimmt.

Auf H100/H200 können Sie Num Frames auf 41 oder 81 erhöhen und das mit 768–1024 px Buckets und Rank 16–32 für sehr starke, lang-sequenzielle LoRAs kombinieren.


5.10 SAMPLE-Panel – Vorschau Ihres LoRA

Das SAMPLE-Panel ist zum Generieren von Vorschau-Videos während oder nach dem Training.

Nützliche Einstellungen:

  • Num Frames – passen Sie dies ungefähr an den Trainingswert an (z.B. 33 oder 41), damit das Verhalten vorhersehbar ist.
  • Sampler / Scheduler – verwenden Sie einen FlowMatch-kompatiblen Sampler, der mit dem Noise-Schedule des Modells übereinstimmt.
  • Prompt / Negative Prompt – verwenden Sie dasselbe Trigger Word und Konzepte, auf denen Sie trainiert haben, damit Sie schnell beurteilen können, ob das LoRA das Richtige tut.
  • Guidance Scale – während Trainingsvorschauen sind moderate Werte (z.B. 2–4) in Ordnung; denken Sie daran, dass Sie später in Ihren normalen Inferenz-Workflows andere Werte verwenden könnten.

Generieren Sie Samples bei mehreren Checkpoints (z.B. alle 250–500 Schritte) und behalten Sie die, die visuell Stärke und Stabilität balancieren.


6. Wan 2.2 T2V 14B LoRA Trainingseinstellungen

Dieser Abschnitt fasst praktische Rezepte für die drei Haupt-LoRA-Typen zusammen.

6.1 Charakter-Video-LoRA (Identität / Avatar)

Ziel: Das Gesicht, den Körper und die allgemeine Identität eines Charakters über viele Prompts und Szenen hinweg erhalten.

Datensatz:

  • 10–30 kurze Clips oder Bilder des Charakters, mit verschiedenen Posen, Hintergründen und Beleuchtung.
  • Bildunterschriften enthalten ein Trigger Word und Klasse, zum Beispiel:

    "Porträt von [trigger], junge Frau, lässige Kleidung, Studiobeleuchtung".

Wichtige Einstellungen für das Wan 2.2 T2V 14B Text-zu-Video LoRA-Training:

  • Num Frames – 33 auf 24GB; 41 oder 81 auf H100/H200.
  • Resolutions – 512 oder 768; fügen Sie 1024 bei hohem VRAM hinzu.
  • Multi-stage – High Noise = AN, Low Noise = AN, Switch Every = 10 (lokal) oder 1 (Cloud).
  • Timestep Type / Bias – Linear (oder Sigmoid) mit Balanced Bias, damit Sie sowohl Komposition als auch Low-Noise-Identitätsdetails erfassen.
  • Linear Rank – 16 (24GB) oder 16–32 (H100/H200) für nuanciertere Identität.
  • DOP – optional aktivieren für Charakter-LoRAs, wenn Sie Basis-Realismus erhalten wollen:
    • Differential Output Preservation = AN
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person
    • Cache Text Embeddings = AUS (erforderlich, damit DOP funktioniert)
  • Steps – 2000–3000, Samples alle 250–500 Schritte prüfen.

6.2 Stil-Video-LoRA (Film-Look / Anime / Farbkorrektur)

Ziel: Einen starken visuellen Stil auferlegen, während der Inhalt flexibel bleibt.

Datensatz:

  • 10–40 Bilder oder Clips, die denselben Stil über verschiedene Motive und Szenen teilen.
  • Bildunterschriften beschreiben den Look (z.B. Filmstock, Pinselarbeit, Palette) statt der genauen Objekte.

Wichtige Einstellungen für das ComfyUI Wan 2.2 Text-zu-Video LoRA Training:

  • Num Frames – 33–41 für die meisten Anwendungsfälle; 81 auf großen GPUs für 5s Clips.
  • Resolutions – 512–768 auf 24GB; 768–1024 bei hohem VRAM.
  • Multi-stage – High Noise = AN, Low Noise = AN, Switch Every = 10 (lokal) oder 1 (Cloud).
  • Timestep Type / Bias – Linear oder Shift mit Timestep Bias = Favor High Noise, damit das LoRA globale Farbe und Kontrast umschreiben kann, wo Komposition noch fließend ist.
  • Linear Rank – 16 für einfache Stile; 16–32 für komplexe, kinematische Looks.
  • DOP – empfohlen für Stil-LoRAs, wenn Sie Basis-Realismus erhalten wollen:
    • Differential Output Preservation = AN
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = scene / landscape oder ähnlich
    • Cache Text Embeddings = AUS
  • Steps – 1500–2500, stoppen wenn der Stil stark aber nicht überbacken aussieht.

6.3 Bewegungs-/Kamera-LoRA (Orbits, Schwenks, Dolly-Bewegungen)

Ziel: Neue Kamerabewegungen oder Bewegungsmuster lernen, die Sie auf viele Motive anwenden können.

Datensatz:

  • 10–30 3–8s Clips, jeder zeigt die Zielbewegung.
  • Halten Sie die Bewegung konsistent (z.B. alle sind Orbit 180 oder alle sind seitwärts-scrollend), aber variieren Sie Motive und Szenen.
  • Bildunterschriften geben explizit das Bewegungskeyword an ("Orbit 180 um das Motiv", "seitwärts-scrollende Angriffsanimation").

Wichtige Einstellungen für das Wan2.2-T2V-A14B LoRA Feinabstimmung:

  • Num Frames – 33 auf 24GB, 41–81 auf größeren GPUs.
  • Resolutions – 512 (und 768 wenn VRAM es erlaubt).
  • Multi-stage – High Noise = AN, Low Noise = AN, Switch Every = 10 (lokal) oder 1 (Cloud).
  • Timestep Type / Bias – Linear mit Timestep Bias = Balanced, damit sowohl frühe Komposition als auch spätere Verfeinerung Updates sehen; Bewegung stützt sich inhärent auf High Noise.
  • Linear Rank – Rank 16 reicht normalerweise; Bewegung geht mehr um Verhalten als um winzige Details.
  • DOP – normalerweise AUS lassen; Bewegung ist bereits lokalisiert und DOP verdoppelt Forward-Passes.
  • Steps – 1500–2500; Vorschauen beobachten, um sicherzustellen, dass Bewegung über Ihre Trainingsclips hinaus generalisiert.

7. Export und Verwendung Ihres Wan T2V LoRA

Sobald das Training abgeschlossen ist, können Sie Ihr Wan 2.2 T2V 14B LoRA auf zwei einfache Arten verwenden:

  • Model Playground – öffnen Sie den Wan 2.2 T2V 14B LoRA Playground und fügen Sie die URL Ihres trainierten LoRA ein, um schnell zu sehen, wie es sich auf dem Basismodell verhält.
  • ComfyUI Workflows – starten Sie eine ComfyUI-Instanz und bauen Sie Ihren eigenen Workflow, fügen Sie Ihr LoRA hinzu und optimieren Sie das LoRA-Gewicht und andere Einstellungen für detailliertere Kontrolle.

Weitere AI Toolkit LoRA-Trainingsanleitungen

Ready to start training?