AI Toolkit LoRA Training Guides

Wan 2.2 I2V 14B Image-to-Video LoRA Training mit Ostris AI Toolkit

Dieser Guide zeigt, wie du Wan 2.2 I2V 14B Image-to-Video LoRAs mit dem Ostris AI Toolkit trainierst. Du lernst das Prinzip der High-Noise- und Low-Noise-Experts, wie du Motion-, Style- und Character-Clips als Datensatz aufbaust, und wie du Multi-stage, Num Frames, Auflösungs-Buckets und Quantisierung so einstellst, dass das Training stabil auf 24GB GPUs oder H100/H200 läuft.

Train Diffusion Models with Ostris AI Toolkit

Horizontal scrollen, um das vollständige Formular zu sehen

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Wan 2.2 I2V 14B Bild-zu-Video LoRA-Training verwandelt ein einzelnes Bild in 5-Sekunden-Clips mit steuerbarer Bewegung, Kamerafahrten und zeitlicher Konsistenz. Nach diesem Leitfaden werden Sie in der Lage sein:

  • Wan I2V LoRA-Datensätze für Bewegungs-, Stil- und Charakter-Anwendungsfälle zu gestalten (und zu wissen, wie viele Clips Sie tatsächlich benötigen).
  • Zu verstehen, wie Wans duale High-Noise / Low-Noise Experten, Timestep-Einstellungen, Num Frames und Auflösung beim Training zusammenwirken.
  • Die AI Toolkit Panels (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, TRAINING, DATASETS, SAMPLE) für stabile 24GB-Läufe und für größere H100/H200 Cloud-Setups zu konfigurieren.
Dieser Artikel ist Teil der AI Toolkit LoRA-Trainingsreihe. Wenn Sie neu bei Ostris AI Toolkit sind, beginnen Sie mit der AI Toolkit LoRA-Training Übersicht, bevor Sie in diesen Leitfaden eintauchen.

Inhaltsverzeichnis


1. Was macht Wan 2.2 I2V 14B besonders?

Wan 2.2 I2V 14B („A14B") ist die Bild-zu-Video-Variante von Wan 2.2. Architektonisch handelt es sich um einen dualen Mixture-of-Experts (MoE) Transformer. Es gibt zwei separate 14B-Parameter-Transformer. Der High-Noise Transformer verarbeitet frühe, sehr verrauschte Timesteps und ist für globale Komposition, Bewegungstrajektorie und Kamerabewegung verantwortlich. Der Low-Noise Transformer verarbeitet späte, saubere Timesteps und ist für feine Details, Identität und Textur verantwortlich.

Zur Inferenzzeit teilt die Pipeline Timesteps um eine Grenze bei etwa 875/1000 des Noise-Schedules und leitet sie an den High- oder Low-Noise Transformer weiter. In der Praxis verarbeitet jeder Experte etwa die Hälfte des Denoising-Prozesses. Wan 2.2 I2V generiert bis zu 81 Frames bei 16 FPS, was etwa 5 Sekunden Video entspricht.

Für das Wan 2.2 I2V 14B Bild-zu-Video LoRA-Training hat dies drei wichtige Konsequenzen. Sie können wählen, eine oder beide Stufen zu trainieren. Sie können das Training in Richtung Komposition und Bewegung (High Noise) oder in Richtung Identität und Detail (Low Noise) gewichten. Und da Sie Sequenzen von Frames verarbeiten, sind Frame-Anzahl, Auflösung, VRAM und Quantisierung/Offloading-Einstellungen viel wichtiger als bei einem reinen Bildmodell.

AI Toolkit stellt diese Steuerungen hauptsächlich über die Panels MULTISTAGE, TRAINING, TARGET und DATASETS bereit.


2. Wo Sie Wan 2.2 I2V 14B Bild-zu-Video LoRA-Training ausführen können

Sie können diesen Wan 2.2 I2V LoRA-Training Workflow entweder in der Cloud mit AI Toolkit auf RunComfy oder mit einer lokalen AI Toolkit Installation ausführen. Die Benutzeroberfläche und Panels sind identisch; nur die Hardware ändert sich.

2.1 RunComfy Cloud AI Toolkit (empfohlen für erste Läufe)

Wenn Sie CUDA, Treiber oder große Modell-Downloads nicht verwalten möchten, nutzen Sie das Cloud AI Toolkit auf RunComfy:

👉 RunComfy AI Toolkit Trainer

Auf dieser Seite erhalten Sie die AI Toolkit UI vorinstalliert im Browser. Sie können Datensätze hochladen, Jobs genau wie in diesem Leitfaden konfigurieren und das Training auf einer H100 (80 GB) oder H200 (141 GB) GPU ausführen. Dies ist der einfachste Weg, das Tutorial zuverlässig zu reproduzieren, ohne lokale Einrichtung.


2.2 Lokales AI Toolkit

Wenn Sie lokal arbeiten möchten: Installieren Sie das AI Toolkit Repository gemäß der README (Python + PyTorch für das Training und Node für die UI), dann starten Sie die UI (npm run build_and_start in ui/). Öffnen Sie http://localhost:8675 und Sie sehen dieselben Panels wie in den Screenshots und Beschreibungen hier.


3. Datensatz-Design für Wan I2V LoRAs

Wan 2.2 I2V wird auf Video-Clip + Caption Paaren trainiert. Jedes Trainingsbeispiel ist eine Sequenz von Frames plus Text. In AI Toolkit müssen Sie nicht jeden Clip manuell auf die gleiche Länge schneiden. Stattdessen konfigurieren Sie Num Frames im DATASETS Panel und der Data Loader wird gleichmäßig diese Anzahl von Frames aus jedem Video samplen, wobei Clips unterschiedlicher Dauer automatisch verarbeitet werden.

3.1 Entscheiden Sie, welche Art von LoRA Sie trainieren

Wie Sie Hyperparameter einstellen, hängt stark von Ihrem Ziel ab:

  • Bewegungs-/Kamera-LoRA konzentriert sich auf Muster wie „Orbit 360 um das Motiv", „langsamer Dolly-Zoom", „Handkamera-Wackeln" oder spezifische Aktionsbeats.
  • Stil-LoRA lässt Videos wie ein bestimmter Filmstock, Anime-Stil oder malerischer Look aussehen, während Wans Basisbewegung und Szenenkomposition erhalten bleiben.
  • Charakter-LoRA versucht, einen bestimmten Charakter oder ein Gesicht konsistent über viele Szenen und Bewegungen hinweg zu erhalten.

Wan 2.2 I2V kann alle drei. Bewegungs-LoRAs lehnen sich stärker an die High-Noise Stufe an, während Stil- und Charakter-LoRAs sich stärker an die Low-Noise Stufe plus sehr konsistente Visuals anlehnen.


3.2 Video-Clips und Zuschnitt

Verwenden Sie echte Video-Clips (.mp4, .mov, etc.), keine GIFs. Die Cliplänge kann variieren (zum Beispiel 5–30 Sekunden). AI Toolkit wird gleichmäßig Trainingsframes entlang jedes Clips gemäß Ihrer Num Frames Einstellung samplen.

Das Einzige, was Sie immer manuell tun sollten, ist jeden Clip so zu schneiden und trimmen, dass die Bewegung, die Sie interessiert, schnell beginnt und es nicht viel „Herumstehen" am Anfang oder Ende gibt. Besonders für Bewegungs-LoRAs möchten Sie, dass die Bewegung fast den gesamten Clip einnimmt — zum Beispiel die vollständige Orbit-Bewegung, die vollständige Dolly-Fahrt oder die vollständige Geste.


3.3 Wie viele Clips benötigen Sie?

Als grobe Faustregel:

  • Eine einfache Bewegungs-LoRA, die eine einzelne Art von Kamerabewegung lehrt, trainiert normalerweise gut mit 10–30 kurzen Clips (~3–8s), bei denen die Zielbewegung sehr klar ist und den größten Teil des Frames einnimmt.
  • Eine Stil-LoRA benötigt typischerweise 10–40 Bilder oder Clips, die verschiedene Szenen, Beleuchtungen und Motive abdecken, aber alle denselben Look und dieselbe Farbbehandlung teilen.
  • Eine Charakter-LoRA auf I2V verhält sich ähnlicher wie eine Bild-LoRA. Als Minimum streben Sie 10–30 kurze Clips derselben Figur an, mit verschiedenen Posen, Skalierungen, Winkeln und Hintergründen; wenn Sie bequem 20–40 Clips erreichen können, verbessern sich Ähnlichkeit und Robustheit normalerweise.

3.4 Captions für I2V-Clips

Jede Videodatei kann optional eine .txt Caption mit demselben Basisnamen haben (zum Beispiel castle_orbit.mp4 und castle_orbit.txt). AI Toolkit unterstützt auch eine Default Caption, die verwendet wird, wenn ein Clip keine eigene Caption-Datei hat.

Gute Caption-Muster:

  • Für eine Bewegungs-LoRA kodieren Sie die Bewegung explizit im Text, zum Beispiel:

    orbit 360 around the subject, orbit 180 around the subject oder slow dolly in toward the character.

  • Für eine Stil-LoRA beschreiben Sie den Look, nicht den Szeneninhalt, zum Beispiel:

    grainy 16mm film look, high contrast, warm tint.

  • Für eine Charakter-LoRA fügen Sie ein Trigger-Wort plus eine Klasse ein, zum Beispiel:

    frung, young woman, casual clothing (wobei frung Ihr Trigger-Token ist).

Sie können auch ein Trigger Word im JOB Panel mit Captions kombinieren, die [trigger] enthalten. AI Toolkit ersetzt [trigger] beim Laden des Datensatzes durch Ihren gewählten Trigger-String, sodass Sie den Trigger-Namen nicht in jeder Caption fest codieren müssen.


4. Wan 2.2 I2V Besonderheiten, die Sie verstehen müssen

4.1 High-Noise vs Low-Noise Transformer

Wans zwei Transformer verhalten sich ungefähr so:

Der High-Noise Transformer arbeitet bei Timesteps nahe dem Beginn des Diffusionsprozesses (ungefähr 1000 bis ~875). Er richtet die globale Komposition und grobe Formen ein und entscheidet, wohin Objekte gehen, wie sich die Kamera bewegt und was die Bewegungstrajektorie sein wird. Er ist entscheidend für Bewegung und Layout.

Der Low-Noise Transformer läuft bei Timesteps von etwa 875 bis 0. Er verfeinert Details, Texturen, Gesichtsähnlichkeit und Mikrobewegungen. Er ist entscheidend für Identität, Textur und Schärfe.

In der Praxis kann das Training nur der High-Noise Stufe neue Arten von Bewegung und Komposition lehren, aber dazu neigen, Details untertrainiert zu lassen. Das Training nur der Low-Noise Stufe hat Schwierigkeiten, Bewegung oder Layout signifikant zu ändern. Für die meisten LoRAs sollten Sie beide Stufen trainieren und dann die Betonung mit Timestep Bias im TRAINING Panel steuern.


4.2 Frames, FPS und Geschwindigkeit

Wan 2.2 I2V 14B kann bis zu 81 Frames bei 16 FPS generieren, was 5 Sekunden entspricht. In der Praxis folgen gültige Video-Frame-Zahlen der „4n+1"-Regel (zum Beispiel 9, 13, 17, 21, 33, 41, 81…). Sie können sich Videolängen in dieser Familie vorstellen; 1 Frame wird ebenfalls unterstützt und reduziert I2V effektiv auf einen Einzelbild-ähnlichen Modus für das AI Toolkit Wan 2.2 I2V LoRA-Training.

In AI Toolkit gibt es zwei separate Num Frames Regler. Num Frames im DATASETS Panel steuert, wie viele Frames pro Clip für das Training gesampelt werden. Num Frames im SAMPLE Panel steuert, wie lang Ihre Vorschau-Videos sind. Sie müssen nicht exakt übereinstimmen, aber sie ähnlich zu halten macht das Verhalten einfacher nachvollziehbar.

Ein guter Ausgangspunkt für das Training ist 41 Frames (etwa 2,5 Sekunden). Auf 80–96 GB GPUs (H100-Klasse) können Sie bis zur vollen 81-Frame Konfiguration gehen. Kürzere Längen wie 21 oder 33 Frames können verwendet werden, um die VRAM-Last und Schrittzeit auf kleinen GPUs zu reduzieren, auf Kosten der Erfassung von weniger zeitlichem Kontext.


4.3 Auflösung und Pixelfläche

Wans offizielle Demos halten die effektive Fläche typischerweise bei etwa 480×832 ≈ 400k Pixel, und die Hugging Face Spaces runden Dimensionen auf Vielfache von 16 oder 32.

Für das Wan 2.2 I2V 14B Bild-zu-Video LoRA-Training mit AI Toolkit:

  • Auf einer 24 GB GPU verwenden Sie Auflösungs-Buckets wie 512 und 768. Vermeiden Sie 1024×1024, es sei denn, Sie sind sehr aggressiv quantisiert und/oder verwenden Layer-Offloading; Video bei 1024² plus 41–81 Frames ist anspruchsvoll.
  • Auf 48 GB+ GPUs oder H100/H200 können Sie sicher einen 1024 Bucket hinzufügen und sogar kinematische Breitbildauflösungen um Werte wie 1024×576, 1024×608 oder 1024×640 verwenden.

AI Toolkit wird Ihre Videos automatisch bucketen und in die ausgewählten Auflösungen herunterskalieren, wenn der Datensatz geladen wird.


5. Schritt für Schritt: AI Toolkit Wan 2.2 I2V LoRA-Training konfigurieren

Wir gehen davon aus, dass Sie mindestens eine 24 GB-Klasse GPU haben, daher sind die folgenden Einstellungen eine sichere Baseline. Wenn Sie eine größere Karte haben oder das Cloud AI Toolkit auf RunComfy verwenden, enthalten einige Panels auch kurze Hinweise, wie Sie die Einstellungen hochskalieren können.


5.1 JOB Panel

Im JOB Panel legen Sie grundlegende Metadaten und optional ein Trigger-Token fest.

  • Training Name

    Verwenden Sie einen beliebigen beschreibenden Namen; er wird zum Ordnernamen für Checkpoints und Samples. Beispiele: wan_i2v_orbit_v1, wan_i2v_style_neon, wan_i2v_char_frung_v1.

  • GPU ID

    Bei einer lokalen Installation zeigt dies auf Ihre physische GPU. Auf dem RunComfy Cloud AI Toolkit können Sie dies als Standard belassen; der tatsächliche Maschinentyp (H100/H200) wird später in der Training Queue gewählt.

  • Trigger Word (optional)

    Verwenden Sie einen Trigger für Charakter- oder Stil-LoRAs, bei denen Sie ein dediziertes Token wie frung oder wan_cam_orbit wünschen. Wenn Ihre Datensatz-Captions [trigger] enthalten, wird AI Toolkit Ihren Trigger Word-Wert automatisch beim Laden in diese Captions einsetzen.

    Für reine Bewegungs-LoRAs benötigen Sie oft kein Trigger-Wort, da das Verhalten bereits in Phrasen wie „orbit 360 around the subject" kodiert ist. Für Charaktere und Stile wird dringend empfohlen, einen Trigger zu verwenden, damit Sie später einen sauberen An/Aus-Schalter für Ihre LoRA haben.


5.2 MODEL und QUANTIZATION Panels

Diese Panels steuern, welcher Wan-Modell-Checkpoint verwendet wird und wie aggressiv er quantisiert wird.

MODEL Panel

  • Model Architecture

    Wählen Sie Wan 2.2 I2V (14B).

  • Name or Path

    Die Hugging Face Modell-ID (Repo-ID) für den Basis-Checkpoint, zum Beispiel: ai-toolkit/Wan2.2-I2V-A14B-Diffusers-bf16.

    In den meisten AI Toolkit Builds wird die Auswahl von Wan 2.2 I2V (14B) diesen Wert automatisch ausfüllen; lassen Sie ihn unverändert, es sei denn, Sie haben einen Grund, ihn zu ändern.

    Wenn Sie ihn überschreiben, verwenden Sie das Hugging Face Repo-ID-Format: org-or-user/model-name (optional org-or-user/model-name@revision).

  • Low VRAM

    Schalten Sie Low VRAM EIN für 24 GB Consumer-GPUs oder jede Karte, die auch Ihr Display ansteuert. Auf 48 GB+ Karten (einschließlich H100/H200) können Sie es oft AUS lassen für mehr Geschwindigkeit solange Sie Ihre Trainingslast vernünftig halten (zum Beispiel 512/768 Buckets und ~41 Frames). Wenn Sie intermittierende OOMs sehen (oft verursacht durch den größten Auflösungs-Bucket) oder Sie 1024 Buckets und/oder 81 Frames pushen möchten, schalten Sie Low VRAM EIN für Stabilität.

  • Layer Offloading

    Dieser Schalter streamt Teile des Modells in den CPU RAM anstatt alle Layer im VRAM resident zu halten. Er ist nur notwendig, wenn Sie versuchen, Wan I2V auf einer sehr kleinen GPU (etwa 10–12 GB VRAM) mit viel System-RAM (64 GB+) auszuführen. Es kann die Schrittzeit ungefähr verdoppeln, aber den Peak-VRAM unter ~9 GB bringen. Für 24 GB GPUs beginnen Sie mit Layer Offloading AUS und schalten Sie es nur ein, wenn Sie immer noch Out-of-Memory-Fehler bekommen.

Auf großen GPUs / RunComfy:

Auf 48 GB+ oder auf H100/H200 beginnen Sie mit Layer Offloading AUS. Lassen Sie Low VRAM AUS wenn Sie maximale Geschwindigkeit wollen, aber kombinieren Sie es mit konservativen Buckets (512/768) und Frames (≈41) zuerst. Wenn Sie 1024/81 pushen und OOM-Spitzen bekommen, schalten Sie Low VRAM EIN (oder lassen Sie 1024 weg), um den Lauf zu stabilisieren.

QUANTIZATION Panel

  • Transformer

    Auf 24–32 GB GPUs setzen Sie Transformer auf 4bit with ARA. Dies verwendet eine 4-Bit-Quantisierung zusammen mit einem Accuracy Recovery Adapter, sodass die VRAM-Nutzung nahe an einfachem 4-Bit liegt, während die Qualität viel näher an bf16 bleibt.

  • Text Encoder

    Setzen Sie Text Encoder auf float8 (oder qfloat8). Dies reduziert VRAM und Rechenaufwand für den Text Encoder mit vernachlässigbarem Einfluss auf die Wan 2.2 I2V LoRA-Qualität.

Dies spiegelt die offiziellen AI Toolkit Beispielkonfigurationen für Wan 2.2 Video-LoRAs wider und ist der Hauptgrund, warum das Training auf 24 GB Karten praktikabel ist. Wenn Sie auf Stabilitätsprobleme oder starke Verlangsamungen mit ARA auf einem bestimmten Setup stoßen, können Sie auf qfloat8 für den Transformer zurückfallen; es verwendet mehr VRAM, verhält sich aber in Bezug auf Qualität sehr ähnlich.

Auf großen GPUs / RunComfy:

Auf einer H100/H200 oder einer 48–96 GB Workstation-Karte können Sie entweder 4bit with ARA beibehalten und das zusätzliche VRAM für höhere Auflösung, mehr Frames oder einen höheren LoRA-Rang ausgeben, oder den Transformer auf eine reine float8 / qfloat8 Option umstellen für einen einfacheren Stack. Den ganzen Weg zurück zu vollem bf16 überall zu gehen ist für das WAN 2.2 LoRA-Training i2v selten notwendig.


5.3 MULTISTAGE Panel (High / Low Noise)

Das MULTISTAGE Panel lässt Sie entscheiden, welche(n) Wan-Experten Sie trainieren und wie oft der Trainer zwischen ihnen wechselt.

  • Stages to Train

    Lassen Sie sowohl High Noise als auch Low Noise für die meisten LoRAs EIN. High Noise steuert Komposition und Bewegung; Low Noise steuert Detail und Identität.

  • Switch Every

    Dieser Wert steuert, wie viele Schritte Sie auf einem Experten laufen, bevor Sie zum anderen wechseln. Mit High Noise = EIN, Low Noise = EIN, Switch Every = 10 und Steps = 3000 trainiert AI Toolkit:

    • Schritte 1–10 auf dem High-Noise Transformer,
    • Schritte 11–20 auf dem Low-Noise Transformer,
    • und wiederholt diese Alternierung bis das Training abgeschlossen ist.

Auf großen GPUs können Sie Switch Every = 1 verwenden (jeden Schritt alternieren) nur wenn beide Experten resident im VRAM bleiben (kein Low VRAM/Offload/Swap). Wenn Low VRAM oder irgendein Offloading/Swapping beteiligt ist, kann jeder Wechsel teures Entladen/Laden auslösen, und Switch Every = 1 wird extrem langsam. Bevorzugen Sie in diesem Fall Switch Every = 10–50, um Swap-Overhead zu reduzieren.

Für eine 24 GB GPU Baseline verwenden Sie:

  • High Noise = EIN
  • Low Noise = EIN
  • Switch Every = 10-50

Auf großen GPUs / RunComfy:

Wenn beide Experten resident bleiben (Low VRAM AUS, kein Offloading), können Sie Switch Every = 1 für etwas glattere Alternierung setzen. Wenn Sie langsame Schrittzeiten oder Swapping sehen, verwenden Sie stattdessen 10–50.


5.4 TARGET Panel (LoRA-Netzwerkeinstellungen)

Im TARGET Panel konfigurieren Sie, welche Art von Adapter Sie trainieren und wie „breit" er ist.

  • Target Type

    Setzen Sie Target Type auf LoRA.

  • Linear Rank

    Linear Rank steuert die LoRA-Kapazität pro Block. Höherer Rang erhöht die Kapazität, aber auch die VRAM-Nutzung und das Risiko von Overfitting. Für Wan 2.2 I2V sind praktische Standards:

    • Bewegungs- und Kamera-LoRAs: Rang 16 ist normalerweise ausreichend, weil sie Verhalten mehr als winzige visuelle Details modifizieren.
    • Stil-LoRAs: beginnen Sie mit Rang 16; gehen Sie nur zu 32, wenn der Stil komplex ist und Sie VRAM-Spielraum haben.
    • Charakter-LoRAs: beginnen Sie mit Rang 16 (auch auf großen GPUs). Gehen Sie nur zu 32, nachdem Sie bestätigt haben, dass Ihr Lauf stabil ist (keine OOM-Spitzen) und Sie speziell mehr Kapazität für Nahaufnahmen, hochauflösende Gesichter benötigen.

Auf sehr großen GPUs kann Rang 32 für reiche Stile und anspruchsvolle Charakter-Arbeit helfen, aber es ist nicht erforderlich, um eine gute LoRA zu bekommen, und es kann OOM-Spitzen wahrscheinlicher machen, wenn es mit großen Buckets und vielen Frames kombiniert wird.


5.5 SAVE Panel

Das SAVE Panel steuert, wie oft Checkpoints geschrieben werden und in welcher Präzision.

  • Data Type

    Verwenden Sie BF16 oder FP16. Beide sind für LoRAs in Ordnung. BF16 ist auf modernen GPUs etwas numerisch stabiler.

  • Save Every

    Setzen Sie Save Every auf etwa 250. Dies gibt Ihnen alle 250 Schritte einen Checkpoint.

  • Max Step Saves to Keep

    Setzen Sie Max Step Saves to Keep zwischen 4 und 6. Dies hält die Festplattennutzung unter Kontrolle, während Sie noch einige frühere Checkpoints als Fallback haben.

Sie müssen nicht den letzten Checkpoint verwenden. Sehr oft kommen die am besten aussehenden Samples von irgendwo um 2000–4000 Schritte. Die SAMPLE Panel-Konfiguration unten erklärt, wie Sie dies beurteilen können.

Wenn Sie In-Training-Sampling deaktivieren (unten für aktuelle Wan I2V Builds empfohlen), behalten Sie einige Checkpoints (zum Beispiel alle 250 Schritte) und evaluieren Sie sie später mit einem separaten Inferenz-Workflow.


5.6 TRAINING Panel

Das TRAINING Panel enthält die meisten wichtigen Regler: Batch-Größe, Lernrate, Timesteps, Loss und Text-Encoder-Behandlung.

Kern-Hyperparameter

Konfigurieren Sie die Kern-Trainingseinstellungen so für eine 24 GB Wan I2V Video-LoRA:

  • Batch Size

    Beginnen Sie mit 1. Video-Modelle sind anspruchsvoll, und 1 ist selbst auf 24 GB Karten realistisch. Auf H100/H200 können Sie später mit Batch-Größen von 2–4 experimentieren.

  • Gradient Accumulation

    Lassen Sie Gradient Accumulation anfänglich auf 1. Effektive Batch-Größe ist Batch-Größe mal Gradient-Akkumulation. Sie können sie auf 2 oder 4 erhöhen, wenn VRAM extrem knapp ist und Sie eine etwas größere effektive Batch wünschen, aber Gewinne sind für Video bescheiden.

  • Learning Rate

    Beginnen Sie mit Learning Rate = 0.0001. Dies ist der Standard in AI Toolkit Beispielen und ist stabil für Wan LoRAs. Wenn das Training verrauscht aussieht oder die LoRA schnell überschießt, können Sie auf 0.00005 mid-run reduzieren und vom letzten Checkpoint fortfahren.

  • Steps – typische Bereiche:
    • Kleine, fokussierte Bewegungs-LoRA mit ~10–20 Clips: 1500–2500 Schritte.
    • Charakter- oder Stil-LoRA mit 20–50 Clips: 2000–3000 Schritte.
    • Sehr große Datensätze können höher gehen, aber es ist normalerweise besser, die Datenqualität zu verbessern (Captions, Diversität) als weit über 3000–4000 Schritte hinauszugehen.
    • 1000 Schritte: ~12–18 Stunden
    • 1500 Schritte: ~18–27 Stunden
    • 2000 Schritte: ~24–36 Stunden
    • 3000 Schritte: ~35–55 Stunden
  • Weight Decay

    Lassen Sie Weight Decay auf 0.0001, es sei denn, Sie haben einen spezifischen Grund, es zu ändern; es bietet milde Regularisierung.

  • Loss Type

    Behalten Sie Loss Type als Mean Squared Error (MSE). Wan 2.2 verwendet einen Flow-Matching Noise Scheduler, und MSE ist der Standard-Loss für dieses Setup.


Timesteps und Scheduler

  • Timestep Type

    Für Wan 2.2 I2V ist Linear der Standard-Timestep-Type und funktioniert gut für die meisten LoRA-Typen. Er verteilt Updates gleichmäßig entlang des Flow-Matching-Schedules und harmoniert gut mit der Aufteilung zwischen High-Noise und Low-Noise Experten.

  • Timestep Bias

    Timestep Bias steuert, welchen Teil der Trajektorie Sie betonen:

    • Balanced – Updates werden über High- und Low-Noise Timesteps verteilt; dies ist der sichere Standard für alle LoRA-Typen.
    • Favor High Noise – fokussiert mehr auf frühe, verrauschte Schritte, wo Wan globales Layout, Bewegung und Farbe entscheidet.
    • Favor Low Noise – fokussiert mehr auf späte, saubere Schritte, wo feine Details und Identität leben.
    • Bewegungs-/Kamera-LoRAs – beginnen Sie mit Timestep Type = Linear, Timestep Bias = Balanced. Für sehr „reine" Kamera-Bewegungs-LoRAs können Sie mit Favor High Noise experimentieren, um stärker auf den High-Noise Experten zu setzen.
    • Stil-LoRAs – verwenden Sie Timestep Type = Linear (oder Shift) und Timestep Bias = Favor High Noise, damit die LoRA globalen Ton und Farbe umschreibt, während das Basismodell immer noch spätstufige Details handhabt.
    • Charakter-LoRAs – verwenden Sie Timestep Type = Sigmoid (oder Linear) und Timestep Bias = Balanced. Identität und Ähnlichkeit hängen mehr von Low-Noise Schritten ab, aber Balanced zu halten lässt beide Experten beitragen; nur wenn Sie speziell extra Fokus auf Mikro-Details wollen, sollten Sie eine leichte Low-Noise-Gewichtung versuchen.

Unter der Haube verwendet Wan 2.2 I2V einen Flow-Matching Noise Scheduler. AI Toolkit setzt den Scheduler und passenden Sampler automatisch für die Wan 2.2 Architektur, sodass Sie das Verhalten hauptsächlich über Timestep Type, Timestep Bias und die Multi-stage Einstellungen oben steuern.


EMA (Exponential Moving Average)

  • Use EMA

    Für LoRAs ist EMA optional und verbraucht extra VRAM und Zeit. Die meisten Wan LoRA Benutzer lassen Use EMA AUS und es ist selten nötig, es sei denn, Sie machen vollständige Modell-Finetunings.


Text Encoder Optimierungen

Am unteren Rand des TRAINING Panels befinden sich die Text Encoder Optimizations Einstellungen. Sie steuern, wie aggressiv der Text Encoder ausgelagert oder gecacht wird.

  • Unload TE

    Dieser Modus entlädt die Text-Encoder-Gewichte, damit sie zwischen Schritten keinen VRAM mehr verbrauchen. Für Wan 2.2 I2V LoRAs verlassen Sie sich fast immer auf reichhaltige Per-Clip-Captions, daher sollten Sie Unload TE AUS lassen im normalen Caption-basierten Training. Erwägen Sie Unload TE nur, wenn Sie absichtlich eine sehr enge „Trigger-only / Blank Prompt" LoRA trainieren, die überhaupt keine Datensatz-Captions verwendet.

  • Cache Text Embeddings

    Diese Option berechnet Caption-Embeddings einmal vor und verwendet sie wieder, um wiederholte Text-Encoder-Durchläufe zu vermeiden. Schalten Sie Cache Text Embeddings EIN nur wenn Ihre Captions statisch sind und Sie keine Features verwenden, die den Prompt bei jedem Schritt modifizieren oder randomisieren, wie Differential Output Preservation, dynamisches [trigger]-Umschreiben in Captions, oder irgendetwas, das stark von Caption-Dropout-Verhalten abhängt. In diesem Fall kodiert AI Toolkit alle Training-Captions einmal, cached die Embeddings auf Disk und kann den Text Encoder aus dem VRAM entfernen.

Wenn Sie planen, DOP, Caption Dropout oder andere dynamische Prompt-Tricks zu verwenden, lassen Sie Cache Text Embeddings AUS, damit der Text Encoder den echten Prompt bei jedem Batch neu kodieren kann. Die Abschnitte Differential Output Preservation und Datasets erklären diese Interaktionen im Detail.


Regularisierung – Differential Output Preservation (DOP)

Der Regularization Abschnitt zeigt Differential Output Preservation (DOP), das der LoRA hilft, sich wie eine residuale Bearbeitung zu verhalten, anstatt das Basismodell zu überschreiben.

DOP vergleicht die Ausgabe des Basismodells (ohne LoRA) mit der LoRA-aktivierten Ausgabe und fügt eine Strafe hinzu, wenn die LoRA Aspekte ändert, die nichts mit Ihrem Zielkonzept zu tun haben. Es versucht zu lehren „was sich ändert, wenn der Trigger präsent ist" anstatt „das gesamte Modell neu zu trainieren".

Für Bewegungs-/Kamera-LoRAs benötigen Sie DOP normalerweise nicht, weil Bewegungsverhalten bereits ziemlich lokalisiert ist. Das Aktivieren von DOP verdoppelt ungefähr die Rechenzeit durch zusätzliche Forward-Passes.

Für Stil- und Charakter-LoRAs ist DOP oft sehr hilfreich, um Wans starken Basis-Realismus intakt zu halten. Eine gute Startkonfiguration ist:

  • Differential Output Preservation: EIN
  • DOP Loss Multiplier: 1
  • DOP Preservation Class: person für Charakter-LoRAs, oder eine passende Klasse wie scene oder landscape für Stil-LoRAs, wenn Ihr Build diese Optionen bietet.

Wichtiger Kompatibilitätshinweis: Differential Output Preservation schreibt den Prompt-Text bei jedem Schritt um oder ergänzt ihn (zum Beispiel durch Austausch Ihres Trigger-Worts mit dem Preservation-Class-Wort). Deshalb ist DOP nicht kompatibel mit Cache Text Embeddings. Wenn Sie DOP EIN schalten, stellen Sie sicher, dass Cache Text Embeddings AUS ist, damit der Text Encoder den aktualisierten Prompt bei jedem Batch sieht.


5.7 ADVANCED Panel (Differential Guidance)

Wenn Ihr AI Toolkit Build das ADVANCED Panel für dieses Modell zeigt, kann es Do Differential Guidance und Differential Guidance Scale enthalten.

Differential Guidance berechnet „mit LoRA" vs „ohne LoRA" Vorhersagen und lenkt das Training in Richtung des Unterschieds zwischen ihnen, ähnlich im Geist wie DOP, aber auf Guidance-Ebene statt als separatem Loss-Term implementiert.

Praktische Empfehlungen:

  • Schalten Sie Do Differential Guidance EIN mit einer Differential Guidance Scale um 3 für gezielte Edit-Style LoRAs (zum Beispiel „lasse die Kamera orbiten", „wende Neon-Stil an"), wo Sie möchten, dass die LoRA sich wie ein sauberer Modifier verhält.
  • Für sehr breite, schwere Stil-LoRAs, die den gesamten Look umschreiben, können Sie niedrigere Skalen (1–2) versuchen oder es AUS lassen, wenn die LoRA sich zu schwach anfühlt.

Wenn Sie bei der Rechenzeit knapp sind, können Sie Differential Guidance für Ihre ersten Läufe sicher AUS lassen und später experimentieren.


5.8 DATASETS Panel

Jeder Datensatz-Block in AI Toolkit entspricht einem Eintrag in der datasets: Liste, aber in der UI konfigurieren Sie einfach eine oder mehrere Datensatz-Karten.

Eine typische einzelne Wan I2V Datensatz-Konfiguration sieht so aus:

  • Target Dataset

    Wählen Sie Ihren hochgeladenen Wan I2V Video-Datensatz-Ordner, zum Beispiel wan_orbit_clips.

  • Default Caption

    Diese Caption wird verwendet, wenn ein Clip keine .txt Caption-Datei hat. Beispiele:

    Bewegungs-LoRA: orbit 360 around the subject

    Stil-LoRA: cinematic neon cyberpunk style

    Charakter-LoRA: frung, person, portrait (wobei frung Ihr Trigger-Token ist).

  • Caption Dropout Rate

    Dies ist die Wahrscheinlichkeit, dass die Caption für ein Trainingsbeispiel gedroppt (durch eine leere Caption ersetzt) wird. Für Wan I2V LoRAs ermutigt eine kleine Menge Dropout das Modell, sowohl visuellen Kontext als auch Text zu verwenden. Ein typischer Startbereich ist 0.05–0.10 (5–10%), wenn der Text Encoder geladen bleibt. Wenn Sie sich entscheiden, Cache Text Embeddings im TRAINING Panel zu aktivieren, ist es oft einfacher, Caption Dropout Rate = 0 zu setzen, damit Sie vermeiden, dass eine Teilmenge von Clips dauerhaft keine Caption hat.

  • LoRA Weight

    Normalerweise auf 1 gesetzt. Sie ändern dies nur, wenn Sie mehrere Datensätze mischen und möchten, dass ein Datensatz mehr oder weniger im Training zählt.

  • Settings → Cache Latents

    Lassen Sie dies AUS für Wan I2V Video-Datensätze (Num Frames > 1). Viele aktuelle AI Toolkit Builds unterstützen das Caching von Latents für Multi-Frame Datensätze nicht und werden während der Dataloader-Initialisierung mit einem Fehler wie folgt fehlschlagen:

    caching latents is not supported for multi-frame datasets

    Wenn Sie absichtlich Num Frames = 1 setzen (bildähnliches Training), kann Latent-Caching funktionieren und Dinge beschleunigen.

  • Settings → Is Regularization

    Lassen Sie Is Regularization AUS für Ihren Hauptdatensatz. Wenn Sie später einen separaten Regularisierungs-Datensatz hinzufügen, würden Sie Is Regularization dieses Datensatzes auf EIN setzen.

  • Flipping

    Flip X und Flip Y spiegeln Frames horizontal oder vertikal. Für die meisten Video-Aufgaben sollten Sie beide AUS lassen, besonders für Bewegungs-LoRAs, wo Spiegeln Links/Rechts-Bewegungssemantik invertieren kann, oder für Charaktere mit asymmetrischen Merkmalen. Für reine Stil-LoRAs können Sie mit Flip X experimentieren, um die Variation zu erhöhen.

  • Resolutions

    Wählen Sie einen oder mehrere Auflösungs-Buckets. Auf einer 24 GB GPU aktivieren Sie typischerweise 512 und lassen 768 und 1024 deaktiviert. Auf 48 GB+ oder H100/H200 beginnen Sie mit 512 und 768 für Stabilität, dann fügen Sie 1024 nur hinzu, wenn Sie klaren VRAM-Spielraum haben und Ihr Lauf stabil ist (gebucketetes Training kann VRAM spiken, wenn es den größten Bucket trifft). AI Toolkit wird Clips automatisch dem nächsten Bucket zuweisen und nach Bedarf herunterskalieren.

  • Num Frames

    Setzen Sie Num Frames auf die Anzahl der Frames pro Clip, die Sie für das Training sampeln möchten. Ein guter Ausgangspunkt ist 41. Auf sehr kleinen GPUs (10–12 GB) mit starker Quantisierung und Offloading können Sie dies auf 21 oder sogar 9 reduzieren, nur um das Training zum Laufen zu bringen, auf Kosten kürzeren zeitlichen Kontexts.

Wenn Sie mehrere Datensätze benötigen (zum Beispiel einen Haupt-Bewegungsdatensatz plus einen kleinen „Stil"-Datensatz), können Sie alle im DATASETS Panel hinzufügen und LoRA Weight plus das Is Regularization Flag verwenden, um ihren relativen Einfluss zu steuern.


5.9 SAMPLE Panel (Trainingsvorschauen)

Das SAMPLE Panel beeinflusst das Training nicht direkt; es steuert, wie AI Toolkit periodisch Vorschau-Videos generiert, damit Sie den besten Checkpoint auswählen können.

Wichtig (Wan I2V Anforderung): Wan 2.2 I2V Sampling ist Bild-zu-Video. Jedes Sample muss ein Prompt + Control Image Paar enthalten.

Wenn Sampling während des Trainings läuft (zum Beispiel disable_sampling: false, skip_first_sample: false, oder force_first_sample: true) und irgendein Sample ctrl_img fehlt, kann der Sampling-Vorschau-Schritt fehlschlagen und den Job früh stoppen. In vielen Umgebungen zeigt sich dies als verwirrender Tensor-Mismatch-Fehler wie:

RuntimeError: The size of tensor a (36) must match the size of tensor b (16)

Lösung: Stellen Sie in samples sicher, dass jeder prompt ein passendes ctrl_img hat (sie müssen immer als Paar erscheinen). Lassen Sie keine Prompt-only Sample-Zeilen.

Empfohlene Sampling-Einstellungen (Vorschauen aktiviert)

Wenn Sie In-Training-Vorschauen möchten, verwenden Sie diese Einstellungen:

  • Sample Every

    Setzen Sie Sample Every auf 250. Dies passt zur Save Every Einstellung, sodass jeder Checkpoint einen entsprechenden Satz Vorschau-Videos hat.

  • Sampler

    Verwenden Sie einen Sampler, der mit Wans Flow-Matching Scheduler kompatibel ist, typischerweise als FlowMatch oder ähnlich in Ihrem Build angezeigt.

  • Width / Height

    Auf 24 GB GPUs verwenden Sie etwas wie 768 × 768 oder ein vertikales Format wie 704 × 1280 für Samples. Vermeiden Sie 1024×1024 Vorschau-Videos, es sei denn, Sie sind mit langsamerem Sampling zufrieden; das Training selbst erfordert keine 1024² Vorschauen.

  • Guidance Scale

    Beginnen Sie mit einer Guidance Scale um 3.5–4, was vielen Wan 2.2 Demo-Konfigurationen entspricht.

  • Sample Steps

    Setzen Sie Sample Steps auf 25. Mehr Schritte ändern selten die Bewegungsqualität dramatisch und erhöhen hauptsächlich die Zeit.

  • Seed / Walk Seed

    Setzen Sie einen festen Seed wie 42. Schalten Sie Walk Seed EIN, wenn Sie möchten, dass jede Vorschau einen anderen Seed bekommt, während sie immer noch in der Nähe des Originals geclustert ist.

  • Num Frames

    Setzen Sie Num Frames im SAMPLE Panel gleich oder nahe an Ihrem Trainingswert. Wenn Sie mit 41 Frames trainiert haben, samplen Sie auch mit 41. Sobald die LoRA gut aussieht, können Sie die Generalisierung testen, indem Sie längere Clips mit 81 Frames generieren; Training bei 41 generalisiert oft überraschend gut auf 81-Frame-Inferenz.

  • FPS

    Normalerweise lassen Sie FPS = 16. Das Ändern von FPS beeinflusst nur die Wiedergabegeschwindigkeit, nicht die gelernte Bewegung selbst.

Für Prompts fügen Sie 2–4 Prompt-Zeilen hinzu, die Ihre Trainingsverteilung widerspiegeln. Für jede Zeile fügen Sie ein Control Image hinzu, ähnlich dem, was Sie bei der Inferenz verwenden werden.


6. WAN 2.2 LoRA-Training i2v Einstellungen für Bewegung, Stil und Charakter

Hier sind schnelle Rezepte für gängige Wan 2.2 I2V LoRA-Typen. Behandeln Sie diese als Ausgangspunkte und passen Sie basierend auf Checkpoint-Evaluation an (In-Training-Vorschauen können deaktiviert sein; siehe das SAMPLE Panel).

6.1 Bewegungs-/Kamera-LoRA

Ziel: Wan eine neue Bewegung wie Orbit 360, Orbit 180 oder einen spezifischen Kameraschwenk beibringen.

Verwenden Sie 10–30 kurze Clips (~3–8s), bei denen die Zielbewegung sehr klar ist und den größten Teil des Clips einnimmt. Captions sollten die Bewegung explizit beschreiben, zum Beispiel orbit 180 around the subject oder orbit 360 around a futuristic city.

Panel-Richtlinien:

  • MULTISTAGE: High Noise = EIN, Low Noise = EIN, Switch Every = 10 (oder 20–50 wenn Low VRAM/Offloading langsames Swapping verursacht).
  • TARGET: Linear Rank = 16.
  • TRAINING: Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear, Timestep Bias = Balanced, DOP AUS.
  • DATASETS: Resolutions bei 512/768, Num Frames = 33–41 (beginnen Sie bei 41; 81 ist auf H100/H200 möglich, aber erwarten Sie ~2× Zeit und höheren VRAM), Caption Dropout Rate ≈ 0.05–0.1. Latent-Caching AUS für Multi-Frame-Datensätze.

Trainieren Sie mit Save Every = 250. Sampling-Vorschauen: wenn Sie In-Training-Vorschauen aktivieren, setzen Sie Sample Every = 250 und stellen Sie sicher, dass jeder Eintrag in samples sowohl prompt als auch ctrl_img enthält (Wan I2V Sampling erfordert das Control Image).

Bei der Checkpoint-Evaluation konzentrieren Sie sich darauf, ob die Zielbewegung über verschiedene Prompts und Szenen stabil ist; wenn es nur bei Nah-Duplikaten Ihrer Trainingsclips funktioniert, bevorzugen Sie die Verbesserung der Datendiversität oder leichte Erhöhung der Schritte statt den Bias weg von Balanced zu pushen.


6.2 Stil-LoRA (Video-Look / Grade)

Ziel: visuellen Stil ändern, während Wans Basisbewegung und Komposition respektiert werden.

Verwenden Sie 10–40 Bilder oder Clips, die alle denselben Look teilen, aber verschiedene Szenen und Motive abdecken, zum Beispiel grainy 16mm film look, high contrast, warm tint.

Panel-Richtlinien:

  • MULTISTAGE: High Noise = EIN, Low Noise = EIN, Switch Every = 10 (oder 20–50 wenn Low VRAM/Offloading langsames Swapping verursacht).
  • TARGET: Linear Rank = 16 für einfache Stile; 16–32 für komplexe oder cinematische Looks.
  • TRAINING: Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear (oder Shift), Timestep Bias = Favor High Noise.
  • Regularization (DOP): Differential Output Preservation EIN, DOP Loss Multiplier = 1, DOP Preservation Class passend zu Ihrem dominanten Motiv (oft person oder scene), Cache Text Embeddings = AUS.
  • DATASETS: Resolutions 512/768 auf 24 GB (und 512/768 auf großen GPUs, mit optionalem 1024 erst nach Stabilität), Num Frames = 33–41 auf 24 GB (41–81 auf H100/H200 wenn Sie sich die Zeit leisten können), Caption Dropout Rate um 0.05 wenn Cache Text Embeddings AUS ist. Latent-Caching AUS für Multi-Frame-Datensätze.

Achten Sie darauf, ob der Stil konsistent über Szenen und Beleuchtung angewendet wird. Wenn er beginnt, den Inhalt zu überwältigen oder alles gleich aussehen zu lassen, versuchen Sie, die Lernrate mid-run zu senken, zu einem früheren Checkpoint zurückzukehren oder den LoRA-Rang zu reduzieren.


6.3 Charakter-LoRA (Video-Ähnlichkeit)

Charakter-LoRAs auf I2V sind anspruchsvoller als auf Text-zu-Bild-Modellen, aber sie sind machbar.

Verwenden Sie 10–30 kurze Clips derselben Figur in verschiedenen Posen, Skalierungen, Winkeln und Hintergründen; Captions sollten immer Ihr Trigger Word plus eine Klasse enthalten, zum Beispiel frung, young woman, casual clothing. Wenn Sie 20–40 Clips zusammenstellen können, verbessert sich die Identitätsrobustheit normalerweise, aber es ist nicht strikt erforderlich, um nutzbare Ergebnisse zu erhalten.

Panel-Richtlinien:

  • MULTISTAGE: High Noise = EIN, Low Noise = EIN, Switch Every = 10 (oder 20–50 wenn Low VRAM/Offloading langsames Swapping verursacht).
  • TARGET: Linear Rank = 16 auf 24 GB; 16–32 auf High-VRAM GPUs (verwenden Sie 32 wenn Sie Spielraum haben und sich um Nahaufnahmen, hochauflösende Gesichter kümmern).
  • TRAINING: Learning Rate = 0.0001, Steps ≈ 2000–3000, Timestep Type = Sigmoid (oder Linear), Timestep Bias = Balanced.
  • Regularization (DOP): Differential Output Preservation EIN, DOP Loss Multiplier = 1, DOP Preservation Class = person.
  • DATASETS: Beginnen Sie mit 512/768 (fügen Sie 1024 erst nach Stabilität hinzu), Num Frames = 33–41 auf 24 GB, oder 41–81 auf H100/H200 (81 ist deutlich langsamer). Latent-Caching AUS für Multi-Frame-Datensätze.

Community-Erfahrung deutet darauf hin, dass Identität und Ähnlichkeit mehr vom Low-Noise Experten abhängen, aber Timestep Bias = Balanced zu halten und einen geformten Timestep Type (Sigmoid) zu verwenden, gibt normalerweise einen besseren Trade-off zwischen Ähnlichkeit und allgemeiner Video-Stabilität als hartes Biasing in Richtung Low Noise.


7. Fehlerbehebung häufiger Wan I2V LoRA-Probleme

The size of tensor a (36) must match the size of tensor b (16) at non-singleton dimension 1

Warum es passiert: Bei WAN 2.2 14B I2V (arch: wan22_14b_i2v) ist In-Training-Vorschau-Sampling Bild-zu-Video und erfordert ein Control Image. Wenn irgendein Eintrag in samples einen prompt hat, aber ctrl_img fehlt, kann der Sampling-Vorschau-Schritt abstürzen und manchmal als Tensor-Mismatch oben erscheinen.

Was zu tun ist: Stellen Sie in samples sicher, dass jeder prompt ein passendes ctrl_img hat (sie müssen immer als Paar erscheinen). Lassen Sie keine Prompt-only Sample-Zeilen.


caching latents is not supported for multi-frame datasets

Dies passiert, wenn Latent-Caching auf einem Video-Datensatz aktiviert ist (Num Frames > 1).

Lösung: Im DATASETS Panel setzen Sie Cache Latents / Cache Latents to Disk = AUS für Wan I2V Video-Datensätze.


Bewegung zu schnell im Vergleich zur Quelle

Dies passiert normalerweise, wenn Sie mit weniger Frames pro Clip trainiert haben als Ihre Inferenz-Einstellung. Zum Beispiel haben Sie vielleicht mit 21 oder 41 Frames trainiert, aber samplen mit 81 Frames bei festem FPS von 16. Dieselbe Bewegung wird unterschiedlich „gestreckt".

Sie können dies beheben, indem Sie FPS im SAMPLE Panel senken (nur für die Wiedergabe), oder indem Sie bei einer konsistenten Num Frames wie 41 trainieren und samplen, damit zeitliches Verhalten vorhersagbarer ist.


Kamera bewegt sich nicht oder Komposition ändert sich kaum

Wenn sich die Kamera kaum bewegt oder die Komposition wie das Basismodell aussieht:

Prüfen Sie, ob Sie tatsächlich die High-Noise Stufe trainieren und ob Timestep Bias nicht zu stark in Richtung Low Timesteps gesetzt ist. Stellen Sie sicher, dass High Noise EIN im MULTISTAGE Panel ist und Timestep Bias Favor High für Bewegungs-LoRAs ist. Prüfen Sie auch, ob Captions die gewünschte Bewegung klar beschreiben; Wan kann keine Bewegung lernen, die weder sichtbar noch benannt ist.


Details und Gesichter sehen schlechter aus als Basis-Wan

Wenn Ihre LoRA Details entfernt oder Gesichter verschlechtert:

Versuchen Sie, Linear Rank leicht zu erhöhen (zum Beispiel von 16 auf 32) und Low Noise im Timestep Bias zu bevorzugen, damit mehr Trainingssignal auf späten Timesteps landet, wo Identität und Detail leben. Sie können auch die Lernrate senken und von einem früheren Checkpoint fortfahren.


LoRA overfittet und funktioniert nur bei trainingsähnlichen Szenen

Wenn die LoRA nur bei Szenen korrekt aussieht, die den Trainingsdaten sehr ähnlich sind:

Reduzieren Sie die Gesamtzahl der Steps (zum Beispiel von 5000 auf 3000), erhöhen Sie die Datensatz-Diversität und erwägen Sie, Differential Output Preservation zu aktivieren, wenn es derzeit aus ist. Wenn DOP bereits EIN ist und der Effekt immer noch zu eng ist, senken Sie leicht den LoRA-Rang und/oder die Lernrate.


VRAM Out-of-Memory Fehler

Wenn das Training häufig kein VRAM mehr hat:

Reduzieren Sie eine beliebige Kombination von:

  • Auflösungs-Buckets (lassen Sie 1024 weg und behalten Sie 512/768),
  • Num Frames (zum Beispiel von 41 auf 21),
  • Batch-Größe (halten Sie sie bei 1, wenn sie es nicht schon ist).

Schalten Sie Low VRAM EIN, schalten Sie Layer Offloading EIN, wenn Sie nur 10–12 GB VRAM und viel System-RAM haben, und stellen Sie sicher, dass Quantisierung auf float8 für sowohl Transformer als auch Text Encoder im QUANTIZATION Panel gesetzt ist. Wenn lokales VRAM immer noch nicht ausreicht, erwägen Sie, denselben AI Toolkit Job auf RunComfys Cloud mit einer H100 oder H200 GPU auszuführen, wo Sie Einstellungen viel einfacher halten können.

Wenn Sie OOM sogar auf großen GPUs sehen (zum Beispiel H100), ist es normalerweise ein Bucket-Spike Problem:

  • Lassen Sie den 1024 Bucket weg, bis der Lauf stabil ist, dann fügen Sie ihn später wieder hinzu.
  • Reduzieren Sie Num Frames (41 → 33 → 21).
  • Lassen Sie Layer Offloading AUS, es sei denn, Sie brauchen es wirklich (es kann Läufe langsamer und swap-intensiver machen).
  • Wenn Swapping beteiligt ist, erhöhen Sie MULTISTAGE Switch Every (10–50), um Per-Step Unload/Load-Overhead zu vermeiden.
  • Bevorzugen Sie aggressivere Quantisierung für Speicher: Transformer 4bit with ARA (oder qfloat8 wenn ARA instabil ist) und Text Encoder float8/qfloat8.

Training ist viel langsamer als erwartet (Dutzende Sekunden pro Schritt)

Wan 2.2 I2V LoRA-Training ist von Natur aus langsam: Jeder Schritt verarbeitet viele Frames, und das Training beider Experten bedeutet, dass Sie oft mehr Gesamtschritte brauchen, um jeder Stufe genug Updates zu geben.

Realitätscheck (typische Zeiterwartungen): Mit 41 Frames und gemischten 512/768/1024 Buckets sind 3000 Schritte auf einer H100 normalerweise Dutzende von Stunden (oft ~35–55 Stunden). Sampling mit 81 Frames ist ungefähr ~2× diese Rechen-/Zeitaufwand. Auf kleineren GPUs (besonders mit Quantisierung + Offloading) ist es normal, Dutzende Sekunden pro Schritt zu sehen.

Wenn es sich unangemessen langsam anfühlt oder über die Zeit immer langsamer wird:

  • Reduzieren Sie Num Frames (41 → 33 → 21).
  • Lassen Sie den 1024 Bucket weg (bleiben Sie bei 512/768).
  • Vermeiden Sie Layer Offloading, es sei denn, Sie brauchen es wirklich.
  • Wenn Low VRAM/Offload/Swapping aktiviert ist, verwenden Sie nicht Switch Every = 1; verwenden Sie 10–50.
  • Wenn Vorschauen aktiviert sind, halten Sie das Sampling selten (zum Beispiel Sample Every = 250), damit Sampling das Training nicht zu oft unterbricht.

👉 RunComfy AI Toolkit Trainer


8. Export und Verwendung Ihrer Wan I2V LoRA

Sobald das Training abgeschlossen ist, können Sie Ihre Wan 2.2 I2V 14B LoRA auf zwei einfache Arten verwenden:

  • Model Playground – öffnen Sie den Wan 2.2 I2V 14B LoRA Playground und fügen Sie die URL Ihrer trainierten LoRA ein, um schnell zu sehen, wie sie sich auf dem Basismodell verhält.
  • ComfyUI Workflows – starten Sie eine ComfyUI Instanz, bauen Sie einen Workflow, fügen Sie Ihre LoRA ein und verfeinern Sie Gewicht und andere Einstellungen für detailliertere Kontrolle. Wenn Sie ComfyUI Wan 2.2 LoRA trainieren möchten, bietet diese Integration die volle Flexibilität bei der Nutzung Ihrer trainierten Modelle.

Weitere AI Toolkit LoRA-Training Anleitungen

Ready to start training?