Обучение LoRA Wan 2.2 T2V 14B в AI Toolkit

Wan 2.2 T2V 14B обучение LoRA текст-в-видео позволяет генерировать насыщенные 5-секундные клипы с сильным движением, деталями и управлением камерой из простых текстовых подсказок. К концу этого руководства вы сможете:

Обучать Wan 2.2 T2V 14B LoRA с AI Toolkit для консистентных персонажей, выраженных стилей и поведения движения/камеры.
Выбирать между локальным обучением на NVIDIA GPU 24GB+ (с 4-битной ARA квантизацией) и облачным обучением на GPU H100/H200, и понимать, что каждый уровень может реалистично обрабатывать.
Понимать, как эксперты высокого и низкого шума Wan взаимодействуют с Multi-stage, Timestep Type/Bias, Num Frames и разрешением, чтобы контролировать, где LoRA вносит изменения.
Настраивать AI Toolkit панель за панелью (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, SAVE, TRAINING, DATASETS, SAMPLE) для адаптации того же рецепта к различным целям LoRA и оборудованию.

Эта статья является частью серии обучения LoRA AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA AI Toolkit перед погружением в это руководство.

Содержание

1. Обзор Wan 2.2 T2V 14B для обучения LoRA
2. Где обучать Wan 2.2 T2V LoRA (локально vs облако)
3. Ожидания по оборудованию и VRAM для Wan 2.2 T2V LoRA
4. Создание датасета Wan 2.2 T2V LoRA
5. Пошагово: обучение Wan 2.2 T2V 14B LoRA в AI Toolkit
6. Настройки обучения Wan 2.2 T2V 14B LoRA
7. Экспорт и использование вашего Wan T2V LoRA

1. Обзор Wan 2.2 T2V 14B для обучения LoRA

Wan 2.2 — это семейство открытых моделей текст/видео с тремя основными вариантами: модель текст/изображение-в-видео 5B и две модели 14B (T2V и I2V). (Wan 2.2 GitHub). Это руководство нацелено на модель 14B текст-в-видео Wan2.2‑T2V‑A14B.

Дизайн двойного трансформера "высокий шум / низкий шум"

Под капотом Wan 2.2 14B использует Mixture-of-Experts backbone текст-в-видео для Wan 2.2 T2V 14B обучение LoRA текст-в-видео:

Высокий шум: трансформер ~14B параметров, который обрабатывает очень шумную раннюю часть денойзинга (грубая композиция, глобальное движение, камера).
Низкий шум: трансформер ~14B параметров, который уточняет относительно чистые кадры ближе к концу (детали, текстура, идентичность).

Вместе модель имеет около 27B параметров, но на каждом шаге диффузии активен только один эксперт (≈14B параметров). Временные шаги разделяются около t ≈ 875 из 1000 в расписании шума: примерно 1000→875 идут к эксперту высокого шума и 875→0 идут к эксперту низкого шума, с внутренним сдвигом для поддержания сбалансированного покрытия по траектории.

Чтобы узнать как тренировать LoRA для Wan 2.2, это означает:

Обычно вы хотите обучать обоих экспертов, чтобы ваш LoRA работал по всей цепочке денойзинга — и композиция/движение, и детали/идентичность.
На меньших GPU дорого держать оба трансформера в VRAM и переключать их каждый шаг, поэтому AI Toolkit предоставляет панель Multi-stage и опции Low VRAM + ARA квантизация + "Switch Every N steps" для обмена скорости на VRAM.

2. Где обучать Wan 2.2 T2V LoRA (локально vs облако)

Вы можете следовать этому руководству в двух средах; интерфейс AI Toolkit одинаков.

Вариант A — Локальный AI Toolkit (ваш собственный GPU)

Установите AI Toolkit с GitHub репозиторий AI Toolkit и запустите веб-интерфейс. Это лучше всего, если вы комфортно работаете с CUDA/драйверами и уже имеете NVIDIA GPU 24GB+ (RTX 4090 / 5090 / A6000 и т.д.).
Поскольку Wan 2.2 14B тяжелый, Mac и GPU меньше 24GB обычно подходят только для маленьких LoRA только для изображений с разрешением 512 (Num Frames = 1). Для серьезного Wan 2.2 T2V 14B обучение LoRA текст-в-видео вам действительно нужно 24GB+ и агрессивная квантизация.

Вариант B — Облачный AI Toolkit на RunComfy (H100 / H200)

Откройте облачный AI Toolkit на RunComfy и войдите. Вы попадаете прямо в интерфейс AI Toolkit со всеми предустановленными зависимостями.
Для Wan 2.2 T2V 14B обучение LoRA текст-в-видео выберите машину H100 (80GB) или H200 (141GB) при запуске задания, чтобы обучать длинные видео с более высоким разрешением.

Преимущества использования облака:

Нулевая настройка — CUDA, драйверы и веса модели уже настроены.
Огромная VRAM — вы можете запускать LoRA 33–81 кадров с разрешением 768–1024 с разумными размерами batch без борьбы с ошибками OOM.
Постоянное рабочее пространство — ваши датасеты, задания и чекпоинты LoRA живут в вашем аккаунте RunComfy, так что вы можете возобновить или итерировать позже.

3. Ожидания по оборудованию и VRAM для Wan 2.2 T2V LoRA

Wan 2.2 14B намного тяжелее, чем модели изображений или Wan 2.1:

Официальные T2V workflow при 1024×1024 и 81 кадре могут вызвать OOM даже на high-end потребительских GPU, если вы не квантизируете.
Обучение LoRA длинных последовательностей при 1024² / 81 кадров может занять много часов даже на серверных картах 48–96GB, особенно при 2–4k шагах.
Официальная примерная конфигурация AI Toolkit для этой модели (train_lora_wan22_14b_24gb.yaml) настроена для GPU 24GB и использует 4-битную ARA квантизацию с Num Frames = 1 (только изображение) как безопасное значение по умолчанию.

Разумная ментальная модель по уровню VRAM для Fine-tuning LoRA Wan 2.2 T2V:

Уровень	Примеры GPU	Что комфортно
24GB "потребитель"	4090 / 5090 / A6000	LoRA только изображения (Num Frames = 1) при 512–768 px, используя 4-бит ARA и Low VRAM = ON. Короткие видео LoRA (33–41 кадров @ 512) возможны, но медленны.
48–64GB "просьюмер"	dual 4090, некоторые серверные GPU	LoRA видео 33–41 кадров при 768–1024 px с 4-бит ARA и минимальной выгрузкой. Хороший баланс скорости, емкости и качества.
80–141GB "облако"	H100 / H200 на RunComfy	Обучение 81 кадра при 1024², Batch Size 1–2, мало или без выгрузки, используя float8 или 4-бит ARA. Идеально для серьезных LoRA видео длинных последовательностей.

4. Создание датасета Wan 2.2 T2V LoRA

Wan T2V LoRA можно обучать на:

Изображениях — обрабатываются как 1-кадровые "видео" (Num Frames = 1).
Видеоклипах — настоящая сила модели T2V; обычно вы будете работать с короткими клипами 3–8с.

4.1 Решите, какой тип LoRA вы обучаете

Думайте в терминах трех широких семейств и проектируйте датасет соответственно:

LoRA персонажа (лицо / тело / наряд)
Цель: сохранить общие способности Wan, но внедрить нового человека, аватар или наряд, который можно адресовать через триггер. Используйте 10–30 высококачественных изображений или коротких клипов одного и того же человека с различными позами, фонами и освещением. Избегайте тяжелых фильтров или стилизации, которая борется с базовой моделью. Включите уникальный триггер-токен в подписи (например, "zxq-person"), плюс богатое описание одежды, освещения и кадрирования, чтобы LoRA изучил концепцию чисто.
LoRA стиля (look & feel)
Цель: сохранить контент гибким, но наложить визуальный стиль (пленка, аниме-стиль, живописный и т.д.). Используйте 10–40 изображений или клипов, которые разделяют один и тот же вид — консистентные цвета, контраст, ощущение камеры — но с разнообразными субъектами и сценами. Подписи должны делать упор на слова стиля, например, "масляная живопись, толстая импасто, теплое оранжевое освещение, высокий контраст" вместо перечисления точных объектов.
LoRA движения / камеры
Цель: научить Wan временному поведению (орбиты, панорамы, долли, спрайтовые циклы и т.д.). Используйте 10–30 коротких клипов (~5с), показывающих целевое движение, идеально тот же тип движения через разные субъекты и среды. Подписи должны явно упоминать ключевое слово движения, например, "орбита 180 вокруг субъекта", "боковая прокрутка атакующей анимации" или "медленный долли-зум на персонажа", чтобы модель знала, какое поведение вас интересует.

4.2 Разрешение и соотношение сторон

Wan 2.2 14B T2V построен для квадратных кадров класса 1024×1024. Официальные примеры используют 1024² или близкие варианты, с внутренним bucketing для более низких разрешений.

Для Wan 2.2 T2V 14B обучение LoRA текст-в-видео:

На GPU 24GB предпочитайте bucket'ы разрешения 512 или 768 и снимите галочку с 1024 на панели DATASETS, чтобы сэкономить VRAM.
На GPU 48GB+ или H100/H200 вы можете включить bucket'ы 768 и 1024 для получения более четких результатов, особенно для LoRA персонажей и стилей.

AI Toolkit уменьшит масштаб и классифицирует ваши видео в выбранные разрешения; вам в основном нужно убедиться, что ваши исходные клипы высокого качества и не в letterbox с огромными черными полосами.

4.3 Длина видеоклипа и Num Frames

Wan 2.2 был предобучен примерно на 5-секундных клипах при 16 FPS, давая около 81 кадра на тренировочную последовательность (следуя паттерну 4k+1).

Поле Num Frames AI Toolkit на панели DATASETS контролирует, сколько кадров сэмплируется из каждого видео:

Для изображений установите Num Frames = 1 — каждое изображение обрабатывается как 1-кадровое видео.
Для видео хорошие варианты:

81 — "полная точность"; соответствует предобучению, но очень жадный к VRAM.
41 — около половины кадров и примерно половина VRAM/времени; сильная середина для больших GPU.
33 — агрессивный, дружественный к VRAM вариант для локального обучения на 24GB в сочетании с разрешением 512 px.

Кадры сэмплируются равномерно по каждому клипу, поэтому вам не нужно, чтобы каждое видео было ровно 5 секунд. Важно, чтобы полезное движение занимало клип: обрежьте длинные статические интро/аутро, чтобы почти каждый сэмплированный кадр содержал значимый сигнал движения или идентичности.

Количество кадров обычно выбирается для следования специфическому для Wan паттерну "4n+1" (например, 9, 13, 17, 21, 33, 41, 81). Придерживание этих значений имеет тенденцию производить более стабильное временное поведение, потому что это соответствует внутреннему windowing модели.

4.4 Стратегия подписей

Подписи на каждый клип важнее для LoRA видео, чем для простых LoRA изображений, особенно для движения и стиля.

Для LoRA изображения / персонажа стремитесь к 10–30 изображений или коротких клипов, каждый с подписью, включающей ваш триггер плюс описание, например:
"портрет [trigger], средний план, студийное освещение, в кожаной куртке, объектив 35мм".

Во время обучения AI Toolkit заменит [trigger] на фактический Trigger Word из панели JOB, если вы используете этот паттерн.
Для LoRA движения убедитесь, что слово движения появляется и консистентно между клипами, например:
"орбита 180 вокруг средневекового замка",

"боковая прокрутка атакующей анимации плюшевого мишки, размахивающего мечом".

Пока просто убедитесь, что каждое изображение или клип имеет хорошую подпись .txt на файл или что вы установите полезную Default Caption на панели DATASETS. В разделе TRAINING мы решим, запускать ли в режиме на основе подписей (используя эти подписи напрямую) или в режиме только Trigger Word на setup'ах с высокой VRAM.

5. Пошагово: обучение Wan 2.2 T2V 14B LoRA в AI Toolkit

В этом разделе мы проходим панель за панелью интерфейс AI Toolkit для LoRA видео на Wan 2.2 T2V 14B.

Базовые предположения для этого руководства:

Вы обучаете LoRA видео (Num Frames = 33) с разрешением 512 или 768.
Вы на GPU 24–32GB или запускаете эквивалентную настройку на RunComfy с трюками Low VRAM.
Ваш датасет — это одна папка датасета Wan T2V с видео + подписями.

Позже мы добавим заметки для H100/H200 и более высоких уровней VRAM.

5.1 Панель JOB — базовые метаданные задания

Установите высокоуровневые метаданные, чтобы найти свое задание позже:

Job Name — краткое название, например, wan22_t2v_char_zxq_v1 или wan22_t2v_style_neon_v1. Включите модель, задачу и короткий идентификатор.
Output Directory — куда AI Toolkit будет записывать чекпоинты и логи, например, ./output/wan22_t2v_char_zxq_v1.
GPU ID — на локальной установке это указывает на ваш физический GPU. На облачном AI Toolkit RunComfy вы можете оставить значение по умолчанию; фактический тип машины (H100/H200) выбирается позже в Training Queue.
Trigger Word (опционально) — если вы планируете использовать workflow с trigger word, установите его на ваш токен (например, zxqperson). В подписях вы можете писать [trigger], и AI Toolkit заменит его на ваш Trigger Word при загрузке. Держите его коротким и уникальным, чтобы он не конфликтовал с существующими токенами.

5.2 Панель MODEL — базовая модель Wan 2.2 T2V

Настройте базовую модель и опции, связанные с VRAM, для ComfyUI Wan2.2 текст в видео LoRA:

Model Architecture — выберите Wan 2.2 T2V 14B (или эквивалентную метку в вашем билде).
Name or Path — id модели Hugging Face (repo id) для базового чекпоинта, например: ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16.
В большинстве билдов AI Toolkit выбор Wan 2.2 T2V 14B автоматически заполнит это значение; оставьте как есть, если нет причин менять.

Если вы переопределяете, используйте формат repo id Hugging Face: org-or-user/model-name (опционально org-or-user/model-name@revision).
Low VRAM — на GPU 24–32GB установите Low VRAM = ON, чтобы AI Toolkit мог использовать дополнительные стратегии checkpointing/offload, которые делают обучение возможным. На H100/H200 или 48GB+ вы можете установить Low VRAM = OFF для максимальной скорости.
Layer Offloading — если ваш билд предоставляет это, вы можете оставить OFF на 24GB+, если все еще не получаете OOM. На очень тесных setup'ах это может стримить некоторые слои в CPU RAM, ценой заметно более медленных шагов.

5.3 Панель QUANTIZATION — 4-бит ARA + text encoder float8

Квантизация — это то, что делает Wan 2.2 T2V 14B обучение LoRA текст-в-видео практичным на потребительском оборудовании.

Transformer — установите на 4bit with ARA. Это 4-битная квантизация с Accuracy Recovery Adapter; использование VRAM близко к чистому 4-биту, но качество намного ближе к bf16.
Text Encoder — установите на float8 (или qfloat8). Это уменьшает VRAM и вычисления для text encoder с незначительным влиянием на качество обучения LoRA.

На GPU 24–32GB эта комбинация — главная причина, почему обучение LoRA видео вообще возможно.

На H100/H200 / GPU 48GB+:

Вы можете сохранить 4bit with ARA и потратить дополнительную VRAM на более высокое разрешение, больше кадров или более высокий ранг LoRA, что часто дает лучшую отдачу.
Если вы предпочитаете более простой стек, вы можете переключить Transformer на чистую опцию float8, оставив Text Encoder на float8. Возврат полностью к bf16 везде обычно не нужен.

5.4 Панель MULTISTAGE — обучение экспертов высокого и низкого шума

Эта панель раскрывает архитектуру двойного эксперта (трансформер высокого шума vs низкого шума) и как шаги обучения разделяются между ними.

Stages to Train — для большинства LoRA установите High Noise = ON и Low Noise = ON. Это означает, что оба эксперта обновляются во время обучения, так что LoRA влияет как на раннюю композицию/движение, так и на поздние детали/идентичность.
Switch Every — на GPU 24–32GB с Low VRAM = ON установите Switch Every = 10. Это говорит AI Toolkit, сколько шагов провести на одном эксперте перед переключением на другого. Например, с Steps = 3000:

Шаги 1–10 → эксперт высокого шума
Шаги 11–20 → эксперт низкого шума
…повторять до конца обучения.

Почему это важно:

С Low VRAM = ON AI Toolkit обычно держит только одного эксперта в памяти GPU за раз. При переключении он выгружает один трансформер ~14B параметров и загружает другой.
Если вы установите Switch Every = 1, вы принуждаете загрузку/выгрузку огромных весов каждый шаг, что чрезвычайно медленно.
С Switch Every = 10 вы все еще получаете примерно 50/50 покрытие высокого/низкого шума, но переключаетесь только каждые 10 шагов вместо каждого шага, что намного эффективнее.

Подсказки по типу LoRA:

Для LoRA видео персонажа или стиля держите оба High Noise и Low Noise ON; и композиция, и детали важны.
Для LoRA движения / камеры высокий шум критичен для глобального движения. Начните с обеих стадий ON, а затем экспериментируйте позже с обучением только высокого шума, если хотите очень целенаправленное поведение.

На H100/H200:

Вы можете установить Switch Every = 1, поскольку оба эксперта могут оставаться резидентными в VRAM, и накладные расходы на переключение незначительны.

5.5 Панель TARGET — ранг и емкость LoRA

Эта панель контролирует, какой тип адаптера вы обучаете и сколько у него емкости.

Target Type — установите на LoRA.
Linear Rank — хорошее значение по умолчанию — 16 для Wan 2.2 T2V:

Ранг 16 держит LoRA маленьким и быстрым для обучения.
Обычно достаточно для LoRA персонажей, стилей и движения при разрешении 512–768.

Если у вас очень разнообразный датасет (много субъектов, стилей или движений) и достаточно VRAM:

Вы можете увеличить Linear Rank до 32, чтобы дать LoRA больше выразительной силы.
Избегайте превышения 64, если не знаете, что вам нужна такая емкость; очень высокие ранги могут переобучиться и сделать LoRA труднее контролировать.

На H100/H200 начинать с ранга 16 и подниматься до 32 для сложных all-in-one LoRA — разумный диапазон.

5.6 Панель SAVE — расписание чекпоинтов

Настройте, как часто сохранять чекпоинты LoRA во время обучения:

Data Type — установите на BF16. Это соответствует тому, как обычно запускается Wan 2.2, и стабильно для весов LoRA.
Save Every — установите на 250 шагов. Для запуска на 3000 шагов это дает 12 чекпоинтов, распределенных по обучению.
Max Step Saves to Keep — установите на 4 или 6, чтобы не потерять ранние чекпоинты, которые могут выглядеть лучше финального.

На практике вы редко используете самый последний чекпоинт; многие пользователи предпочитают что-то в диапазоне 2000–3000 шагов после сравнения сэмплов.

На H100/H200:

Если вы запускаете очень долго (например, 5000–6000 шагов для большого датасета), либо сохраните Save Every = 250 и увеличьте Max Step Saves to Keep, либо установите Save Every = 500, чтобы ограничить количество чекпоинтов.

5.7 Панель TRAINING — основные гиперпараметры и режим text encoder

Теперь мы устанавливаем основные гиперпараметры обучения, затем выбираем, как обрабатывать text encoder и опциональную регуляризацию.

5.7.1 Основные настройки обучения

Для универсального LoRA видео на Wan 2.2 T2V:

Batch Size — на 24–32GB установите Batch Size = 1. Для T2V это уже потребляет много VRAM. На H100/H200 вы можете довести до 2, если у вас достаточно запаса.
Gradient Accumulation — начните с 1. Если VRAM тесная, но вы хотите больший эффективный batch, можете установить на 2–4; эффективный размер batch — это Batch Size × Gradient Accumulation.
Steps — типичные диапазоны:

Маленький, сфокусированный LoRA движения с ~10–20 клипами: 1500–2500 шагов.
LoRA персонажа или стиля с 20–50 клипами: 2000–3000 шагов.
Очень большие датасеты могут идти выше, но часто лучше улучшить качество данных, чем просто добавлять больше шагов.

Optimizer — установите Optimizer = AdamW8Bit. 8-битный Adam значительно уменьшает VRAM, ведя себя аналогично стандартному AdamW.
Learning Rate — установите Learning Rate = 0.0001 как сильное значение по умолчанию. Если обучение выглядит нестабильным или сэмплы дико осциллируют между шагами, понизьте до 0.00005. Если обучение, кажется, выходит на плато рано, рассмотрите увеличение шагов вместо повышения Learning Rate.
Loss Type — сохраните Mean Squared Error (MSE). Это соответствует оригинальной loss обучения Wan и является стандартным выбором.

Wan 2.2 использует flow-matching noise scheduler, который AI Toolkit обрабатывает внутренне. На панели SAMPLE вы также должны использовать FlowMatch-совместимый сэмплер, чтобы превью соответствовали настройке обучения.

5.7.2 Timestep Type и Timestep Bias — где фокусируется LoRA

Эти два поля контролируют, какие временные шаги акцентируются во время обучения и как обновления распределяются по цепочке диффузии.

Timestep Type — контролирует распределение временных шагов:

Linear — сэмплирует временные шаги равномерно по расписанию; нейтральное, безопасное значение по умолчанию.
Sigmoid / другие сформированные паттерны — смещают обучение в сторону среднего/низкого шума; иногда полезно для персонажей и детализированных стилей.
Shift / Weighted — еще больше акцентируют конкретные регионы расписания шума, часто комбинируются с Timestep Bias.

Timestep Bias — говорит AI Toolkit, какую часть траектории акцентировать:

Balanced — обновления распределяются примерно поровну между высоким и низким шумом.
Favor High Noise — смещает в сторону ранних, шумных шагов, акцентируя композицию, компоновку и глобальное движение.
Favor Low Noise — смещает в сторону поздних, чистых шагов, акцентируя идентичность, текстуру и микродетали.

Рекомендуемые комбинации для как тренировать LoRA для Wan 2.2:

LoRA движения / камеры — установите Timestep Type = Linear и Timestep Bias = Balanced как безопасное значение по умолчанию.
Если вы хотите чистый LoRA движения, который действительно фиксирует траектории камеры, вы можете сдвинуть это к Timestep Bias = Favor High Noise, поскольку эксперт высокого шума — это место, где Wan 2.2 решает компоновку и движение.
LoRA стиля — установите Timestep Type = Linear или Shift и Timestep Bias = Favor High Noise.
Стиль, цветокоррекция и "пленка" живут в основном в высокошумной/ранней части траектории, поэтому предпочтение высокого шума позволяет LoRA переписать глобальный тон, оставляя детали поздней стадии в основном базовой модели.
LoRA персонажа — установите Timestep Type = Sigmoid (или Linear) и Timestep Bias = Balanced.
Идентичность и сходство больше опираются на эксперта низкого шума, но вы все еще хотите некоторое влияние на композицию и освещение. Для очень ориентированных на идентичность LoRA вы можете экспериментировать со слегка предпочитаемыми низкошумными шагами, но Balanced — самое безопасное значение по умолчанию.

5.7.3 EMA (Exponential Moving Average)

Use EMA — для LoRA EMA опционален и добавляет дополнительные накладные расходы. Большинство пользователей оставляют это OFF для LoRA Wan 2.2 и резервируют EMA для обучения полной модели. Безопасно игнорировать EMA, если вы не знаете, что хотите ансамблировать более гладкие веса.

5.7.4 Оптимизации Text Encoder — режим подписи vs trigger-word

Эти переключатели контролируют, остается ли text encoder загруженным и кэшируются ли embeddings.

Unload TE — если установлено ON, AI Toolkit удалит text encoder из VRAM между шагами и будет полагаться на статические embeddings (например, Trigger Word), эффективно выключая динамическое создание подписей во время обучения. Это экономит VRAM, но означает, что подписи не будут перекодироваться каждый шаг.
Cache Text Embeddings — когда установлено ON, AI Toolkit запускает text encoder один раз на подпись, кэширует embeddings, а затем безопасно освобождает text encoder из VRAM. Это настоятельно рекомендуется для обучения на основе подписей с ограниченной VRAM, поскольку избегает перекодирования каждый шаг, но все еще использует ваши подписи на клип.

Типичные паттерны:

Для обучения на основе подписей 24–32GB установите Cache Text Embeddings = ON и оставьте Unload TE = OFF. Это дает эффективное обучение с полной информацией подписей.
Для обучения только Trigger Word на очень высокой VRAM (H100/H200) вы можете установить Unload TE = ON и полагаться на единственный trigger токен вместо полных подписей.

5.7.5 Differential Output Preservation (DOP)

Differential Output Preservation — это опциональная регуляризация, которая поощряет LoRA вести себя как чистое остаточное редактирование базовой модели:

AI Toolkit рендерит два предсказания:

одно с базовой моделью (без LoRA), и
одно с включенным LoRA.

Он штрафует различия между этими выходами, кроме тех мест, где вы явно хотите изменений (через ваш Trigger Word и подписи).

Ключевые поля:

Differential Output Preservation — главный переключатель.
DOP Loss Multiplier — сила регуляризационной loss.
DOP Preservation Class — токен класса, например, person, scene или landscape, который описывает, что должно быть сохранено.

Использование:

Для LoRA стиля и персонажа DOP может помочь сохранить отличный базовый реализм Wan нетронутым, пока LoRA добавляет контролируемую модификацию. Простой рецепт:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = person для LoRA персонажей, или scene / landscape для широких LoRA стилей, если доступно.

Для LoRA движения / камеры вам обычно не нужен DOP; изменение поведения уже локализовано, и DOP примерно удваивает вычисления.

Важная заметка о совместимости:

DOP работает, переписывая промпты каждый шаг (заменяя ваш Trigger Word на Preservation Class в одной из веток). Из-за этого DOP требует, чтобы text encoder перекодировал промпты каждый шаг, и не совместим с Cache Text Embeddings.
Если вы включаете DOP ON:

вы должны установить Trigger Word на панели JOB,
и должны держать Cache Text Embeddings = OFF, чтобы text encoder оставался активным и мог перекодировать измененные промпты каждый шаг.

На H100/H200 дополнительная вычислительная стоимость DOP обычно приемлема для высококачественных LoRA персонажей и стилей.

5.8 Панель ADVANCED — Differential Guidance (опционально)

Если ваш билд предоставляет панель ADVANCED с:

Do Differential Guidance
Differential Guidance Scale

вы можете рассматривать это как дополнительный трюк, специфичный для AI-Toolkit:

Включение Do Differential Guidance = ON с Scale = 3 говорит модели фокусироваться больше на разнице между базовыми и модифицированными LoRA предсказаниями, похоже по духу на DOP, но реализовано как guidance term.
Это может заставить целенаправленные редактирования (например, "неоновый контурный стиль" или "орбитальное поведение камеры") сходиться быстрее без повышения Learning Rate.
Если сэмплы выглядят нестабильными или слишком резкими рано в обучении, вы можете понизить scale до 2. Если обучение кажется очень медленным, вы можете экспериментировать с 4.

Большинство пользователей могут безопасно оставить это OFF для своих первых LoRA Wan 2.2 и экспериментировать, когда освоятся.

5.9 Панель DATASETS — подключение вашего датасета Wan T2V

Каждый блок Dataset соответствует одной записи во внутреннем списке datasets:.

Для одного датасета Wan T2V:

Target Dataset — выберите вашу папку датасета Wan T2V (например, wan_orbit_clips или wan_char_zxq_clips), содержащую ваши видео и подписи.
LoRA Weight — установите на 1, если не смешиваете несколько датасетов и хотите их перебалансировать.
Default Caption — используется только когда отдельные клипы не имеют .txt подписи. Например:

Персонаж/стиль: "портрет zxqperson, zxqstyle, кинематографическое освещение".
Движение: "орбита 360 вокруг субъекта, zxq_orbit".

Caption Dropout Rate — значение вроде 0.05 сбрасывает подписи для 5% сэмплов, чтобы модель также обращала внимание на визуалы, а не переобучалась на формулировки.
Если вы сильно полагаетесь на Cache Text Embeddings, будьте здесь консервативны; caption dropout наиболее эффективен, когда text encoder активен и подписи могут варьироваться.
Settings → Cache Latents — для LoRA видео это обычно OFF, потому что кэширование VAE latents для многих кадров тяжело для диска и RAM. Вместо этого держите ваши исходные видео высокого качества.
Settings → Is Regularization — оставьте OFF, если у вас нет выделенного датасета регуляризации.
Flipping (Flip X / Flip Y) — для большинства LoRA видео держите оба OFF:

горизонтальные перевороты могут нарушить семантику движения влево/вправо и асимметрию персонажа,
вертикальные перевороты редко подходят для реальных съемок.

Resolutions — включите разрешения, в которые вы хотите, чтобы AI Toolkit делал bucketing:

На 24–32GB включите 512, опционально 768, если VRAM позволяет, и отключите 1024+.
На H100/H200 вы можете включить 768 и 1024 для соответствия предпочтительной рабочей точке модели.

Num Frames — установите Num Frames = 33 для базового рецепта LoRA видео 24–32GB.
33 следует правилу 4n+1 (4·8+1), примерно вдвое сокращая стоимость по сравнению с полным обучением на 81 кадр, все еще давая четкий временной паттерн.

AI Toolkit будет сэмплировать 33 кадра равномерно по длительности каждого клипа; вам нужно только обрезать клипы так, чтобы движение, которое вас интересует, занимало большую часть клипа.

На H100/H200 вы можете довести Num Frames до 41 или 81 и комбинировать это с bucket'ами 768–1024 px и рангом 16–32 для очень сильных LoRA длинных последовательностей.

5.10 Панель SAMPLE — предпросмотр вашего LoRA

Панель SAMPLE предназначена для генерации превью-видео во время или после обучения.

Полезные настройки:

Num Frames — примерно сопоставьте это со значением обучения (например, 33 или 41), чтобы поведение было предсказуемым.
Sampler / Scheduler — используйте FlowMatch-совместимый сэмплер, который соответствует расписанию шума модели.
Prompt / Negative Prompt — используйте тот же Trigger Word и концепты, на которых вы обучали, чтобы быстро оценить, делает ли LoRA правильные вещи.
Guidance Scale — во время превью обучения умеренные значения (например, 2–4) подходят; помните, что вы можете использовать другие значения в ваших обычных workflow'ах вывода позже.

Генерируйте сэмплы на нескольких чекпоинтах (например, каждые 250–500 шагов) и сохраняйте те, которые визуально балансируют силу и стабильность.

6. Настройки обучения Wan 2.2 T2V 14B LoRA

Этот раздел суммирует практические рецепты для трех основных типов LoRA.

6.1 LoRA видео персонажа (идентичность / аватар)

Цель: сохранить лицо, тело и общую идентичность персонажа через множество промптов и сцен.

Датасет:

10–30 коротких клипов или изображений персонажа с различными позами, фонами и освещением.
Подписи включают Trigger Word и класс, например:
"портрет [trigger], молодая женщина, повседневная одежда, студийное освещение".

Ключевые настройки для Wan 2.2 T2V 14B обучение LoRA текст-в-видео:

Num Frames — 33 на 24GB; 41 или 81 на H100/H200.
Resolutions — 512 или 768; добавьте 1024 на высокой VRAM.
Multi-stage — High Noise = ON, Low Noise = ON, Switch Every = 10 (локально) или 1 (облако).
Timestep Type / Bias — Linear (или Sigmoid) с Balanced bias, чтобы захватить и композицию, и low-noise детали идентичности.
Linear Rank — 16 (24GB) или 16–32 (H100/H200) для более нюансированной идентичности.
DOP — опционально включить для LoRA персонажей, когда вы хотите сохранить базовый реализм:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = person
Cache Text Embeddings = OFF (требуется для работы DOP)

Steps — 2000–3000, проверяя сэмплы каждые 250–500 шагов.

6.2 LoRA видео стиля (пленочный look / аниме / цветокоррекция)

Цель: наложить сильный визуальный стиль, сохраняя контент гибким.

Датасет:

10–40 изображений или клипов, которые разделяют один и тот же стиль через разные субъекты и сцены.
Подписи описывают look (например, пленка, мазки кисти, палитра), а не точные объекты.

Ключевые настройки для Fine-tuning LoRA Wan 2.2 T2V:

Num Frames — 33–41 для большинства случаев использования; 81 на больших GPU для 5-секундных клипов.
Resolutions — 512–768 на 24GB; 768–1024 на высокой VRAM.
Multi-stage — High Noise = ON, Low Noise = ON, Switch Every = 10 (локально) или 1 (облако).
Timestep Type / Bias — Linear или Shift с Timestep Bias = Favor High Noise, чтобы LoRA мог переписать глобальный цвет и контраст там, где композиция еще подвижна.
Linear Rank — 16 для простых стилей; 16–32 для сложных, кинематографических видов.
DOP — рекомендуется для LoRA стилей, когда вы хотите сохранить базовый реализм:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = scene / landscape или подобное
Cache Text Embeddings = OFF

Steps — 1500–2500, останавливаясь, когда стиль выглядит сильным, но не пережаренным.

6.3 LoRA движения / камеры (орбиты, панорамы, движения долли)

Цель: изучить новые движения камеры или паттерны движения, которые вы можете применить ко многим субъектам.

Датасет:

10–30 клипов 3–8с, каждый показывающий целевое движение.
Держите движение консистентным (например, все — орбита 180 или все — боковая прокрутка), но варьируйте субъекты и сцены.
Подписи явно указывают ключевое слово движения ("орбита 180 вокруг субъекта", "боковая прокрутка атакующей анимации").

Ключевые настройки для ComfyUI Wan2.2 текст в видео LoRA:

Num Frames — 33 на 24GB, 41–81 на больших GPU.
Resolutions — 512 (и 768, если VRAM позволяет).
Multi-stage — High Noise = ON, Low Noise = ON, Switch Every = 10 (локально) или 1 (облако).
Timestep Type / Bias — Linear с Timestep Bias = Balanced, чтобы и ранняя композиция, и позднее уточнение видели обновления; движение по своей природе опирается на высокий шум.
Linear Rank — ранг 16 обычно достаточен; движение больше о поведении, чем о мелких деталях.
DOP — обычно держите OFF; движение уже локализовано, и DOP удваивает forward passes.
Steps — 1500–2500; смотрите превью, чтобы убедиться, что движение обобщается за пределы ваших тренировочных клипов.

7. Экспорт и использование вашего Wan T2V LoRA

После завершения обучения вы можете использовать ваш Wan 2.2 T2V 14B LoRA двумя простыми способами:

Run LoRA — откройте страницу Run LoRA для Wan 2.2 T2V 14B. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который вы обучили на RunComfy, или импортировать LoRA‑файл, обученный в AI Toolkit, а затем запускать инференс через playground или API. RunComfy использует ту же базовую модель и полное определение пайплайна AI Toolkit из вашей training‑конфигурации, поэтому что вы видели во время обучения, то и получите в инференсе — такое выравнивание training/inference помогает сохранять результаты согласованными с вашими training‑samples.
ComfyUI workflow'ы — запустите экземпляр ComfyUI и постройте свой собственный workflow, добавьте ваш LoRA и точно настройте вес LoRA и другие настройки для более детального контроля.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Содержание

1. Обзор Wan 2.2 T2V 14B для обучения LoRA

Дизайн двойного трансформера "высокий шум / низкий шум"

2. Где обучать Wan 2.2 T2V LoRA (локально vs облако)

Вариант A — Локальный AI Toolkit (ваш собственный GPU)

Вариант B — Облачный AI Toolkit на RunComfy (H100 / H200)

3. Ожидания по оборудованию и VRAM для Wan 2.2 T2V LoRA

4. Создание датасета Wan 2.2 T2V LoRA

4.1 Решите, какой тип LoRA вы обучаете

4.2 Разрешение и соотношение сторон

4.3 Длина видеоклипа и Num Frames

4.4 Стратегия подписей

5. Пошагово: обучение Wan 2.2 T2V 14B LoRA в AI Toolkit

5.1 Панель JOB — базовые метаданные задания

5.2 Панель MODEL — базовая модель Wan 2.2 T2V

5.3 Панель QUANTIZATION — 4-бит ARA + text encoder float8

5.4 Панель MULTISTAGE — обучение экспертов высокого и низкого шума

5.5 Панель TARGET — ранг и емкость LoRA

5.6 Панель SAVE — расписание чекпоинтов

5.7 Панель TRAINING — основные гиперпараметры и режим text encoder

5.7.1 Основные настройки обучения

5.7.2 Timestep Type и Timestep Bias — где фокусируется LoRA

5.7.3 EMA (Exponential Moving Average)

5.7.4 Оптимизации Text Encoder — режим подписи vs trigger-word

5.7.5 Differential Output Preservation (DOP)

5.8 Панель ADVANCED — Differential Guidance (опционально)

5.9 Панель DATASETS — подключение вашего датасета Wan T2V

5.10 Панель SAMPLE — предпросмотр вашего LoRA

6. Настройки обучения Wan 2.2 T2V 14B LoRA

6.1 LoRA видео персонажа (идентичность / аватар)

6.2 LoRA видео стиля (пленочный look / аниме / цветокоррекция)

6.3 LoRA движения / камеры (орбиты, панорамы, движения долли)

7. Экспорт и использование вашего Wan T2V LoRA

Больше руководств по обучению LoRA AI Toolkit