Обучение LoRA Wan 2.2 I2V 14B в AI Toolkit

WAN 2.2 I2V 14B обучение LoRA (изображение→видео) превращает одно изображение в 5-секундные клипы с управляемым движением, движением камеры и временной согласованностью. К концу этого руководства вы сможете:

Проектировать датасеты Wan I2V LoRA для случаев использования движения, стиля и персонажей (и знать, сколько клипов вам действительно нужно).
Понимать, как двойные эксперты high-noise / low-noise Wan, настройки timestep, Num Frames и разрешение взаимодействуют во время обучения.
Настраивать панели AI Toolkit (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, TRAINING, DATASETS, SAMPLE) для стабильной работы на 24GB и для более крупных облачных конфигураций H100/H200.

Эта статья является частью серии обучения LoRA AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA AI Toolkit перед погружением в это руководство.

Содержание

1. Что делает Wan 2.2 I2V 14B особенным?
2. Где запускать Обучение LoRA для WAN 2.2
3. Проектирование датасета для Wan I2V LoRA
4. Особенности Wan 2.2 I2V, которые нужно понять
5. Как обучить LoRA для WAN 2.2 I2V 14B пошагово с AI Toolkit
6. AI Toolkit обучение LoRA WAN 2.2: настройки для движения, стиля и персонажа
7. Устранение распространённых проблем Wan I2V LoRA
8. Экспорт и использование вашей Wan I2V LoRA

1. Что делает Wan 2.2 I2V 14B особенным?

Wan 2.2 I2V 14B ("A14B") — это вариант изображение→видео Wan 2.2. Архитектурно это двухэтапный Mixture-of-Experts (MoE) трансформер. Есть два отдельных трансформера с 14B параметрами. High-noise трансформер обрабатывает ранние, очень шумные таймстепы и отвечает за глобальную композицию, траекторию движения и движение камеры. Low-noise трансформер обрабатывает поздние, чистые таймстепы и отвечает за мелкие детали, идентичность и текстуру.

Во время инференса пайплайн разделяет таймстепы около границы примерно 875/1000 расписания шума и направляет их к high-noise или low-noise трансформеру. На практике каждый эксперт обрабатывает примерно половину процесса денойзинга. Wan 2.2 I2V генерирует до 81 кадра при 16 FPS, что составляет около 5 секунд видео.

Для WAN 2.2 I2V 14B обучение LoRA (изображение→видео) это имеет три ключевых последствия. Вы можете выбрать обучение одного или обоих этапов. Вы можете смещать обучение в сторону композиции и движения (high noise) или идентичности и деталей (low noise). И поскольку вы обрабатываете последовательности кадров, количество кадров, разрешение, VRAM и настройки квантизации/выгрузки имеют гораздо большее значение, чем для модели только изображений.

AI Toolkit предоставляет эти элементы управления в основном через панели MULTISTAGE, TRAINING, TARGET и DATASETS.

2. Где запускать Обучение LoRA для WAN 2.2

Вы можете запустить этот рабочий процесс обучения LoRA Wan 2.2 I2V либо в облачном AI Toolkit на RunComfy, либо на локальной установке AI Toolkit. Интерфейс и панели одинаковы; меняется только оборудование.

2.1 RunComfy Cloud AI Toolkit (рекомендуется для первых запусков)

Если вы не хотите управлять CUDA, драйверами или загрузками больших моделей, используйте облачный AI Toolkit на RunComfy:

👉 RunComfy AI Toolkit trainer

На этой странице вы получаете предустановленный интерфейс AI Toolkit в браузере. Вы можете загружать датасеты, настраивать задания точно так же, как в этом руководстве, и запускать обучение на GPU H100 (80 ГБ) или H200 (141 ГБ). Это самый простой способ надёжно воспроизвести руководство без локальной настройки.

2.2 Локальный AI Toolkit

Если вы предпочитаете запускать локально: установите репозиторий AI Toolkit следуя README (Python + PyTorch для обучения и Node для интерфейса), затем запустите интерфейс (npm run build_and_start в ui/). Откройте http://localhost:8675, и вы увидите те же панели, что и на скриншотах и в описаниях здесь.

3. Проектирование датасета для Wan I2V LoRA

Wan 2.2 I2V обучается на парах видеоклип + подпись. Каждый обучающий образец — это последовательность кадров плюс текст. В AI Toolkit вам не нужно вручную нарезать каждый клип до одинаковой длины. Вместо этого вы настраиваете Num Frames в панели DATASETS, и загрузчик данных равномерно выберет это количество кадров из каждого видео, автоматически обрабатывая клипы разной продолжительности.

3.1 Решите, какой тип LoRA вы обучаете

Как вы устанавливаете гиперпараметры, сильно зависит от вашей цели:

LoRA движения/камеры фокусируется на паттернах типа "орбита 360 вокруг объекта", "медленный долли зум", "дрожание ручной камеры" или конкретных экшн-битах.
LoRA стиля делает видео похожим на определённую плёнку, аниме-стиль или живописный вид, сохраняя при этом базовое движение и композицию сцены Wan.
LoRA персонажа пытается сохранить конкретного персонажа или лицо последовательно через множество сцен и движений.

Wan 2.2 I2V может делать все три. LoRA движения больше опираются на этап high-noise, тогда как LoRA стиля и персонажа больше опираются на этап low-noise плюс очень согласованные визуалы.

3.2 Видеоклипы и обрезка

Используйте реальные видеоклипы (.mp4, .mov и т.д.), не GIF-ы. Длина клипа может варьироваться (например 5–30 секунд). AI Toolkit равномерно выберет обучающие кадры вдоль каждого клипа согласно вашей настройке Num Frames.

Единственное, что вы всегда должны делать вручную — это обрезать и подрезать каждый клип так, чтобы интересующее вас движение начиналось быстро и не было много "стояния" в начале или конце. Особенно для LoRA движения вы хотите, чтобы движение занимало почти весь клип — например, полный оборот, полное движение долли или полный жест.

3.3 Сколько клипов вам нужно?

Как грубое правило:

Простая LoRA движения, обучающая одному типу движения камеры, обычно хорошо обучается на 10–30 коротких клипах (~3–8с), где целевое движение очень чёткое и занимает большую часть кадра.
LoRA стиля обычно требует 10–40 изображений или клипов, которые покрывают разные сцены, освещение и объекты, но все разделяют один и тот же вид и цветовую обработку.
LoRA персонажа на I2V ведёт себя больше как LoRA изображения. Как минимум, нацельтесь на 10–30 коротких клипов одного и того же персонажа с разнообразными позами, масштабами, углами и фонами; если вы можете комфортно достичь 20–40 клипов, сходство и надёжность обычно улучшаются.

3.4 Подписи для клипов I2V

Каждый видеофайл может опционально иметь подпись .txt с тем же базовым именем (например castle_orbit.mp4 и castle_orbit.txt). AI Toolkit также поддерживает Default Caption, которая используется, когда у клипа нет собственной подписи.

Хорошие паттерны подписей:

Для LoRA движения кодируйте движение явно в тексте, например:
orbit 360 around the subject, orbit 180 around the subject или slow dolly in toward the character.
Для LoRA стиля описывайте вид, а не содержание сцены, например:
grainy 16mm film look, high contrast, warm tint.
Для LoRA персонажа включите триггер-слово плюс класс, например:
frung, young woman, casual clothing (где frung — ваш триггер-токен).

Вы также можете комбинировать Trigger Word, установленное в панели JOB, с подписями, содержащими [trigger]. AI Toolkit заменит [trigger] на выбранную вами триггер-строку при загрузке датасета, так что вам не нужно жёстко кодировать имя триггера в каждой подписи.

4. Особенности Wan 2.2 I2V, которые нужно понять

4.1 High-noise vs Low-noise трансформеры

Два трансформера Wan ведут себя примерно так:

High-noise трансформер работает на таймстепах близко к началу процесса диффузии (примерно 1000 до ~875). Он настраивает глобальную композицию и грубые формы и решает, куда идут объекты, как движется камера и какой будет траектория движения. Он критически важен для движения и компоновки.

Low-noise трансформер работает на таймстепах примерно от 875 до 0. Он уточняет детали, текстуры, сходство лица и микродвижения. Он критически важен для идентичности, текстуры и резкости.

На практике обучение только этапа high-noise может научить новым типам движения и композиции, но имеет тенденцию недообучать детали. Обучение только этапа low-noise с трудом существенно меняет движение или компоновку. Для большинства LoRA вы должны обучать оба этапа и затем направлять акцент используя Timestep Bias в панели TRAINING.

4.2 Кадры, FPS и скорость

Wan 2.2 I2V 14B может генерировать до 81 кадра при 16 FPS, что составляет 5 секунд. На практике допустимые количества кадров видео следуют правилу "4n+1" (например 9, 13, 17, 21, 33, 41, 81…). Вы можете думать о длинах видео в этом семействе; 1 кадр тоже поддерживается и эффективно сводит I2V к однокадровому режиму, похожему на изображение, для AI Toolkit обучение LoRA WAN 2.2.

В AI Toolkit есть два отдельных регулятора Num Frames. Num Frames в панели DATASETS контролирует, сколько кадров на клип выбирается для обучения. Num Frames в панели SAMPLE контролирует длину ваших превью-видео. Они не должны точно совпадать, но сохранение их похожими делает поведение легче понять.

Хорошая отправная точка для обучения — 41 кадр (около 2,5 секунд). На GPU 80–96 ГБ (класса H100) вы можете дойти до полной конфигурации 81 кадр. Более короткие длины типа 21 или 33 кадров можно использовать для снижения нагрузки на VRAM и времени шага на маленьких GPU, ценой захвата меньшего временного контекста.

4.3 Разрешение и площадь пикселей

Официальные демо Wan обычно держат эффективную площадь около 480×832 ≈ 400k пикселей, и пространства Hugging Face округляют размеры до кратных 16 или 32.

Для WAN 2.2 I2V 14B обучение LoRA (изображение→видео) с AI Toolkit:

На GPU 24 ГБ используйте корзины разрешения типа 512 и 768. Избегайте 1024×1024 если вы не очень агрессивно квантизированы и/или не используете выгрузку слоёв; видео при 1024² плюс 41–81 кадр тяжёлое.
На GPU 48 ГБ+ или H100/H200 вы можете безопасно добавить корзину 1024 и даже использовать кинематографические широкоэкранные разрешения около значений типа 1024×576, 1024×608 или 1024×640.

AI Toolkit автоматически распределит и уменьшит масштаб ваших видео до выбранных разрешений при загрузке датасета.

5. Как обучить LoRA для WAN 2.2 I2V 14B пошагово с AI Toolkit

Мы предполагаем, что у вас есть как минимум GPU класса 24 ГБ, поэтому настройки ниже являются безопасной базой. Если у вас более мощная карта или вы используете облачный AI Toolkit на RunComfy, некоторые панели также включают краткие заметки о том, как масштабировать настройки.

5.1 Панель JOB

В панели JOB вы устанавливаете базовые метаданные и, опционально, триггер-токен.

Training Name
Используйте любое описательное имя; оно становится именем папки для контрольных точек и сэмплов. Примеры: wan_i2v_orbit_v1, wan_i2v_style_neon, wan_i2v_char_frung_v1.
GPU ID
При локальной установке это указывает на ваш физический GPU. На облачном AI Toolkit RunComfy вы можете оставить по умолчанию; фактический тип машины (H100/H200) выбирается позже в Training Queue.
Trigger Word (опционально)
Используйте триггер для LoRA персонажа или стиля, где вы хотите выделенный токен типа frung или wan_cam_orbit. Если подписи вашего датасета содержат [trigger], AI Toolkit автоматически подставит значение вашего Trigger Word в эти подписи при загрузке.

Для чистых LoRA движения вам часто не нужно триггер-слово, потому что поведение уже закодировано во фразах типа "orbit 360 around the subject". Для персонажей и стилей настоятельно рекомендуется использовать триггер, чтобы позже у вас был чистый переключатель вкл/выкл для вашей LoRA.

5.2 Панели MODEL и QUANTIZATION

Эти панели контролируют, какой чекпоинт модели Wan используется и насколько агрессивно он квантизируется.

Панель MODEL

Model Architecture
Выберите Wan 2.2 I2V (14B).
Name or Path
Hugging Face model id (repo id) для базового чекпоинта, например: ai-toolkit/Wan2.2-I2V-A14B-Diffusers-bf16.

В большинстве сборок AI Toolkit выбор Wan 2.2 I2V (14B) автозаполнит это значение; оставьте его как есть, если у вас нет причин менять.
Low VRAM
Включите Low VRAM ON для потребительских GPU 24 ГБ или любой карты, которая также управляет вашим дисплеем. На картах 48 ГБ+ (включая H100/H200) вы часто можете оставить OFF для скорости если вы держите нагрузку обучения разумной (например корзины 512/768 и ~41 кадр). Если вы видите периодические OOM (часто вызванные самой большой корзиной разрешения) или вы хотите продвинуть корзины 1024 и/или 81 кадр, включите Low VRAM ON для стабильности.
Layer Offloading
Этот переключатель передаёт части модели в RAM CPU вместо хранения всех слоёв резидентно в VRAM. Это нужно только если вы пытаетесь запустить Wan I2V на очень маленьком GPU (около 10–12 ГБ VRAM) и имеете много системной RAM (64 ГБ+). Это может примерно удвоить время шага, но может снизить пиковую VRAM ниже ~9 ГБ. Для GPU 24 ГБ начните с Layer Offloading OFF и включайте только если у вас всё ещё ошибки нехватки памяти.

На больших GPU / RunComfy:

На 48 ГБ+ или на H100/H200 начните с Layer Offloading OFF. Держите Low VRAM OFF если хотите максимальную скорость, но сочетайте с консервативными корзинами (512/768) и кадрами (≈41) сначала. Если вы продвигаете 1024/81 и получаете OOM пики, включите Low VRAM ON (или уберите 1024) для стабилизации запуска.

Панель QUANTIZATION

Transformer
На GPU 24–32 ГБ установите Transformer в 4bit with ARA. Это использует 4-битную квантизацию вместе с Accuracy Recovery Adapter, так что использование VRAM близко к простому 4-бит, пока качество остаётся гораздо ближе к bf16.
Text Encoder
Установите Text Encoder в float8 (или qfloat8). Это снижает VRAM и вычисления для текстового энкодера с незначительным влиянием на качество LoRA Wan 2.2 I2V.

Это отражает официальные примеры конфигураций AI Toolkit для видео LoRA Wan 2.2 и является основной причиной, почему обучение практично на картах 24 ГБ. Если вы столкнётесь с проблемами стабильности или сильными замедлениями с ARA на конкретной конфигурации, вы можете откатиться к qfloat8 для Transformer; это использует больше VRAM, но ведёт себя очень похоже в терминах качества.

На больших GPU / RunComfy:

На H100/H200 или рабочей станции 48–96 ГБ вы можете либо сохранить 4bit with ARA и потратить дополнительную VRAM на более высокое разрешение, больше кадров или более высокий ранг LoRA, либо переключить Transformer на чистый вариант float8 / qfloat8 для более простого стека. Полный возврат к bf16 везде редко нужен для Обучение LoRA для WAN 2.2.

5.3 Панель MULTISTAGE (high / low noise)

Панель MULTISTAGE позволяет вам решить, какого(их) эксперта(ов) Wan обучать и как часто обучающий переключается между ними.

Stages to Train
Держите и High Noise, и Low Noise в ON для большинства LoRA. High noise контролирует композицию и движение; low noise контролирует детали и идентичность.
Switch Every
Это значение контролирует, сколько шагов вы выполняете на одном эксперте перед переключением на другого. При High Noise = ON, Low Noise = ON, Switch Every = 10 и Steps = 3000, AI Toolkit обучает:

Шаги 1–10 на high-noise трансформере,
Шаги 11–20 на low-noise трансформере,
и повторяет это чередование до завершения обучения.

На больших GPU вы можете использовать Switch Every = 1 (чередовать каждый шаг) только если оба эксперта остаются резидентными в VRAM (без Low VRAM/offload/swap). Если Low VRAM или любая выгрузка/свопинг задействованы, каждое переключение может вызвать дорогую выгрузку/загрузку, и Switch Every = 1 становится крайне медленным. В этом случае предпочтите Switch Every = 10–50 для снижения накладных расходов свопа.

Для базы GPU 24 ГБ используйте:

High Noise = ON
Low Noise = ON
Switch Every = 10-50

На больших GPU / RunComfy:

Если оба эксперта остаются резидентными (Low VRAM OFF, без выгрузки), вы можете установить Switch Every = 1 для немного более плавного чередования. Если вы видите медленное время шага или свопинг, используйте 10–50 вместо этого.

5.4 Панель TARGET (настройки сети LoRA)

В панели TARGET вы настраиваете, какой тип адаптера вы обучаете и насколько он "широкий".

Target Type
Установите Target Type в LoRA.
Linear Rank
Linear Rank контролирует ёмкость LoRA на блок. Более высокий ранг увеличивает ёмкость, но также использование VRAM и риск переобучения. Для Wan 2.2 I2V практические значения по умолчанию:

LoRA движения и камеры: Rank 16 обычно достаточно, потому что они модифицируют поведение больше, чем мелкие визуальные детали.
LoRA стиля: начните с Rank 16; переходите к 32 только если стиль сложный и у вас есть запас VRAM.
LoRA персонажа: начните с Rank 16 (даже на больших GPU). Переходите к 32 только после подтверждения, что ваш запуск стабилен (без OOM пиков) и вам конкретно нужна бо́льшая ёмкость для крупных планов лиц в высоком разрешении.

На очень больших GPU Rank 32 может помочь для богатых стилей и требовательной работы с персонажами, но это не требуется для получения хорошей LoRA и может сделать OOM пики более вероятными при сочетании с большими корзинами и многими кадрами.

5.5 Панель SAVE

Панель SAVE контролирует, как часто записываются контрольные точки и в какой точности.

Data Type
Используйте BF16 или FP16. Оба подходят для LoRA. BF16 немного более численно стабилен на современных GPU.
Save Every
Установите Save Every около 250. Это даёт вам контрольную точку каждые 250 шагов.
Max Step Saves to Keep
Установите Max Step Saves to Keep между 4 и 6. Это держит использование диска под контролем, оставляя вам несколько более ранних контрольных точек для отката.

Вам не нужно использовать последнюю контрольную точку. Очень часто лучшие сэмплы приходят откуда-то около 2000–4000 шагов. Конфигурация панели SAMPLE ниже объясняет, как это судить.

Если вы отключите сэмплирование во время обучения (рекомендуется ниже для текущих сборок Wan I2V), сохраняйте несколько контрольных точек (например каждые 250 шагов) и оценивайте их позже с использованием отдельного рабочего процесса инференса.

5.6 Панель TRAINING

Панель TRAINING содержит большинство важных регуляторов: размер батча, скорость обучения, таймстепы, функцию потерь и обработку текстового энкодера.

Основные гиперпараметры

Настройте основные параметры обучения так для видео LoRA Wan I2V 24 ГБ:

Batch Size
Начните с 1. Видеомодели тяжёлые, и 1 реалистично даже на картах 24 ГБ. На H100/H200 вы можете позже экспериментировать с размерами батча 2–4.
Gradient Accumulation
Оставьте Gradient Accumulation на 1 изначально. Эффективный размер батча это размер батча умноженный на накопление градиента. Вы можете увеличить до 2 или 4 если VRAM крайне ограничена и вы хотите немного больший эффективный батч, но выгоды скромные для видео.
Learning Rate
Начните с Learning Rate = 0.0001. Это значение по умолчанию в примерах AI Toolkit и стабильно для Wan LoRA. Если обучение выглядит шумным или LoRA быстро выходит за пределы, вы можете снизить до 0.00005 в середине запуска и продолжить с последней контрольной точки.
Steps – типичные диапазоны:

Маленькая, сфокусированная LoRA движения с ~10–20 клипами: 1500–2500 шагов.
LoRA персонажа или стиля с 20–50 клипами: 2000–3000 шагов.
Очень большие датасеты могут идти выше, но обычно лучше улучшить качество данных (подписи, разнообразие), чем продвигаться далеко за 3000–4000 шагов.
1000 шагов: ~12–18 часов
1500 шагов: ~18–27 часов
2000 шагов: ~24–36 часов
3000 шагов: ~35–55 часов

Weight Decay
Оставьте Weight Decay на 0.0001 если у вас нет конкретной причины менять; это обеспечивает мягкую регуляризацию.
Loss Type
Держите Loss Type как Mean Squared Error (MSE). Wan 2.2 использует flow-matching планировщик шума, и MSE — стандартная функция потерь для этой настройки.

Таймстепы и планировщик

Timestep Type
Для Wan 2.2 I2V Linear — стандартный Timestep Type и хорошо работает для большинства типов LoRA. Он распределяет обновления равномерно вдоль flow-matching расписания и хорошо работает с разделением между high-noise и low-noise экспертами.
Timestep Bias
Timestep Bias контролирует, какую часть траектории вы акцентируете:

Balanced – обновления распределены между high-noise и low-noise таймстепами; это безопасный стандарт для всех типов LoRA.
Favor High Noise – больше фокусируется на ранних, шумных шагах, где Wan решает глобальную компоновку, движение и цвет.
Favor Low Noise – больше фокусируется на поздних, чистых шагах, где живут мелкие детали и идентичность.
LoRA движения/камеры – начните с Timestep Type = Linear, Timestep Bias = Balanced. Для очень "чистых" LoRA движения камеры вы можете экспериментировать с Favor High Noise чтобы больше опираться на high-noise эксперта.
LoRA стиля – используйте Timestep Type = Linear (или Shift) и Timestep Bias = Favor High Noise, чтобы LoRA переписывала глобальный тон и цвет, пока базовая модель всё ещё обрабатывает детали поздней стадии.
LoRA персонажа – используйте Timestep Type = Sigmoid (или Linear) и Timestep Bias = Balanced. Идентичность и сходство больше зависят от low-noise шагов, но сохранение смещения Balanced позволяет обоим экспертам вносить вклад; только если вы конкретно хотите дополнительный фокус на микро-деталях, вам следует попробовать лёгкое смещение к low-noise.

Под капотом Wan 2.2 I2V использует flow-matching планировщик шума. AI Toolkit устанавливает планировщик и соответствующий сэмплер автоматически для архитектуры Wan 2.2, поэтому вы в основном направляете поведение через Timestep Type, Timestep Bias и настройки Multi-stage выше.

EMA (экспоненциальное скользящее среднее)

Use EMA
Для LoRA EMA опционально и потребляет дополнительную VRAM и время. Большинство пользователей Wan LoRA оставляют Use EMA OFF и это редко нужно, если вы не делаете полные дообучения модели.

Оптимизации Text Encoder

В нижней части панели TRAINING находятся настройки Text Encoder Optimizations. Они контролируют, насколько агрессивно текстовый энкодер выгружается или кешируется.

Unload TE
Этот режим выгружает веса текстового энкодера, чтобы они больше не потребляли VRAM между шагами. Для LoRA Wan 2.2 I2V вы почти всегда полагаетесь на богатые подписи для каждого клипа, поэтому вы должны держать Unload TE OFF при обычном обучении на основе подписей. Рассматривайте Unload TE только если вы намеренно обучаете очень узкую LoRA "только триггер / пустой промпт", которая вообще не использует подписи датасета.
Cache Text Embeddings
Эта опция предварительно вычисляет эмбеддинги подписей один раз и повторно использует их, избегая повторных проходов текстового энкодера. Включите Cache Text Embeddings ON только когда ваши подписи статичны и вы не используете функции, которые изменяют или рандомизируют промпт на каждом шаге, такие как Differential Output Preservation, динамическая перезапись [trigger] в подписях, или что-либо сильно зависящее от поведения caption dropout. В этом случае AI Toolkit кодирует все обучающие подписи один раз, кеширует эмбеддинги на диск и может убрать текстовый энкодер из VRAM.

Если вы планируете использовать DOP, Caption Dropout или другие трюки с динамическим промптом, держите Cache Text Embeddings OFF, чтобы текстовый энкодер мог перекодировать реальный промпт каждый батч. Разделы Differential Output Preservation и Datasets объясняют эти взаимодействия подробнее.

Регуляризация – Differential Output Preservation (DOP)

Раздел Regularization раскрывает Differential Output Preservation (DOP), который помогает LoRA вести себя как остаточное редактирование вместо перезаписи базовой модели.

DOP сравнивает выход базовой модели (без LoRA) с выходом с включённой LoRA и добавляет штраф, когда LoRA изменяет аспекты, не связанные с вашим целевым концептом. Он пытается научить "что меняется, когда триггер присутствует" вместо "переобучить всю модель".

Для LoRA движения/камеры вам обычно не нужен DOP, потому что поведение движения уже достаточно локализовано. Включение DOP примерно удваивает вычисления, добавляя дополнительные прямые проходы.

Для LoRA стиля и персонажа DOP часто очень полезен для сохранения сильного базового реализма Wan нетронутым. Хорошая начальная конфигурация:

Differential Output Preservation: ON
DOP Loss Multiplier: 1
DOP Preservation Class: person для LoRA персонажа, или подходящий класс типа scene или landscape для LoRA стиля, если ваша сборка предоставляет эти опции.

Важное замечание о совместимости: Differential Output Preservation переписывает или дополняет текст промпта на каждом шаге (например заменяя ваше триггер-слово на слово класса сохранения). Из-за этого DOP несовместим с Cache Text Embeddings. Если вы включаете DOP ON, убедитесь, что Cache Text Embeddings OFF, чтобы текстовый энкодер видел обновлённый промпт на каждом батче.

5.7 Панель ADVANCED (Differential Guidance)

Если ваша сборка AI Toolkit раскрывает панель ADVANCED для этой модели, она может включать Do Differential Guidance и Differential Guidance Scale.

Differential Guidance вычисляет предсказания "с LoRA" vs "без LoRA" и подталкивает обучение к разнице между ними, похоже по духу на DOP, но реализовано на уровне guidance вместо отдельного члена функции потерь.

Практические рекомендации:

Включите Do Differential Guidance ON с Differential Guidance Scale около 3 для целенаправленных LoRA редактирования стиля (например "заставить камеру вращаться", "применить неоновый стиль"), где вы хотите, чтобы LoRA вела себя как чистый модификатор.
Для очень широких, тяжёлых LoRA стиля, которые переписывают весь вид, вы можете попробовать более низкие шкалы (1–2) или оставить OFF если LoRA кажется слишком слабой.

Если вы ограничены в вычислениях, вы можете безопасно оставить Differential Guidance OFF для ваших первых запусков и экспериментировать позже.

5.8 Панель DATASETS

Каждый блок датасета в AI Toolkit соответствует одной записи в списке datasets:, но в интерфейсе вы просто настраиваете одну или несколько карточек датасета.

Типичная конфигурация единственного датасета Wan I2V выглядит так:

Target Dataset
Выберите вашу загруженную папку видеодатасета Wan I2V, например wan_orbit_clips.
Default Caption
Эта подпись используется, когда у клипа нет файла подписи .txt. Примеры:

LoRA движения: orbit 360 around the subject

LoRA стиля: cinematic neon cyberpunk style

LoRA персонажа: frung, person, portrait (где frung — ваш триггер-токен).
Caption Dropout Rate
Это вероятность того, что подпись будет отброшена (заменена пустой подписью) для обучающего сэмпла. Для LoRA Wan I2V небольшое количество dropout поощряет модель использовать и визуальный контекст, и текст. Типичный начальный диапазон — 0.05–0.10 (5–10%) когда текстовый энкодер остаётся загруженным. Если вы решите включить Cache Text Embeddings в панели TRAINING, часто проще установить Caption Dropout Rate = 0 чтобы избежать постоянного отсутствия подписи у подмножества клипов.
LoRA Weight
Обычно установлен в 1. Вы меняете это только когда смешиваете несколько датасетов и хотите, чтобы один датасет считался больше или меньше в обучении.
Settings → Cache Latents
Держите это OFF для видеодатасетов Wan I2V (Num Frames > 1). Многие текущие сборки AI Toolkit не поддерживают кеширование латентов для многокадровых датасетов и завершатся ошибкой во время инициализации загрузчика данных с ошибкой типа:

caching latents is not supported for multi-frame datasets

Если вы намеренно устанавливаете Num Frames = 1 (обучение подобное изображению), кеширование латентов может работать и ускорить процесс.
Settings → Is Regularization
Оставьте Is Regularization OFF для вашего основного датасета. Если вы добавите отдельный регуляризационный датасет позже, вы установите Is Regularization этого датасета в ON.
Flipping
Flip X и Flip Y зеркально отражают кадры горизонтально или вертикально. Для большинства видеозадач вы должны держать оба OFF, особенно для LoRA движения, где отражение может инвертировать семантику движения влево/вправо, или для персонажей с асимметричными чертами. Для чисто стилевых LoRA вы можете экспериментировать с Flip X для увеличения вариации.
Resolutions
Выберите одну или несколько корзин разрешения. На GPU 24 ГБ вы обычно включаете 512 и оставляете 768 и 1024 отключёнными. На 48 ГБ+ или H100/H200 начните с 512 и 768 для стабильности, затем добавьте 1024 только если у вас есть явный запас VRAM и ваш запуск стабилен (корзинное обучение может вызвать скачок VRAM когда достигает самой большой корзины). AI Toolkit автоматически назначит клипы ближайшей корзине и уменьшит масштаб по необходимости.
Num Frames
Установите Num Frames в количество кадров на клип, которое вы хотите выбирать для обучения. Хорошая отправная точка — 41. На очень маленьких GPU (10–12 ГБ) с тяжёлой квантизацией и выгрузкой вы можете уменьшить это до 21 или даже 9 просто чтобы запустить обучение, ценой более короткого временного контекста.

Если вам нужно несколько датасетов (например основной датасет движения плюс маленький датасет "стиля"), вы можете добавить их все в панели DATASETS и использовать LoRA Weight плюс флаг Is Regularization для контроля их относительного влияния.

5.9 Панель SAMPLE (превью обучения)

Панель SAMPLE не влияет на обучение напрямую; она контролирует, как AI Toolkit периодически генерирует превью-видео, чтобы вы могли выбрать лучшую контрольную точку.

Важно (требование Wan I2V): Сэмплирование Wan 2.2 I2V — это изображение→видео. Каждый сэмпл должен включать пару промпт + контрольное изображение.

Если сэмплирование запускается во время обучения (например disable_sampling: false, skip_first_sample: false или force_first_sample: true) и у любого сэмпла отсутствует ctrl_img, шаг сэмплирования превью может завершиться ошибкой и остановить задание преждевременно. Во многих средах это проявляется как запутанная ошибка несоответствия тензора типа:

RuntimeError: The size of tensor a (36) must match the size of tensor b (16)

Исправление: в samples убедитесь, что каждый prompt имеет соответствующий ctrl_img (они всегда должны появляться парой). Не оставляйте строки сэмплов только с промптом.

6. AI Toolkit обучение LoRA WAN 2.2: настройки для движения, стиля и персонажа

Вот быстрые рецепты для распространённых типов LoRA Wan 2.2 I2V. Рассматривайте их как отправные точки и корректируйте на основе оценки контрольных точек (превью во время обучения могут быть отключены; см. панель SAMPLE).

6.1 LoRA движения/камеры

Цель: научить Wan новому движению типа orbit 360, orbit 180 или конкретного поворота камеры.

Используйте 10–30 коротких клипов (~3–8с) где целевое движение очень чёткое и занимает большую часть клипа. Подписи должны явно описывать движение, например orbit 180 around the subject или orbit 360 around a futuristic city.

Рекомендации по панелям:

MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (или 20–50 если Low VRAM/выгрузка вызывает медленный свопинг).
TARGET: Linear Rank = 16.
TRAINING: Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear, Timestep Bias = Balanced, DOP OFF.
DATASETS: Resolutions на 512/768, Num Frames = 33–41 (начните с 41; 81 возможно на H100/H200, но ожидайте ~2× время и больше VRAM), Caption Dropout Rate ≈ 0.05–0.1. Кеширование латентов OFF для многокадровых датасетов.

Обучайте с Save Every = 250. Превью сэмплирования: если вы включаете превью во время обучения, установите Sample Every = 250 и убедитесь, что каждая запись в samples включает и prompt, и ctrl_img (сэмплирование Wan I2V требует контрольного изображения).

При оценке контрольных точек фокусируйтесь на том, стабильно ли целевое движение через разные промпты и сцены; если оно работает только на почти-дубликатах ваших обучающих клипов, предпочтите улучшение разнообразия данных или небольшое увеличение шагов вместо сдвига смещения от Balanced.

6.2 LoRA стиля (видео-вид / грейдинг)

Цель: изменить визуальный стиль, уважая базовое движение и композицию Wan.

Используйте 10–40 изображений или клипов, которые все разделяют один и тот же вид, но покрывают разнообразные сцены и объекты, например grainy 16mm film look, high contrast, warm tint.

Рекомендации по панелям:

MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (или 20–50 если Low VRAM/выгрузка вызывает медленный свопинг).
TARGET: Linear Rank = 16 для простых стилей; 16–32 для сложных или кинематографических видов.
TRAINING: Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear (или Shift), Timestep Bias = Favor High Noise.
Regularization (DOP): Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class соответствующий вашему доминирующему объекту (часто person или scene), Cache Text Embeddings = OFF.
DATASETS: Resolutions 512/768 на 24 ГБ (и 512/768 на больших GPU, с опциональным 1024 только после стабильности), Num Frames = 33–41 на 24 ГБ (41–81 на H100/H200 если вы можете позволить время), Caption Dropout Rate около 0.05 если Cache Text Embeddings OFF. Кеширование латентов OFF для многокадровых датасетов.

Следите, применяется ли стиль последовательно через сцены и освещение. Если он начинает подавлять содержимое или делать всё одинаковым, попробуйте снизить learning rate в середине запуска, откатиться к более ранней контрольной точке или уменьшить ранг LoRA.

6.3 LoRA персонажа (сходство в видео)

LoRA персонажей на I2V более сложны, чем на моделях text-to-image, но они осуществимы.

Используйте 10–30 коротких клипов одного и того же персонажа с разнообразными позами, масштабами, углами и фонами; подписи должны всегда включать ваш Trigger Word плюс класс, например frung, young woman, casual clothing. Если вы можете собрать 20–40 клипов, надёжность идентичности обычно улучшается, но это не строго необходимо для получения пригодных результатов.

Рекомендации по панелям:

MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (или 20–50 если Low VRAM/выгрузка вызывает медленный свопинг).
TARGET: Linear Rank = 16 на 24 ГБ; 16–32 на GPU с высокой VRAM (используйте 32 когда у вас есть запас и вам важны крупные планы лиц высокого разрешения).
TRAINING: Learning Rate = 0.0001, Steps ≈ 2000–3000, Timestep Type = Sigmoid (или Linear), Timestep Bias = Balanced.
Regularization (DOP): Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class = person.
DATASETS: Начните с 512/768 (добавьте 1024 только после стабильности), Num Frames = 33–41 на 24 ГБ, или 41–81 на H100/H200 (81 значительно медленнее). Кеширование латентов OFF для многокадровых датасетов.

Опыт сообщества предполагает, что идентичность и сходство больше зависят от low-noise эксперта, но сохранение Timestep Bias = Balanced и использование сформированного Timestep Type (Sigmoid) обычно даёт лучший компромисс между сходством и общей стабильностью видео, чем сильное смещение к low noise.

7. Устранение распространённых проблем Wan I2V LoRA

The size of tensor a (36) must match the size of tensor b (16) at non-singleton dimension 1

Почему это происходит: на WAN 2.2 14B I2V (arch: wan22_14b_i2v) сэмплирование превью во время обучения — это изображение→видео и требует контрольного изображения. Если любая запись в samples имеет prompt, но отсутствует ctrl_img, шаг сэмплирования превью может завершиться ошибкой и иногда проявляется как несоответствие тензора выше.

Что делать: в samples убедитесь, что каждый prompt имеет соответствующий ctrl_img (они всегда должны появляться парой). Не оставляйте строки сэмплов только с промптом.

caching latents is not supported for multi-frame datasets

Это происходит, когда кеширование латентов включено на видеодатасете (Num Frames > 1).

Исправление: В панели DATASETS установите Cache Latents / Cache Latents to Disk = OFF для видеодатасетов Wan I2V.

Движение слишком быстрое по сравнению с источником

Это обычно происходит, если вы обучали с меньшим количеством кадров на клип, чем ваша настройка инференса. Например, вы могли обучать с 21 или 41 кадрами, но сэмплируете с 81 кадром при фиксированном FPS 16. Одно и то же движение "растягивается" по-разному.

Вы можете исправить это, снизив FPS в панели SAMPLE (только для воспроизведения), или обучая и сэмплируя с согласованным Num Frames типа 41, чтобы временное поведение было более предсказуемым.

Камера не двигается или композиция едва меняется

Если камера едва двигается или композиция выглядит как базовая модель:

Проверьте, что вы действительно обучаете этап high-noise и что Timestep Bias не установлен слишком сильно к низким таймстепам. Убедитесь, что High Noise ON в панели MULTISTAGE и Timestep Bias — Favor High для LoRA движения. Также проверьте, что подписи ясно описывают желаемое движение; Wan не может выучить движение, которое ни видно, ни названо.

Детали и лица выглядят хуже, чем базовый Wan

Если ваша LoRA удаляет детали или ухудшает лица:

Попробуйте немного увеличить Linear Rank (например с 16 до 32) и предпочесть low noise в Timestep Bias, чтобы больше обучающего сигнала попадало на поздние таймстепы, где живут идентичность и детали. Вы также можете снизить learning rate и продолжить с более ранней контрольной точки.

LoRA переобучается и работает только на сценах, похожих на обучающие

Если LoRA выглядит правильно только на сценах, очень похожих на обучающие данные:

Уменьшите общее количество Steps (например с 5000 до 3000), увеличьте разнообразие датасета и рассмотрите включение Differential Output Preservation, если он сейчас выключен. Если DOP уже ON и эффект всё ещё слишком узкий, немного снизьте ранг LoRA и/или learning rate.

Ошибки VRAM out-of-memory

Если обучение часто заканчивается нехваткой VRAM:

Уменьшите любую комбинацию из:

корзин разрешения (уберите 1024 и оставьте 512/768),
Num Frames (например с 41 до 21),
размера батча (держите на 1 если ещё не).

Включите Low VRAM ON, включите Layer Offloading ON если у вас только 10–12 ГБ VRAM и много системной RAM, и убедитесь, что квантизация установлена в float8 и для трансформера, и для текстового энкодера в панели QUANTIZATION. Если локальной VRAM всё ещё недостаточно, рассмотрите запуск того же задания AI Toolkit в облаке RunComfy с GPU H100 или H200, где вы можете держать настройки гораздо проще.

Если вы видите OOM даже на больших GPU (например H100), это обычно проблема пика корзины:

Уберите корзину 1024 пока запуск не станет стабильным, затем добавьте обратно позже.
Уменьшите Num Frames (41 → 33 → 21).
Держите Layer Offloading OFF если вам это действительно не нужно (это может сделать запуски медленнее и более склонными к свопу).
Если свопинг задействован, увеличьте MULTISTAGE Switch Every (10–50) чтобы избежать накладных расходов выгрузки/загрузки на каждом шаге.
Предпочитайте более агрессивную квантизацию для памяти: Transformer 4bit with ARA (или qfloat8 если ARA нестабилен) и Text Encoder float8/qfloat8.

Обучение намного медленнее, чем ожидалось (десятки секунд на шаг)

Обучение LoRA Wan 2.2 I2V медленное по природе: каждый шаг обрабатывает много кадров, и обучение обоих экспертов означает, что вам часто нужно больше общих шагов, чтобы дать каждому этапу достаточно обновлений.

Проверка реальности (типичные ожидания времени): при 41 кадре и смешанных корзинах 512/768/1024, 3000 шагов на H100 обычно занимают десятки часов (часто ~35–55 часов). Сэмплирование при 81 кадре примерно ~2× этих вычислений/времени. На меньших GPU (особенно с квантизацией + выгрузкой) видеть десятки секунд на шаг может быть нормальным.

Если это кажется неразумно медленным или продолжает замедляться со временем:

Уменьшите Num Frames (41 → 33 → 21).
Уберите корзину 1024 (останьтесь на 512/768).
Избегайте Layer Offloading если вам это действительно не нужно.
Если Low VRAM/выгрузка/свопинг включены, не используйте Switch Every = 1; используйте 10–50.
Если превью включены, держите сэмплирование редким (например Sample Every = 250), чтобы сэмплирование не прерывало обучение слишком часто.

👉 RunComfy AI Toolkit trainer

8. Экспорт и использование вашей Wan I2V LoRA

После завершения обучения вы можете использовать вашу Wan 2.2 I2V 14B LoRA двумя простыми способами:

Run LoRA — откройте страницу Run LoRA для Wan 2.2 I2V 14B. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который вы обучили на RunComfy, или импортировать LoRA‑файл, обученный в AI Toolkit, а затем запускать инференс через playground или API. RunComfy использует ту же базовую модель и полное определение пайплайна AI Toolkit из вашей training‑конфигурации, поэтому что вы видели во время обучения, то и получите в инференсе — такое выравнивание training/inference помогает сохранять результаты согласованными с вашими training‑samples.
Рабочие процессы ComfyUI – запустите экземпляр ComfyUI, постройте рабочий процесс, подключите вашу LoRA и тонко настройте её вес и другие параметры для более детального контроля.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Содержание

1. Что делает Wan 2.2 I2V 14B особенным?

2. Где запускать Обучение LoRA для WAN 2.2

2.1 RunComfy Cloud AI Toolkit (рекомендуется для первых запусков)

2.2 Локальный AI Toolkit

3. Проектирование датасета для Wan I2V LoRA

3.1 Решите, какой тип LoRA вы обучаете

3.2 Видеоклипы и обрезка

3.3 Сколько клипов вам нужно?

3.4 Подписи для клипов I2V

4. Особенности Wan 2.2 I2V, которые нужно понять

4.1 High-noise vs Low-noise трансформеры

4.2 Кадры, FPS и скорость

4.3 Разрешение и площадь пикселей

5. Как обучить LoRA для WAN 2.2 I2V 14B пошагово с AI Toolkit

5.1 Панель JOB

5.2 Панели MODEL и QUANTIZATION

Панель MODEL

Панель QUANTIZATION

5.3 Панель MULTISTAGE (high / low noise)

5.4 Панель TARGET (настройки сети LoRA)

5.5 Панель SAVE

5.6 Панель TRAINING

Основные гиперпараметры

Таймстепы и планировщик

EMA (экспоненциальное скользящее среднее)

Оптимизации Text Encoder

Регуляризация – Differential Output Preservation (DOP)

5.7 Панель ADVANCED (Differential Guidance)

5.8 Панель DATASETS

5.9 Панель SAMPLE (превью обучения)

Рекомендуемые настройки сэмплирования (превью включены)

6. AI Toolkit обучение LoRA WAN 2.2: настройки для движения, стиля и персонажа

6.1 LoRA движения/камеры

6.2 LoRA стиля (видео-вид / грейдинг)

6.3 LoRA персонажа (сходство в видео)

7. Устранение распространённых проблем Wan I2V LoRA

The size of tensor a (36) must match the size of tensor b (16) at non-singleton dimension 1

caching latents is not supported for multi-frame datasets

Движение слишком быстрое по сравнению с источником

Камера не двигается или композиция едва меняется

Детали и лица выглядят хуже, чем базовый Wan

LoRA переобучается и работает только на сценах, похожих на обучающие

Ошибки VRAM out-of-memory

Обучение намного медленнее, чем ожидалось (десятки секунд на шаг)

8. Экспорт и использование вашей Wan I2V LoRA

Другие руководства по обучению LoRA AI Toolkit