AI Toolkit LoRA Training Guides

Обучение LoRA Qwen-Image-Edit-2509 с Ostris AI Toolkit

Этот tutorial показывает, как обучать LoRA для Qwen-Image-Edit-2509 с Ostris AI Toolkit для multi-image, geometry-aware редактирования. Вы узнаете, как строить triplet-датасеты для try-on, relighting и замены объектов, как использовать 3-bit ARA-квантование и режим Low VRAM, а также как настраивать DOP (Differential Output Preservation) и другие параметры в зависимости от VRAM — от GPU <10GB до H100/H200.

Train Diffusion Models with Ostris AI Toolkit

Прокрутите горизонтально, чтобы увидеть всю форму

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2509 — это модель редактирования мультиизображений с 20B параметрами, которая может обрабатывать до трёх изображений одновременно (цель, контроль и дизайн) для выполнения точного, геометрически осознанного редактирования. Это руководство покажет вам, как выполнить Qwen Edit 2509 LoRA обучение. К концу вы сможете:

  • Завершить Qwen Edit 2509 LoRA обучение для надёжных целевых задач редактирования (например, нанести любой дизайн на футболку) с помощью AI Toolkit by Ostris.
  • Запустить весь рабочий процесс Обучение LoRA Qwen Edit 2509 локально (даже с <10GB VRAM через layer offloading), или в браузере с Cloud AI Toolkit на RunComfy на H100 / H200 (80GB / 141GB VRAM).
  • Понять, почему важны ключевые параметры для этой модели: опции Match Target Res и Low VRAM, квантизация Transformer/Text Encoder, Layer Offloading, Cache Text Embeddings, Differential Output Preservation, Differential Guidance, а также основные гиперпараметры как Batch Size, Steps и LoRA Rank.
  • Уверенно настраивать конфигурации для своих LoRA редактирования (relighting, примерка одежды, скин, замена объектов…).

Если вы ищете более новый чекпоинт и поведение редактирования с приоритетом "согласованности", см. Как тренировать Qwen Edit 2509 LoRA версии 2511.

Эта статья — часть серии обучения LoRA с AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA с AI Toolkit перед погружением в это руководство.

Содержание

1. Обзор Qwen‑Image‑Edit‑2509: что может эта модель редактирования

Qwen‑Image‑Edit‑2509 (часто сокращается до Qwen Edit 2509 или Qwen Image Edit Plus) — это итерация модели Qwen‑Image‑Edit сентября 2025 года. Она построена на базе 20B Qwen‑Image, с официальными весами на странице модели Qwen‑Image‑Edit‑2509 на Hugging Face.

По сравнению с первым релизом Qwen‑Image‑Edit, 2509 добавляет:

  • Редактирование мультиизображений — модель может принимать 1–3 входных изображения одновременно (например, человек + одежда + поза, или исходное фото + эталон освещения).
  • Поведение конкатенации изображений — в официальных пайплайнах каждое входное изображение масштабируется примерно до 1 мегапикселя и затем обрабатывается вместе. Модель фактически видит фиксированный пиксельный бюджет даже при предоставлении нескольких контролей.
  • Лучшее редактирование текста и деталей — на базе Qwen2.5-VL и специального VAE, она гораздо лучше справляется с мелким текстом, логотипами и тонкими деталями.

Типичные случаи использования LoRA, где люди уже применяют Qwen Edit 2509 LoRA дообучение:

Qwen‑Image‑Edit и Qwen‑Image по сути разделяют одну базу. Тесты сообщества показывают, что LoRA, обученные на Qwen‑Image, совместимы с Qwen‑Image‑Edit / 2509 и наоборот, поскольку адаптеры подключаются к одному и тому же backbone.


2. Варианты среды: локальный AI Toolkit vs Cloud AI Toolkit на RunComfy

2.1 Локальный AI Toolkit (ваш собственный GPU)

Установите AI Toolkit из репозитория AI Toolkit на GitHub, затем запустите Web UI. Локальное обучение — хороший выбор, если у вас уже есть NVIDIA карта 24GB+, вы разбираетесь в CUDA / драйверах / дисковом пространстве, и не возражаете оставить обучение работать на ночь.


2.2 Cloud AI Toolkit на RunComfy (H100 / H200)

С Cloud AI Toolkit на RunComfy AI Toolkit работает полностью в облаке:

  • Вам не нужно ничего устанавливать — просто откройте браузер, войдите, и вы в UI AI Toolkit.
  • У вас есть доступ к большим GPU как H100 (80GB) и H200 (141GB) для тяжёлых задач Qwen Edit 2509 LoRA обучение.
  • Вы получаете постоянное рабочее пространство — датасеты, конфигурации и прошлые задания остаются привязанными к вашему аккаунту, чтобы вы могли вернуться и итерировать.

👉 Откройте здесь: Cloud AI Toolkit на RunComfy

Остальная часть этого руководства работает идентично в обеих средах; только место, где находится GPU, отличается.


3. Требования к оборудованию и VRAM для Qwen Edit 2509 LoRA обучение

Qwen‑Image‑Edit‑2509 — тяжёлая модель:

  • Базовая модель имеет около 20B параметров.
  • Пайплайн редактирования может пропускать до 3 × ~1MP изображений через transformer за раз.

В стандартной конфигурации примера 32GB для 2509 (train_lora_qwen_image_edit_2509_32gb.yaml) пользователи сообщают примерно:

  • 27–28.5GB VRAM для обучения на 1024×1024.
  • 25–26GB VRAM для обучения на 768×768 — всё ещё не хватает для 24GB.

Поэтому официальный пример явно является конфигурацией 32GB. Но с 3-bit ARA квантизацией + режим Low VRAM + Layer Offloading (RAMTorch) Ostris показывает, что можно выполнить Qwen Edit 2509 LoRA обучение всего с ~8–9GB GPU VRAM, за счёт высокой CPU RAM (60GB+) и более медленного обучения.

Уровень Где Примерное оборудование Как это выглядит
Низкий VRAM (~10–12GB) Локально RTX 3060 12GB, 4070 и др. Вы должны включить квантизацию в панели QUANTIZATION (3-bit ARA для базовой модели) и использовать агрессивный Layer Offloading. Ожидайте ~8–9GB GPU VRAM и 60GB+ CPU RAM, с ~10–12с/шаг на среднем CPU. Эта настройка (2 контрольных потока) комфортно обучает до 1024×1024; рассматривайте 1024² как практический максимум разрешения на этом уровне.
Тесный 24GB Локально RTX 3090 / 4090 / 5090 24GB не может запустить стандартную конфигурацию 32GB Qwen‑Edit LoRA на 1024² с 2 контролями без offloading (пик около ~24.7GB VRAM), так что вам всё ещё нужны трюки Low VRAM как 3-bit ARA, gradient checkpointing и/или частичный offload. Рассматривайте 768×768 как практический максимум целевого разрешения с 2 контролями, если не добавите offloading.
Комфортный 32GB Локально RTX 4090 32GB, новые карты Это уровень, для которого настроен официальный train_lora_qwen_image_edit_32gb.yaml: 3-bit ARA квантизация, бакеты разрешения 1024², средний LoRA rank, без offloading. С 32GB вы можете рассматривать 1024×1024 (с 2–3 контрольными потоками) как нормальное рабочее разрешение.
Высокий VRAM (80–141GB) Cloud AI Toolkit на RunComfy H100 80GB / H200 141GB Вы можете держать конфигурации простыми (квантизация вкл, offloading выкл), использовать большие batch-и (4–8), и обучать на 1024×1024 по умолчанию без беспокойства об OOM. На этом уровне вы также можете экспериментировать с немного большими разрешениями (например, 1280–1536px), но 1024² остаётся самым безопасным и протестированным целевым размером.

На 4090 с полным offloading пример Ostris достигает ~9GB VRAM и ~64GB CPU RAM, выполняя ~5k шагов примерно за один день. На 5090 без offload итерации примерно в 2–3× быстрее.


4. Построение датасета для Qwen Edit 2509 LoRA обучение

Мы воспроизведём пример "дизайн футболки" из руководства Ostris и обобщим его, чтобы вы могли адаптировать его для других задач.

4.1 Три логических потока изображений

Для LoRA дизайна одежды модель должна научиться: Имея человека в пустой футболке и изображение дизайна, нанести этот дизайн на его футболку, сохраняя позу, освещение и складки.

  • Целевые изображения (что вы хотите получить) — человек в футболке с уже нанесённым дизайном. Это выходы, которые вы хотите, чтобы модель воспроизводила.
  • Контрольные изображения (пустые футболки, те же люди) — те же субъекты и позы, что и цели, но без дизайна (или в однотонной футболке). Они контролируют геометрию, складки, освещение и окклюзии (руки, волосы, ожерелья и т.д.).
  • Изображения дизайна — сам дизайн на нейтральном фоне (серый, чёрный или белый). Вы можете включить несколько вариантов (разные цвета фона) для повышения устойчивости.

В примере Ostris около 26 триплетов (человек + пустая футболка + дизайн) было достаточно для очень сильной производительности, включая QR-коды и сложные логотипы, корректно отображающиеся на ткани. Для продакшн LoRA начинать с 20–60 тщательно отобранных триплетов (цель + контроль + дизайн) — хорошая база.


4.2 Разрешение и соотношение сторон

Qwen‑Image‑Edit‑2509:

  • Масштабирует каждый вход внутренне до примерно 1MP (например, 1024×1024 или эквивалент).
  • Лучше всего работает, когда ваши обучающие изображения квадратные или почти квадратные (мы будем использовать 1024×1024), или с постоянным соотношением сторон (например, все 3:4).

В этом руководстве мы предполагаем квадратные изображения, чтобы bucketing был простым:

  • Цели, контроли и дизайны все около 1024×1024. AI Toolkit будет делать бакеты в 512 / 768 / 1024 в зависимости от того, что вы включите в панели DATASETS.

4.3 Подписи

Для этого LoRA дизайна одежды мы используем без подписей для каждого изображения, только одну подпись по умолчанию на уровне датасета: put this design on their shirt

Это работает, потому что:

  • Семантика проста и идентична во всех образцах.
  • Контрольные изображения и изображения дизайна несут большую часть интересной информации.

Для более сложных LoRA редактирования (как "осветить как студийный rim light" vs "золотой час") вы должны использовать подписи для каждого изображения, описывающие желаемое редактирование.


5. Пошагово: Qwen Edit 2509 LoRA обучение в AI Toolkit

5.1 Шаг 0 — Выберите, где вы будете запускать AI Toolkit

Вы можете запустить AI Toolkit двумя способами для этого руководства:

  • Локальный AI Toolkit (ваш собственный GPU) — установите AI Toolkit, запустите Web UI и откройте локально. Убедитесь, что у вас GPU NVIDIA с минимум 10–12GB VRAM (24GB+ предпочтительно) и достаточно CPU RAM (идеально 64GB+, если вы планируете использовать Layer Offloading).
  • Cloud AI Toolkit на RunComfy — войдите в Cloud AI Toolkit на RunComfy. Вы попадаете прямо в UI AI Toolkit, работающий в облаке. Когда вы запускаете задание из Training Queue, вы выбираете машину H100 (80GB) или H200 (141GB).

5.2 Шаг 1 — Создать датасеты в AI Toolkit

В UI AI Toolkit откройте вкладку Datasets.

Создайте три датасета (имена просто примеры):

  • shirt_target
  • shirt_control
  • shirt_design

Загрузите ваши изображения так, чтобы каждый датасет имел чёткую роль:

  • shirt_target — 20–60 фото людей в футболках с дизайнами.
  • shirt_control — те же люди и позы без дизайнов (или в пустой футболке).
  • shirt_design — квадратные изображения дизайна на простых фонах (серый, чёрный или белый).

Если у вас нет подписей, подготовленных как .txt файлы, оставьте подписи для каждого изображения пока пустыми. Мы добавим одну Подпись по умолчанию на уровне задания позже.

Важное примечание о сопоставлении

Целевые и контрольные изображения должны быть сопоставлены по порядку (тот же человек, та же поза) насколько возможно. Чтобы сохранить сопоставление стабильным, используйте совпадающие имена файлов между папками, чтобы алфавитный порядок совпадал, например: shirt_target/img_0001.jpg, shirt_control/img_0001.jpg, shirt_design/img_0001.png. Каждое целевое изображение должно иметь соответствующее контрольное изображение и изображение дизайна с тем же индексом.


5.3 Шаг 2 — Создать новое задание

Откройте вкладку New Job. Давайте настроим каждую панель в порядке их появления.


5.3.1 Панель JOB — имя задания, GPU, триггер-слово

  • Training Name — установите любое описательное имя, например qwen_edit2509_shirt_lora_v1. Это становится именем задания и именем папки, где сохраняются чекпоинты.
  • GPU ID — при локальной установке выберите GPU на вашей машине. В Cloud AI Toolkit на RunComfy оставьте GPU ID по умолчанию. Фактический тип машины (H100 / H200) выбирается позже, когда вы запускаете задание из Training Queue.
  • Trigger Word — введите фразу, которую вы хотите вводить во время инференса, например: put this design on their shirt. В подписях вашего датасета вы можете использовать [trigger] как плейсхолдер. AI Toolkit заменяет [trigger] на Trigger Word во время обучения. Чёткая триггер-фраза даёт вам чистый переключатель вкл/выкл для LoRA: промпты, не содержащие её, должны оставаться близкими к базовому поведению Qwen‑Image‑Edit‑2509, особенно если вы также включите Differential Output Preservation (DOP), как рекомендуется позже.

5.3.2 Панель MODEL — базовая модель и опции VRAM

  • Model Architecture — выберите Qwen‑Image‑Edit‑2509.
  • Name or PathHugging Face model id (repo id) для базового чекпоинта, например: Qwen/Qwen-Image-Edit-2509.

    В большинстве билдов AI Toolkit выбор Qwen‑Image‑Edit‑2509 автоматически заполнит это значение; оставьте как есть, если нет причины менять.

В Options:

  • Low VRAM — включите ON для GPU с ≤ 24GB VRAM. Это включает дополнительный checkpointing и трюки экономии памяти внутри backbone, чтобы большая модель Qwen легче помещалась.
  • Match Target Res — включите ON для заданий Qwen Edit 2509 LoRA обучение. Это масштабирует контрольные изображения, чтобы они соответствовали тому же бакету разрешения, что и целевое изображение (например, 768×768 или 1024×1024). Это держит геометрию редактирования выровненной и избегает траты VRAM на негабаритные контроли.
  • Layer Offloading — относитесь к этому как к предохранительному клапану. Включите ON на очень маленьких GPU, если вы всё ещё получаете CUDA OOM после включения Low VRAM и квантизации; это выгрузит некоторые слои в CPU RAM за счёт более медленных шагов. Оставьте OFF на GPU 24GB+ или облачных GPU на RunComfy для лучшей скорости.

5.3.3 Панель QUANTIZATION — подгонка большого transformer

Qwen‑Image‑Edit‑2509 достаточно большой, чтобы квантизация почти всегда была хорошей идеей.

  • Transformer — установите float8 (default). В AI Toolkit это обычно соответствует 3-bit ARA базе с 8-bit "recovery" адаптером, так что вы получаете использование VRAM близкое к 3-bit модели с качеством близким к полной точности.
  • Text Encoder — также установите float8 (default). Text encoder большой, и запуск его в fp8 экономит много VRAM с минимальной потерей качества.

Вам не нужно вручную настраивать ARA файлы в UI; выбора опций float8 достаточно.


5.3.4 Панель TARGET — тип LoRA и rank

Эта панель говорит AI Toolkit, что вы обучаете LoRA и какую ёмкость он должен иметь.

  • Target Type — выберите LoRA.
  • Linear Rank — для Qwen Edit 2509 LoRA обучение, 32 — хороший дефолт. Он достаточно выразителен для поведений как "нанести этот дизайн на их футболку", но всё ещё лёгкий для обучения и загрузки. На очень маленьких GPU вы можете снизить до 16; для более сложных поведений можете экспериментировать с 48–64 (внимательно следите за overfitting при более высоких rank-ах).

5.3.5 Панель SAVE — тип чекпоинта и частота

  • Data Type — выберите BF16. Qwen‑Image‑Edit‑2509 обычно работает в bfloat16, и сохранение весов LoRA в BF16 держит их совместимыми и разумно маленькими.
  • Save Every250 шагов — практичный дефолт; вы будете получать чекпоинт каждые 250 шагов обучения.
  • Max Step Saves to Keep4 держит последние четыре чекпоинта и автоматически удаляет более старые, чтобы ваш диск не заполнился.

5.3.6 Панель TRAINING — основные гиперпараметры

Панель TRAINING контролирует, насколько агрессивно мы дообучаем Qwen‑Image‑Edit‑2509.

Рекомендуемые начальные значения для LoRA с одним датасетом (10–40 изображений на 768–1024px):

  • Batch Size — установите 1 по умолчанию. Используйте 2 только на очень больших GPU (уровень A100 / H100 / H200).
  • Gradient Accumulation — начните с 1. Если вам нужен больший эффективный batch size без увеличения VRAM, увеличьте до 2–4. Эффективный batch size = Batch Size × Gradient Accumulation.
  • Steps — используйте 2500–3000. Для примера дизайна футболки с ~20–30 триплетами, 3000 работает хорошо. Если ваш датасет крошечный (<15 изображений), рассмотрите 1500–2200, чтобы избежать overfitting.
  • Optimizer — выберите AdamW8Bit. 8-bit Adam драматически уменьшает память, ведя себя как стандартный AdamW.
  • Learning Rate — установите 0.0001. Если обучение выглядит шумным или нестабильным, уменьшите до 0.00005.
  • Weight Decay — установите 0.0001 как лёгкий регуляризатор, чтобы LoRA не уходил слишком далеко на маленьких датасетах.
  • Timestep Type — установите Weighted. Это смещает обучение к уровням шума, которые наиболее важны для Qwen‑Image‑Edit.
  • Timestep Bias — установите Balanced, безопасный дефолт, который не переоценивает очень ранние или очень поздние timesteps.
  • Loss Type — оставьте Mean Squared Error, стандартный выбор для обучения диффузии / rectified-flow.
  • EMA (Exponential Moving Average → Use EMA) — оставьте OFF для LoRA. EMA более полезен при обучении полных моделей.

5.3.7 Секция Регуляризации и Text Encoder (правая сторона панели TRAINING)

На правой стороне панели TRAINING вы увидите две важные области: Text Encoder Optimizations и Regularization.

Text Encoder Optimizations

  • Cache Text Embeddings — для Qwen‑Image‑Edit + Differential Output Preservation (DOP) это должно оставаться OFF. DOP внутренне переписывает текст промпта каждый batch, так что кэшированные embeddings больше не будут соответствовать реальным промптам. Когда DOP OFF и ваши подписи статичны, вы можете включить Cache Text Embeddings ON, чтобы закодировать все подписи один раз, сохранить embeddings на диск, и затем освободить text encoder из VRAM.
  • Unload Text Encoder (Unload TE) — это специальный режим только-триггер. Когда вы включаете ON, AI Toolkit кэширует embeddings для вашего Trigger Word и Sample промптов один раз, выгружает text encoder из VRAM, и игнорирует все подписи датасета. Для LoRA Qwen‑Image‑Edit‑2509, которые полагаются на обычные подписи (и особенно когда Differential Output Preservation ON), вы должны оставить Unload TE OFF.

Поскольку caption dropout реализуется случайным пропуском подписей во время обучения, он зависит от свежего кодирования текста на каждом шаге. Если вы включите Cache Text Embeddings, вы должны установить Caption Dropout Rate = 0 в панели DATASETS (см. ниже), чтобы не было расхождения между кэшированными embeddings и предполагаемым поведением dropout.

Regularization → Differential Output Preservation

  • Differential Output Preservation — включите ON для большинства реальных проектов. Это критично для Qwen‑Image‑Edit: позволяет базовой модели вести себя нормально, когда триггер-фраза отсутствует, и внедряет ваше поведение только когда триггер присутствует.
  • DOP Loss Multiplier — оставьте 1 для начала. Вы можете немного увеличить, если видите слишком много стиля, просачивающегося в промпты без триггера.
  • DOP Preservation Class — используйте нейтральное слово класса, описывающее то, что вы редактируете чаще всего. Для редактирования, центрированного на людях, person — хороший дефолт; для редактирования только продуктов используйте что-то вроде product или object.

Как DOP связывается с вашими подписями и Trigger Word:

  • Допустим, подпись — "[trigger] a person walking down the street, wearing the design on their shirt"
  • С Trigger Word = put this design on their shirt
  • И DOP Preservation Class = person

AI Toolkit внутренне создаёт два промпта:

  1. put this design on their shirt a person walking down the street, wearing the design on their shirt — путь LoRA.
  2. person a person walking down the street, wearing the design on their shirt — путь базовой модели.

LoRA обучается только на разнице между этими двумя. Генерации без триггер-фразы остаются гораздо ближе к ванильному Qwen‑Image‑Edit‑2509, потому что DOP явно сохраняет это поведение.

  • Blank Prompt Preservation — оставьте OFF, если у вас нет очень специфической причины сохранять поведение для пустых промптов.

5.3.8 Панель ADVANCED — Differential Guidance

  • Do Differential Guidance — включите ON.
  • Differential Guidance Scale — начните с 3.

Differential Guidance — это специфичный для AI Toolkit трюк, который масштабирует сигнал ошибки, который видит LoRA. Большая шкала делает сигнал "вы ошибаетесь здесь" громче, так что LoRA обычно учит желаемое изменение быстрее без увеличения learning rate.

Если сэмплы выглядят нестабильно или чрезмерно "резко" рано в обучении, снизьте до 2. Если обучение кажется очень медленным, вы можете попробовать 4 позже.


5.3.9 Панель DATASETS — связывание целевых, контрольных и дизайн-изображений

Для Qwen Edit 2509 LoRA обучение вы должны предоставить как минимум один целевой датасет и один контрольный датасет.

Внутри Dataset 1:

  • Target Dataset — выберите ваш датасет выхода / отредактированный, то есть изображения, представляющие "после применения поведения LoRA".
  • Control Dataset 1 — выберите датасет, содержащий ваши входные изображения (оригинальные фото, которые вы хотите редактировать). Каждый файл должен соответствовать целевому изображению по имени (например, scene_001.pngscene_001.png).
  • Control Dataset 2 / 3 — они опциональны. Для LoRA футболки установите Control Dataset 2 в shirt_design, чтобы модель видела логотип или artwork как второй контрольный поток. Оставьте слоты контроля пустыми, если у вас нет дополнительных условий как depth maps или keypoints.
  • LoRA Weight — оставьте 1, если не добавляете больше датасетов. Когда добавите больше датасетов, вы можете перебалансировать их влияние здесь.
  • Default Caption — если ваши изображения уже имеют .txt подписи, вы можете оставить пустым. Иначе введите что-то вроде:

    "[trigger] put this design on their shirt, full‑body street photo"

    Помните: [trigger] будет заменён на Trigger Word из панели JOB.

  • Caption Dropout Rate0.05 — хорошее начальное значение когда вы не кэшируете text embeddings; примерно каждый двадцатый шаг будет игнорировать подпись, чтобы модель не переобучалась на точную формулировку. Если вы планируете включить Cache Text Embeddings ON в панели TRAINING, установите Caption Dropout Rate = 0, потому что dropout требует перекодирования подписей каждый шаг и не работает корректно с кэшированными embeddings.
  • Settings → Cache Latents — включите ON. AI Toolkit кодирует каждое целевое изображение в VAE latents один раз и переиспользует их, что убирает тяжёлый VAE из GPU после кэширования и значительно ускоряет обучение.
  • Settings → Is Regularization — оставьте OFF для вашего основного датасета. Если позже вы добавите второй датасет чисто для изображений регуляризации (например, общие фото людей), вы бы установили Is Regularization этого второго датасета на ON.
  • Flipping (Flip X / Flip Y) — для большинства LoRA людей / продуктов оставьте оба OFF, если вы не уверены, что зеркальные отражения безопасны для вашего субъекта (Flip X отзеркалит любой текст на футболках).
  • Resolutions — включите бакеты, на которых вы хотите, чтобы Qwen‑Image‑Edit обучался, например 512, 768, и 1024. 768 — sweet spot для многих Qwen LoRA; добавление 512 и 1024 делает обучение устойчивым к небольшим изменениям разрешения.

Вы можете добавить дополнительные датасеты с Add Dataset (например, датасет регуляризации с LoRA Weight < 1), но одного Dataset 1 с целью + одним или двумя контрольными наборами достаточно для большинства случаев использования "нанести этот дизайн на их футболку".


5.3.10 Панель SAMPLE — превью обучения

Панель SAMPLE контролирует периодические превью во время обучения. Эти сэмплы не влияют на loss обучения; они только для мониторинга.

  • Sample Every — установите 250, чтобы генерировать превью каждые 250 шагов, что хорошо согласуется с вашим расписанием чекпоинтов.
  • Width / Height — соответствуйте вашему основному разрешению обучения, например 1024 × 1024 или 768 × 1024 в зависимости от вашего датасета.
  • Seed — выберите стабильный seed как 42. Вы можете включить Walk Seed, если хотите, чтобы каждый batch превью использовал последовательные seeds и показывал больше разнообразия.
  • Sampler — выберите FlowMatch (или дефолтный Qwen sampler в вашем билде). Это должно соответствовать FlowMatch scheduler, используемому в TRAINING.
  • Guidance Scale — установите 4 для превью. Когда вы будете делать инференс позже в ComfyUI или других UI, вы обычно будете экспериментировать между 3–6.
  • Sample Steps — около 25 шагов — хороший компромисс качество-vs-скорость для превью.
  • Advanced Sampling — вы можете оставить Skip First Sample, Force First Sample, и Disable Sampling все OFF. Включите Disable Sampling ON только если вы отлаживаете или хотите максимальную скорость без каких-либо превью.
  • Sample Prompts — добавьте 4–8 промптов, представляющих реалистичные случаи использования для вашего LoRA.

5.4 Шаг 3 — Запустить обучение и мониторить

После настройки задания перейдите на вкладку Training Queue, выберите ваше задание и подготовьте его к запуску.

Нажмите Start / Play и в основном наблюдайте за двумя вещами:

  • GPU VRAM / CPU RAM — особенно на картах с низким VRAM, использующих Layer Offloading, следите за использованием системной RAM.
  • Сэмпл-изображения — дизайн должен оставаться на футболке и следовать складкам и позе. Если он начинает растекаться по всему изображению или цвета становятся экстремальными, рассмотрите остановку раньше или уменьшение общего количества шагов.

6. Рекомендуемые конфигурации для Qwen Edit 2509 LoRA обучение по уровню VRAM

Если вам нужен только безопасный дефолт для локальных GPU 24GB и всех облачных запусков H100/H200, используйте настройки из разделов 3–6: Low VRAM = ON, квантизация Transformer/Text Encoder = float8, Batch Size = 1, LoRA Rank = 32, Resolutions = 512 / 768 / 1024, Differential Output Preservation = ON, Cache Text Embeddings = OFF.

Ниже только настройки, которые действительно меняются с оборудованием. Всё не упомянутое здесь (Steps, Learning Rate, Optimizer и т.д.) может оставаться на предыдущих рекомендациях.


Уровень 1 — Низкий VRAM (~10–12GB локально)

  • MODEL → Low VRAM: включите ON. Это включает дополнительный checkpointing и shuffling, чтобы Qwen‑Image‑Edit‑2509 поместился на карту 10–12GB.
  • MODEL → Layer Offloading: включите ON, если вы всё ещё получаете CUDA OOM. Ожидайте высокое использование CPU RAM (≈60GB+) и более медленные шаги, но GPU VRAM может упасть примерно до 8–9GB.
  • QUANTIZATION → Transformer / Text Encoder: установите оба на float8. В этой архитектуре, использующей Qwen 3-bit ARA адаптеры под капотом, float8 — практический минимум для стабильного качества.
  • TRAINING → Batch Size: зафиксируйте на 1. Если вам нужен больший эффективный batch, увеличивайте Gradient Accumulation вместо Batch Size.
  • DATASETS → Resolutions: включите 512 и 768 как ваши основные бакеты. Вы можете добавить 1024, если принимаете более медленные и хрупкие запуски; рассматривайте 1024×1024 с двумя контрольными потоками как практический верхний предел на этом уровне.
  • TRAINING → Text Encoder Optimizations / Regularization: если вы не можете поместить Differential Output Preservation даже с Low VRAM и Layer Offloading, выключите DOP и включите Cache Text Embeddings, чтобы подписи кодировались один раз и text encoder освобождался из VRAM. Вы теряете некоторое сохранение базовой модели, но получаете несколько GB запаса.

Уровень 2 — Тесный 24GB (класс 3090 / 4090 / 5090)

Что вы можете ослабить по сравнению с Уровнем 1:

  • MODEL → Low VRAM: держите ON для безопасности на 24GB; как только вы узнаете, что ваше разрешение и настройка контроля комфортно помещаются, вы можете экспериментировать с выключением.
  • MODEL → Layer Offloading: обычно OFF. Включайте только если вы всё ещё получаете OOM при выбранном разрешении и количестве контрольных потоков.
  • QUANTIZATION → Transformer / Text Encoder: держите оба на float8. Отключение квантизации на этом уровне редко помогает и только сжигает VRAM, который вы могли бы потратить на разрешение или batch size.
  • TRAINING → Batch Size: 1 всё ещё дефолт. Batch Size 2 иногда возможен при 768×768 с двумя контролями, если Low VRAM ON и квантизация остаётся ON.
  • DATASETS → Resolutions: включите 512, 768, и 1024. Рассматривайте 768 как ваш "всегда безопасный" бакет и 1024 как high-end бакет, который может потребовать Low VRAM и возможно частичный offload.
  • TRAINING → Text Encoder Optimizations / Regularization: обычно вы можете держать Differential Output Preservation ON и Cache Text Embeddings OFF, особенно если вы обучаете в основном на 768×768. Если вам абсолютно нужно 1024×1024 на карте 24GB и вы всё ещё получаете OOM после других настроек, следующий рычаг — выключить DOP и включить Cache Text Embeddings.

Уровень 3 — Комфортный 32GB+ локально и облако H100/H200

На локальных картах 32GB и облачных GPU 80–141GB (H100 / H200) вы перестаёте бороться с VRAM и можете упростить конфигурацию:

  • MODEL → Low VRAM: опционально. Вы можете выключить на локальных GPU 32GB+ и H100/H200 для немного более быстрых шагов и более простых traces.
  • MODEL → Layer Offloading: держите OFF. Все компоненты Qwen‑Image‑Edit‑2509 могут оставаться резидентными на GPU.
  • QUANTIZATION → Transformer / Text Encoder: оставьте оба на float8 по умолчанию. На H100/H200 вы можете экспериментировать с отключением квантизации Text Encoder, если хотите, но это не требуется для хорошего качества и даёт мало преимуществ по сравнению с использованием этого VRAM для batch size или разрешения.
  • TRAINING → Batch Size: используйте 1–2 на локальных GPU 32GB, и 2–4 на H100/H200 при 1024×1024 с двумя контрольными потоками.
  • TARGET → LoRA Rank: 32 — комфортный дефолт. Вы можете попробовать 48–64 на H100/H200 для очень сложных поведений (например, multi-effect editing LoRA), если следите за overfitting.
  • DATASETS → Resolutions: обучайте в основном на 768 и 1024. Обычно вы можете убрать 512, если специально не заботитесь о поведении на низком разрешении.
  • TRAINING → Text Encoder Optimizations / Regularization: запускайте с Differential Output Preservation ON и Cache Text Embeddings OFF по умолчанию. VRAM достаточно, чтобы держать text encoder резидентным, и вы получаете чистейшее разделение между поведением "с триггером" и "без триггера".

7. Распространённые проблемы при Qwen Edit 2509 LoRA обучение и их решения

7.1 Неправильно сопоставленные датасеты (неправильный порядок / несоответствующие люди)

Симптом: Дизайны появляются, но в неправильном месте, на неправильном человеке, или искажённые.

Проверьте, что целевые и контрольные датасеты выровнены: shirt_target/img_0001.jpg должен быть сопоставлен с shirt_control/img_0001.jpg и shirt_design/img_0001.png, и так далее. Если вы вручную перемешиваете изображения, держите имена файлов сопоставленными, чтобы алфавитный порядок всё ещё совпадал.


7.2 VRAM OOM даже с квантизацией

Если вы обучаете с маленьким целевым разрешением (например, 512×512), но ваши контрольные датасеты всё ещё используют 1024×1024 как самый высокий бакет и Match Target Res выключен, каждый контрольный поток будет закодирован в 1024×1024, в то время как цель только 512×512. С двумя или тремя такими контрольными потоками общий размер latent становится намного больше ожидаемого, и вы можете легко получить CUDA OOM даже с включённой квантизацией.

Чтобы исправить:

  • Или включите Match Target Res ON в панели MODEL, чтобы все контрольные изображения автоматически масштабировались к тому же бакету разрешения, что и цель, или
  • Держите Match Target Res OFF, но снизьте самый высокий бакет разрешения для ваших контрольных датасетов, чтобы соответствовать цели (уберите 1024 и оставьте 512/768).

На H100/H200 в облаке вы можете позволить себе держать бакеты 1024×1024 и для цели, и для контролей и меньше зависеть от этих трюков, но самое безопасное правило: избегайте смешивания крошечных целей с очень большими контролями, когда Match Target Res отключён.


7.3 Обучение никогда не сходится / выглядит случайным

Проверьте следующее:

  • В панели TRAINING noise scheduler и настройки timestep всё ещё соответствуют FlowMatch. В экспортированном YAML вы должны видеть noise_scheduler: "flowmatch", и в панели SAMPLE sampler также должен быть установлен на FlowMatch; если sampler использует другой scheduler, превью могут выглядеть как чистый шум, даже если LoRA обучается корректно.
  • Learning Rate не слишком высокий. 0.0001 — безопасный дефолт для Qwen Edit 2509 LoRA обучение; если превью продолжают осциллировать или выглядят очень нестабильно после нескольких сотен шагов, снизьте до 0.00005 и возобновите с последнего хорошего чекпоинта.

7.4 LoRA переобучается (дизайн растекается везде)

Возможные исправления:

  • Уменьшите общее количество Steps (например, с 5000 до 3000).
  • Рассмотрите немного меньший LoRA Rank (16 вместо 32).
  • Разнообразьте датасет разными людьми, позами и освещением.
  • Убедитесь, что Differential Output Preservation включён и, если необходимо, немного увеличьте DOP Loss Multiplier, чтобы базовое поведение сохранялось сильнее.

7.5 Ад окружения

Типичные локальные проблемы включают несоответствие версии CUDA, неправильный билд PyTorch, или драйверы, не соответствующие вашему GPU / ОС. В Cloud AI Toolkit на RunComfy эти проблемы исчезают: AI Toolkit и зависимости предустановлены, и вы стартуете прямо из UI с конфигурациями и датасетами.

Если вы тратите больше времени на исправление CUDA, чем на обучение, это обычно точка, где проще перенести это конкретное задание в облако.


8. Использование вашего Qwen Edit 2509 LoRA после обучения

После завершения обучения вы можете использовать ваш Qwen Edit 2509 LoRA двумя простыми способами:

  • Model playground — откройте Qwen‑Image‑Edit‑2509 LoRA playground и вставьте URL вашего обученного LoRA, чтобы быстро увидеть, как он ведёт себя поверх базовой модели.
  • Воркфлоу ComfyUI — запустите инстанс ComfyUI и либо постройте свой собственный воркфлоу, либо загрузите один как Qwen Edit 2509 MultipleAngles, замените ваш LoRA в ноде загрузчика LoRA и настройте вес LoRA и другие параметры для более детального контроля.

Больше руководств по обучению LoRA с AI Toolkit

Ready to start training?