Гид по обучению LoRA Qwen-Image-Edit-2511 в Ostris AI Toolkit

Qwen‑Image‑Edit‑2511 (часто сокращается до Qwen 2511) — это checkpoint Qwen с приоритетом согласованности для редактирования изображений: он разработан для уменьшения дрейфа изображения, сохранения идентичности при творческих правках и структурной верности при редактировании только части изображения. Он также поставляется с интегрированными возможностями LoRA в базовых весах, более сильным выходом промышленного/продуктового дизайна и улучшенным геометрическим рассуждением, что делает его особенно интересным для практичных, воспроизводимых LoRA для редактирования.

Это руководство показывает, как выполнить Обучение LoRA Qwen Image Edit 2511 с помощью Ostris AI Toolkit.

Эта статья является частью серии обучения LoRA AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA AI Toolkit, прежде чем погружаться в это руководство.

Содержание

1. Qwen 2511 vs 2509: в чём разница
2. Основная ментальная модель: что на самом деле изучает Edit LoRA
3. Где обучать: локальный AI Toolkit vs RunComfy Cloud AI Toolkit
4. Планирование оборудования и VRAM для Обучения LoRA Qwen-Edit-2511
5. Дизайн датасета, который действительно работает для моделей Qwen Edit
6. Пошагово: Обучить LoRA Qwen Edit 2511 в AI Toolkit
7. Специфичный для 2511 переключатель: zero_cond_t
8. Распространённые сбои обучения и решения
9. Использование обученного LoRA (Playground + ComfyUI)

1. Qwen 2511 vs 2509: в чём разница

Qwen 2511 — это не checkpoint для «создания красивых картинок» — это редактор изображений, следующий инструкциям. Если вы пришли от Руководства LoRA Qwen Edit 2509, думайте о 2511 как об итерации «согласованность в первую очередь»: он настроен на уменьшение дрейфа, сохранение идентичности/структуры и удержание редактирования локализованным в том, что вы запросили (особенно для работы с продуктовым/промышленным дизайном и геометрически чувствительного размещения).

Три отличия от Qwen 2509 напрямую важны для Обучения LoRA Qwen Image Edit 2511:

Во-первых: более сильное сопротивление дрейфу и сохранение идентичности. По сравнению с Qwen 2509, Qwen 2511 имеет тенденцию сохранять «неизменённые» части более стабильными, что позволяет вашему LoRA изучить более чистое правило редактирования вместо случайного встраивания эффекта в лица, фоны или композицию.

Во-вторых: мультиизображенное кондиционирование остаётся ядром, но сигнал управления должен быть чистым. Как и Qwen 2509, Qwen 2511 работает лучше всего, когда вы предоставляете 1-3 референсных изображения плюс инструкцию. Практическая разница в том, что 2511 вознаграждает хорошо выровненные потоки управления; если сопоставление неправильное или управление слабое, вы увидите больше чрезмерного редактирования и дрейфа.

В-третьих: больше встроенной дружелюбности к LoRA (и большая потребность в специфичности). Qwen 2511 поставляется с более сильной встроенной ёмкостью LoRA в базовых весах. Это отлично для практичных, воспроизводимых LoRA редактирования, но также означает, что ваше Обучение LoRA Qwen-Edit-2511 должно быть выполнено с чётким, узким отображением, чтобы оно не стало размытым «фильтром всего».

2. Основная ментальная модель: что на самом деле изучает Edit LoRA

Для Qwen 2511 ваш LoRA изучает правило трансформации:

«Получив это(и) референсное(ые) изображение(я) и эту инструкцию, произвести отредактированный результат, сохраняя части, которые должны оставаться согласованными.»

Вот почему датасеты редактирования должны включать все три компонента:

Контрольное/референсное изображение(я): что должно быть сохранено (идентичность, геометрия, освещение, фон — что требует ваша задача)
Инструкция (caption/prompt): что должно измениться, явно сформулированное
Целевое изображение: результат «после», демонстрирующий изменение

Если вы предоставляете только изображения «после», модель не имеет стабильного сигнала для что сохранить, поэтому она изучит шумный ярлык: может встроить изменения в идентичность, фон или композицию. Это выглядит как «LoRA сильный», но на самом деле это неконтролируемый дрейф.

Простейший способ оценить, является ли ваш датасет «корректным для редактирования»: если вы уберёте инструкцию, сможет ли человек всё ещё вывести, что изменилось, сравнивая контроль(ы) с целью? Если да, у вас есть обучаемый сигнал редактирования. Если нет (или если изменение неоднозначно), ваш LoRA будет хрупким.

3. Где обучать: локальный AI Toolkit vs RunComfy Cloud AI Toolkit

Локальный AI Toolkit лучше, если у вас уже есть совместимый GPU NVIDIA, вы комфортно управляете версиями CUDA/PyTorch и хотите максимальный контроль над файлами и итерацией. (Установите AI Toolkit из GitHub репозитория Ostris: ostris/ai-toolkit.) Для Обучения LoRA Qwen Image Edit 2511 локальное обучение может быть полностью жизнеспособным — но модель тяжёлая, и мультиизображенное кондиционирование может быстро поднять VRAM, поэтому вы часто будете полагаться на квантизацию, режимы low-VRAM или меньшие бакеты разрешения.

RunComfy Cloud AI Toolkit — это путь «пропустить настройку» и часто практичный выбор специально для Обучения LoRA Qwen Image Edit 2511. Вы запускаете тот же UI AI Toolkit в браузере, но с доступными большими GPU (и меньшим количеством сюрпризов среды). Это также удобно для команд: датасеты, конфигурации и checkpoint'ы остаются в постоянном рабочем пространстве, поэтому вы можете итерировать как продуктовый рабочий процесс вместо одноразового локального эксперимента.

👉 Откройте здесь: Cloud AI Toolkit на RunComfy

4. Планирование оборудования и VRAM для Обучения LoRA Qwen-Edit-2511

Qwen 2511 имеет большой backbone и разработан для работы на 1024×1024 по умолчанию для лучших результатов. Кроме того, каждый дополнительный поток контрольного изображения увеличивает использование памяти, потому что модели нужно обрабатывать больше информации кондиционирования.

На практике вы увидите три жизнеспособных уровня для Обучения LoRA Qwen Image Edit 2511:

Уровень A: 24-32GB VRAM (высокие усилия, но возможно).

Ожидайте агрессивные стратегии: режимы low-VRAM, gradient checkpointing, меньшие бакеты (часто 768 как отправная точка), и квантизация (идеально с опцией Accuracy Recovery Adapter, если ваш билд её предоставляет). Держите batch size на 1 и масштабируйте с gradient accumulation.

Уровень B: 40-48GB VRAM (комфортно).

Часто можно обучать на 1024 с одним или двумя потоками управления, с умеренной квантизацией или даже в основном bf16 в зависимости от ваших точных настроек. Этот уровень — где обучение LoRA Qwen Edit становится «воспроизводимым» вместо «деликатного».

Уровень C: 80GB+ VRAM (быстро, низкое трение).

Вы можете держать больше компонентов в bf16, запускать мультиконтрольные датасеты комфортно, сэмплировать чаще и быстро итерировать — это настройка, которую вы получаете с RunComfy Cloud AI Toolkit на больших GPU.

Ключевая идея: разрешение и количество потоков управления — ваши самые большие рычаги VRAM. Если вы застряли, измените их, прежде чем начинать случайно настраивать learning rate.

5. Дизайн датасета, который действительно работает для моделей Qwen Edit

5.1 Структура папок, соответствующая тренеру Qwen Edit в AI Toolkit

Практическая структура, предотвращающая 90% багов:

targets/ → отредактированные изображения «после»
control_1/ → первый поток референсного изображения (часто изображение «до»)
control_2/ → второй референсный поток (опционально; второй человек/продукт/фон/дизайн)
control_3/ → третий поток (редко; только если ваш рабочий процесс действительно нуждается)
captions/ → опциональные .txt caption'ы, выровненные по имени файла (или caption'ы, сохранённые рядом с targets в зависимости от вашего рабочего процесса)

Важная часть — сопоставление. AI Toolkit может обучать правильно только если может сопоставить targets/0001.png с control_1/0001.png (и control_2/0001.png, и т.д.). Если порядок файлов отличается, ваш LoRA изучает неправильное отображение и вы получите «обучается, но выглядит случайно».

5.2 Три паттерна датасета, покрывающие большинство реальных LoRA

Паттерн A: Редактирование с одним референсом (1 контрольное изображение).

Используйте для: изменения цвета, локальные замены объектов, релайтинг, замена фона, «сделай это акварелью» и т.д. Ваш control_1 — оригинальное изображение, ваша цель — отредактированный результат, и caption — прямая инструкция («сделай шляпу красной»). Этот паттерн проще всего обучать и отлаживать.

Паттерн B: Мультиреференсное слияние (2-3 контрольных изображения).

Используйте для: человек + человек, человек + сцена, продукт + фон, «слей эти две идентичности», или любая ситуация, где вы хотите, чтобы модель сохранила несколько источников. Ваши caption'ы должны прояснить роль каждого референса («используй человека из ref1, фон из ref2»).

Паттерн C: Триплеты вставки дизайна (пустой + дизайн → применён).

Это паттерн датасета с самым высоким ROI для коммерческой работы: логотипы на футболках, наклейки на продуктах, паттерны на ткани, этикетки на упаковке. control_1 — продукт/человек без дизайна, control_2 — изображение дизайна, и цель — финальное изображение «дизайн применён». Это разделение учит LoRA точно, что сохранять (геометрия/освещение/материал) против что изменять (область дизайна).

5.3 Caption'ы, которые помогают (а не вредят)

Для Edit LoRA ваши caption'ы должны вести себя как инструкции, а не описания. «Мужчина в футболке, на улице» — не полезно; «Размести предоставленный логотип по центру на груди, сохрани складки ткани и освещение» — полезно.

Хороший инструкционный caption обычно включает:

намеченное изменение
что должно быть сохранено
любые ограничения размещения или геометрии (особенно для вставки дизайна)

Держите caption'ы согласованными по всему датасету. Согласованность делает отображение легче для изучения и делает ваш LoRA более контролируемым при инференсе.

5.4 Сколько сэмплов вам нужно?

Для узких, воспроизводимых редактирований (вставка логотипа, конкретное правило релайтинга, согласованная трансформация материала), часто можно начать с 20-60 хорошо построенных триплетов. Для более широкой стилизации или мультисубъектного слияния, планируйте 60-200+ примеров, потому что пространство «что должно оставаться согласованным» больше.

Если вы не уверены, начните с малого с набором «smoke test» из 8-12 сэмплов. Цель smoke test — не качество — это подтвердить, что ваше сопоставление и проводка контролей работает, прежде чем инвестировать в долгий запуск.

6. Пошагово: Обучить LoRA Qwen Edit 2511 в AI Toolkit

6.1 Создайте датасеты в AI Toolkit (Targets + Control Streams)

В DATASETS (см. Раздел 5 для логики структуры папок):

Создайте датасет для targets/, затем добавьте control_1 / control_2 / control_3, если используете.
Проверьте, что количества и сопоставление имён файлов совпадают между targets и controls (проверьте ~10 сэмплов).
Если используете caption'ы, установите расширение caption (обычно .txt) и держите имена файлов caption'ов выровненными с targets.

6.2 Создайте новый job

В JOB:

Выберите имя обучения, которое узнаете позже.
Установите trigger word, только если хотите, чтобы LoRA был «вызываемым» одним ключевым словом. Для многих Edit LoRA сама инструкция достаточна, и trigger опционален.
Установите Steps на что-то консервативное для первого запуска (вы проверяете настройку, а не ищете идеальную финальную модель).

В MODEL:

Выберите архитектуру Qwen Image Edit "Plus" (вариант мультиизображенного редактирования).
Name or Path — Hugging Face model id (repo id) для базового checkpoint'а, напр.: Qwen/Qwen-Image-Edit-2511.
В большинстве билдов AI Toolkit выбор архитектуры модели автозаполнит это значение; оставьте как есть, если у вас нет причин менять.
Используйте bf16, если ваш GPU поддерживает; иначе FP16 может работать, но bf16 обычно стабильнее, когда доступен.
Включите опции "Low VRAM" или offloading только если нужно; начните просто, когда можете.

В QUANTIZATION (только если нужно):

При 24-32GB сначала квантизируйте transformer/backbone. Если ваш билд предлагает опцию "with ARA" для Qwen 2511, предпочтите её простой low-bit квантизации, потому что она склонна сохранять больше качества.
Квантизируйте text encoder/сторону conditioning только если VRAM всё ещё тесная после квантизации transformer'а.

В TARGET / NETWORK (настройки LoRA):

Начните с умеренного rank. Для «правилоподобных» редактирований (вставка логотипа, релайтинг) часто не нужен экстремальный rank.
Если ваш билд раскрывает отдельные linear/conv ranks, держите conv консервативно, если у вас нет доказательств, что это помогает вашей конкретной задаче. Чрезмерная параметризация — быстрый путь к overfitting и дрейфу.

В TRAINING:

Держите Batch Size = 1 и используйте Gradient Accumulation для увеличения эффективного batch при необходимости.
Начните с AdamW 8-bit, если ограничены в VRAM.
Используйте рекомендованные/дефолтные настройки scheduler'а Qwen, которые предоставляет ваш билд (для Qwen Edit job'ов это обычно flow-matching scheduler).
Держите "train text encoder" выключенным для вашего первого успешного запуска, если у вас нет специфической причины адаптировать языковое поведение. Большинству практических Edit LoRA нужна только адаптация backbone/transformer.
Включите Gradient Checkpointing, если VRAM тесная.

В DATASETS / RESOLUTIONS (Buckets):

Если можете себе позволить, 1024 — сильный дефолт для качества Qwen Edit.
Если ограничены в VRAM, используйте 768 для первого запуска, затем масштабируйте после подтверждения, что pipeline правильно подключён.
Предпочтите маленький набор бакетов (напр., 768 и 1024) вместо хаотичного распределения, которое делает отображение несогласованным.

В SAMPLE / PREVIEWS:

Сэмплирование — ваша система раннего предупреждения. Настройте 1-3 preview prompt'а, представляющих ваш реальный юзкейс, и всегда используйте одни и те же фиксированные контрольные изображения и seed, чтобы можно было визуально сравнивать checkpoint'ы.

Хорошая частота сэмплирования для ранних запусков:

сэмплируйте каждые 100-250 шагов рано
сохраняйте checkpoint'ы каждые 250-500 шагов
держите только несколько последних checkpoint'ов, чтобы избежать раздувания диска

6.3 Как узнать, работает ли обучение

К ~200-500 шагам вы должны видеть хотя бы одно из этого:

редактирование начинает происходить согласованно
сохранённые части (идентичность/фон/геометрия) остаются более стабильными, чем «случайная генерация»
изменение направленно соответствует инструкции caption'а

Если вы видите только шум или модель игнорирует контроли, не «исправляйте» сначала learning rate. Исправьте сопоставление, проводку контролей и zero_cond_t сначала.

7. Специфичный для 2511 переключатель: `zero_cond_t`

Это важная специфичная для 2511 деталь. zero_cond_t меняет, как timestep'ы применяются через потоки, когда модель имеет один деноизированный поток (генерируемое изображение) и потоки conditioning (ваши референсные/контрольные изображения). С включённым zero_cond_t изображения conditioning обрабатываются как чистые референсы (фактически timestep 0), тогда как основное изображение следует нормальному расписанию timestep диффузии.

Если ваши изображения conditioning «зашумляются» вместе с основным потоком, модель имеет более слабый, размытый референс для идентичности/структуры. Это напрямую увеличивает дрейф и уменьшает точность редактирования. Удержание контролей на timestep 0 — чистое инженерное решение, соответствующее цели «сохранить референс».

Для Qwen 2511 относитесь к zero_cond_t как к требованию совместимости, а не как к гиперпараметру:

Включите для обучения.
Держите включённым для инференса.
Если ваши результаты выглядят неожиданно более дрейфующими, чем то, чем известен 2511, это первое, что нужно проверить.

8. Распространённые сбои обучения и решения

8.1 "Missing control images for QwenImageEditPlusModel"

Если вы видите это, AI Toolkit говорит, что не получил контрольных изображений во время обучения. Наиболее частые причины:

вы прикрепили датасет targets, но не назначили control_1 / control_2 в проводке dataset/job
путь папки control неправильный или пустой
количества target/control не совпадают, поэтому контроли не загружаются для некоторых сэмплов

Исправьте, сделав контроли явными: перепроверьте назначения датасета, подтвердите пути папок и убедитесь, что имена файлов/количества совпадают между потоками.

8.2 "tuple index out of range" / ошибки формы тензора рано в обучении

Это почти всегда означает, что загрузчик ожидал тензор изображения, но получил None или неожиданную форму. Базовые причины обычно скучные, но исправимые:

повреждённый файл изображения
неподдерживаемый режим изображения (CMYK, grayscale)
отсутствующее контрольное изображение для конкретного индекса (несоответствие сопоставления)

Ваш цикл исправления должен быть: проверить целостность данных → проверить сопоставление → запустить маленький smoke test (3-5 сэмплов) перед перезапуском большого job'а.

8.3 `KeyError: 'pixel_values'` (часто вызвано grayscale изображениями)

Pipeline'ы Qwen Edit обычно ожидают RGB изображения. Grayscale изображения (один канал) могут сломать извлечение признаков и привести к ошибкам pixel_values. Конвертируйте изображения вашего датасета в стандартные 3-канальные RGB PNG/JPG и попробуйте снова.

8.4 Out of memory (OOM), особенно во время сэмплирования

Обучение мультиизображенного редактирования может поднять VRAM во время preview сэмплирования, потому что выполняет дополнительные forward pass'ы и может использовать большие промежуточные буферы.

Исправьте OOM в этом порядке:

уменьшите частоту preview или разрешение preview
держите batch size на 1, увеличьте gradient accumulation
уменьшите бакеты (или опуститесь до 768)
включите квантизацию/offloading
временно обучайте с меньшим количеством потоков управления во время отладки
если у вас всё ещё OOM локально, запустите тот же job в RunComfy Cloud AI Toolkit на большем GPU

8.5 LoRA загружается, но «ничего не делает» (или загружается с отсутствующими keys) в ComfyUI

Когда LoRA ничего не делает, обычно это одно из:

вы загружаете в другую архитектуру, чем та, для которой он был обучен
масштаб LoRA слишком низкий, чтобы заметить
есть несоответствие префикса key между тем, что ожидает стек инференса, и тем, что сохранил тренер

Если вы видите предупреждения об отсутствующих keys специально для Qwen LoRA, известный workaround — переписать префикс key state dict'а LoRA (напр., сопоставляя keys diffusion_model. с keys transformer.). Если ваш билд AI Toolkit и ваши ComfyUI nodes оба обновлены, это может быть уже исправлено — но это первое, что нужно попробовать, когда вы видите систематические проблемы «keys not loaded».

9. Использование обученного LoRA (Playground + ComfyUI)

После завершения обучения самый быстрый способ проверить ваш Qwen 2511 LoRA — загрузить его в Qwen‑Image‑Edit‑2511 LoRA Playground; когда вам нужен воспроизводимый граф nodes для реальной работы, начните с Qwen‑Image‑Edit‑2511 ComfyUI workflow и замените ваш LoRA.

Обучение LoRA Qwen 2511 (Qwen-Image-Edit-2511) в Ostris AI Toolkit (Обновлённый гид)

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Содержание

1. Qwen 2511 vs 2509: в чём разница

2. Основная ментальная модель: что на самом деле изучает Edit LoRA

3. Где обучать: локальный AI Toolkit vs RunComfy Cloud AI Toolkit

4. Планирование оборудования и VRAM для Обучения LoRA Qwen-Edit-2511

5. Дизайн датасета, который действительно работает для моделей Qwen Edit

5.1 Структура папок, соответствующая тренеру Qwen Edit в AI Toolkit

5.2 Три паттерна датасета, покрывающие большинство реальных LoRA

5.3 Caption'ы, которые помогают (а не вредят)

5.4 Сколько сэмплов вам нужно?

6. Пошагово: Обучить LoRA Qwen Edit 2511 в AI Toolkit

6.1 Создайте датасеты в AI Toolkit (Targets + Control Streams)

6.2 Создайте новый job

6.3 Как узнать, работает ли обучение

7. Специфичный для 2511 переключатель: `zero_cond_t`

8. Распространённые сбои обучения и решения

8.1 "Missing control images for QwenImageEditPlusModel"

8.2 "tuple index out of range" / ошибки формы тензора рано в обучении

8.3 `KeyError: 'pixel_values'` (часто вызвано grayscale изображениями)

8.4 Out of memory (OOM), особенно во время сэмплирования

8.5 LoRA загружается, но «ничего не делает» (или загружается с отсутствующими keys) в ComfyUI

9. Использование обученного LoRA (Playground + ComfyUI)

Больше руководств по обучению LoRA AI Toolkit

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Содержание

1. Qwen 2511 vs 2509: в чём разница

2. Основная ментальная модель: что на самом деле изучает Edit LoRA

3. Где обучать: локальный AI Toolkit vs RunComfy Cloud AI Toolkit

4. Планирование оборудования и VRAM для Обучения LoRA Qwen-Edit-2511

5. Дизайн датасета, который действительно работает для моделей Qwen Edit

5.1 Структура папок, соответствующая тренеру Qwen Edit в AI Toolkit

5.2 Три паттерна датасета, покрывающие большинство реальных LoRA

5.3 Caption'ы, которые помогают (а не вредят)

5.4 Сколько сэмплов вам нужно?

6. Пошагово: Обучить LoRA Qwen Edit 2511 в AI Toolkit

6.1 Создайте датасеты в AI Toolkit (Targets + Control Streams)

6.2 Создайте новый job

6.3 Как узнать, работает ли обучение

7. Специфичный для 2511 переключатель: zero_cond_t

8. Распространённые сбои обучения и решения

8.1 "Missing control images for QwenImageEditPlusModel"

8.2 "tuple index out of range" / ошибки формы тензора рано в обучении

8.3 KeyError: 'pixel_values' (часто вызвано grayscale изображениями)

8.4 Out of memory (OOM), особенно во время сэмплирования

8.5 LoRA загружается, но «ничего не делает» (или загружается с отсутствующими keys) в ComfyUI

9. Использование обученного LoRA (Playground + ComfyUI)

Больше руководств по обучению LoRA AI Toolkit

7. Специфичный для 2511 переключатель: `zero_cond_t`

8.3 `KeyError: 'pixel_values'` (часто вызвано grayscale изображениями)