Qwen‑Image‑2512 (часто сокращается до Qwen 2512) — это большая базовая модель текст-в-изображение, которую можно дообучить с помощью небольших адаптеров для надёжного изучения персонажа (сходства), стиля или продукта/концепции. Это руководство показывает, как проводить практическое Обучение LoRA Qwen Image 2512 с использованием Ostris AI Toolkit, со стабильными настройками по умолчанию и решением типичных проблем.
К концу этого руководства по Обучению LoRA Qwen Image 2512 вы сможете:
- Выбирать правильные настройки по умолчанию для LoRA персонажа vs стиля vs продукта на Qwen-Image-2512.
- Планировать требования к VRAM и решать, когда стоит использовать ARA.
- Создавать датасеты, подписи и триггеры, избегающие типичных режимов сбоя (переобучение/bleeding).
- Запускать короткий smoke test, а затем уверенно фиксировать шаги и настройки.
Эта статья является частью серии по обучению LoRA с AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с обзора обучения LoRA с AI Toolkit перед погружением в это руководство о том, как обучить LoRA для Qwen-2512.
Содержание
- 1. Обзор Qwen‑Image‑2512: что может эта модель текст-в-изображение
- 2. Варианты среды: работа в интерфейсе обучения AI Toolkit
- 3. Оборудование и требования к VRAM для тренировки LoRA Qwen Image 2512
- 4. Создание датасета для Qwen-Image-2512 обучение LoRA
- 5. Пошагово: Обучение LoRA Qwen Image 2512 в AI Toolkit
- 6. Рекомендуемые конфигурации AI-Toolkit обучение LoRA Qwen 2512 по уровням VRAM
- 7. Типичные проблемы Обучения LoRA Qwen Image 2512 и как их решить
- 8. Использование вашей LoRA Qwen‑Image‑2512 после обучения
1. Обзор Qwen‑Image‑2512: что может эта модель текст-в-изображение
Что такое Обучение LoRA Qwen Image 2512 (и что значит «хорошо»)
При Обучении LoRA Qwen Image 2512 вы не заменяете базовую модель — вы добавляете небольшой адаптер, который направляет её к определённой идентичности, стилю или концепции продукта.
Сильная LoRA обладает тремя качествами:
- Сила: явно изменяет выходные данные при активации
- Контроль: активируется только когда вы этого хотите
- Обобщение: работает на новых промптах, а не только на ваших обучающих изображениях
Выберите вашу цель: Персонаж vs Стиль vs Продукт/Концепция
Ваша цель определяет лучшие настройки по умолчанию для дизайна датасета и настроек обучения при тренировке LoRA Qwen Image 2512.
Персонаж / сходство
- Лучше всего для: конкретного человека, персонажа, сходства со знаменитостью, последовательного лица/идентичности
- Основные риски: bleeding идентичности (влияет на других людей), переобработанные лица, быстрое переобучение
- Требуется: более жёсткая стратегия timestep, осторожные шаги, обычно триггер, часто DOP
Стиль
- Лучше всего для: вида/грейда, стиля иллюстрации, стиля освещения, языка текстур
- Основные риски: стать «фильтром для всего», потеря точности промптов
- Требуется: больше разнообразия, обычно меньше повторений/изображение чем для персонажа, триггер опционален
Продукт / концепция
- Лучше всего для: конкретного продукта (обувь, бутылка), упаковки с логотипом, новой концепции объекта
- Основные риски: дрейф формы, непоследовательные материалы, нестабильная геометрия
- Требуется: последовательное кадрирование + чистые подписи; триггер обычно рекомендуется
Если вы не уверены, начните Обучение LoRA Qwen Image 2512 как smoke test (короткий запуск), затем зафиксируйте финальные шаги, как только увидите, как быстро ваш датасет «впечатывается».
2. Варианты среды: локальный AI Toolkit vs облачный AI Toolkit на RunComfy
Для Qwen-Image-2512 обучения LoRA вы можете использовать те же два окружения, что и для других рабочих процессов LoRA с AI Toolkit:
- Локальный AI Toolkit на вашей собственной GPU
- Облачный AI Toolkit на RunComfy с большими GPU (H100 / H200)
Интерфейс обучения, параметры и рабочий процесс идентичны в обоих случаях. Единственная разница — где находится GPU и сколько VRAM у вас доступно.
2.1 Локальный AI Toolkit (ваша собственная GPU)
Установите AI Toolkit из репозитория AI Toolkit на GitHub, затем запустите Web UI. Локальное обучение — хороший выбор, если:
- У вас уже есть GPU NVIDIA (обычно 24GB VRAM или больше для комфортного обучения на 1024)
- Вы комфортно управляете CUDA, драйверами, дисковым пространством и долгими задачами
2.2 Облачный AI Toolkit на RunComfy (H100 / H200)
С облачным AI Toolkit на RunComfy AI-Toolkit обучение LoRA Qwen 2512 работает полностью в браузере:
- Вы ничего не устанавливаете локально
- Вы открываете браузер, входите в систему и сразу попадаете в интерфейс обучения AI Toolkit
- Вы можете выбрать большие GPU такие как H100 (80GB) или H200 (141GB) при запуске задачи
- Вы получаете постоянное рабочее пространство, где датасеты, конфигурации и чекпоинты сохраняются и могут использоваться повторно между сессиями
Эта среда особенно полезна для Обучения LoRA Qwen Image 2512, когда:
- Вы хотите более быструю итерацию на 1024×1024 без агрессивных трюков с памятью
- Вы хотите экспериментировать с бо́льшими рангами LoRA, бо́льшим количеством бакетов или бо́льшими размерами батча
- Вы не хотите тратить время на отладку проблем с CUDA или драйверами
👉 Открыть здесь: Облачный AI Toolkit на RunComfy
3. Оборудование и требования к VRAM для тренировки LoRA Qwen Image 2512
3.1 Планирование оборудования: уровни VRAM и когда ARA важен
Qwen 2512 большой. Для практического Обучения LoRA Qwen Image 2512 думайте уровнями:
- 24GB VRAM (обычно): выполнимо, но вам обычно нужна low-bit квантизация + ARA для обучения на 1024
- 40–48GB VRAM: комфортное обучение на 1024 с меньшими компромиссами
- 80GB+ VRAM: простейшая настройка, самая быстрая итерация, меньше необходимости оптимизировать память
Если у вас меньше 24GB: вы иногда можете обучать на более низком разрешении (например, 768) с агрессивными тактиками памяти, но ожидайте более медленные запуски и более нестабильную стабильность.
3.2 ARA объяснение: что это, когда использовать и как влияет на обучение
Что такое ARA
ARA (Accuracy Recovery Adapter) — это механизм восстановления, используемый с очень низкобитовой квантизацией (обычно 3-bit или 4-bit). Базовая модель работает квантизованной для экономии VRAM, а ARA помогает восстановить точность, потерянную при квантизации.
Когда использовать ARA для Qwen 2512
Используйте ARA, если вам нужно любое из этого:
- Обучать Qwen 2512 на 1024×1024 на 24GB
- Меньше проблем с OOM
- Стабильная сходимость без тяжёлой выгрузки на CPU
Как ARA влияет на обучение (компромиссы)
Плюсы
- Делает обучение на 1024 выполнимым на потребительских GPU
- Часто улучшает стабильность по сравнению с «простой low-bit» квантизацией
Минусы
- Добавляет дополнительные подвижные части (совместимость инструментов/версий важна)
- Если квантизация не удаётся, вам может потребоваться настроить режим квантизации или обновить вашу среду
Практическое руководство для Обучения LoRA Qwen Image 2512
- Начните с 3-bit ARA на 24GB
- Если есть ошибки квантизации, попробуйте 4-bit ARA
- Если проблемы продолжаются, временно используйте режим квантизации с более высокой точностью для проверки остальной части вашего пайплайна, затем вернитесь к ARA
4. Создание датасета для Qwen-Image-2512 обучения LoRA
4.1 Дизайн датасета: что собирать для каждой цели
Большинство неудач при Обучении LoRA Qwen Image 2512 — это замаскированные неудачи датасета.
Универсальные правила
- Конвертируйте всё в RGB (избегайте градаций серого/CMYK)
- Удаляйте сломанные/повреждённые изображения
- Избегайте почти-дубликатов, если вы намеренно не хотите, чтобы этот кадр доминировал
- Поддерживайте последовательное разрешение где возможно (или используйте небольшой набор бакетов)
Датасет персонажа (15–50 изображений)
Стремитесь к:
- 30–60% крупных планов / голова и плечи
- 30–50% средних планов
- 10–20% полный рост (опционально, но помогает обобщению одежды/позы)
Поддерживайте освещение и фоны достаточно разнообразными, чтобы «идентичность» была последовательным сигналом.
Датасет стиля (30–200 изображений)
Стремитесь к:
- Широкое разнообразие субъектов (люди, объекты, окружение)
- Разнообразная композиция и цветовые ситуации
- Последовательные стилевые подсказки (кисть, затенение, палитра, зернистость плёнки и т.д.)
LoRA стиля при тренировке LoRA Qwen Image 2512 обобщаются лучше, когда стиль — единственный последовательный фактор.
Датасет продукта / концепции (20–80 изображений)
Стремитесь к:
- Последовательные углы и кадрирование (спереди/сбоку/45 градусов)
- Последовательный масштаб продукта в кадре (избегайте дикой разницы в масштабе)
- Несколько условий освещения, если материал важен (матовый vs глянцевый)
- Чистые фоны помогают в начале (вы можете добавить сложные сцены позже)
4.2 Подписи и триггеры: шаблоны для Персонажа / Стиля / Продукта
Вы можете обучать Qwen 2512 только с триггером или с короткими последовательными подписями.
4.2.1 Ключевое правило подписей
Если особенность появляется во многих обучающих изображениях, но вы никогда не упоминаете её в подписях, модель может выучить, что триггер неявно означает эту особенность — поэтому она будет пытаться воспроизводить её каждый раз, когда вы используете триггер.
Это распространённая причина, почему LoRA «навязывает» причёску, наряд, цвет фона или стиль камеры каждый раз при активации.
4.2.2 Шаблоны подписей для персонажа
Рекомендуется: используйте триггер. Держите подписи короткими.
- Только триггер:
[trigger] - Короткая подпись:
portrait photo of [trigger], studio lighting, sharp focusphoto of [trigger], natural skin texture, realistic
Избегайте чрезмерного описания частей лица (глаза, нос и т.д.). Пусть модель изучает идентичность из изображений.
4.2.3 Шаблоны подписей для стиля
Триггер опционален. Если вы его используете, вы получаете переключатель вкл/выкл.
- Без триггера, короткая подпись:
in a watercolor illustration style, soft edges, pastel palette - Триггер + короткая подпись:
[trigger], watercolor illustration, pastel palette, soft edges
Для стиля подписи должны описывать атрибуты стиля, а не содержание сцены.
4.2.4 Шаблоны подписей для продукта/концепции
Триггер настоятельно рекомендуется для контроля.
- Простой:
product photo of [trigger], clean background, studio lighting - Если продукт имеет определяющие особенности:
product photo of [trigger], transparent bottle, blue label, studio lighting
Избегайте длинных подписей. Для продуктов последовательная формулировка улучшает стабильность геометрии.
5. Пошагово: Обучение LoRA Qwen Image 2512 в AI Toolkit
Этот раздел следует тому же потоку, что и интерфейс обучения AI Toolkit. Сначала создайте ваши датасеты, затем настройте новую задачу панель за панелью.
5.1 Шаг 0 – Выберите вашу цель (Персонаж vs Стиль vs Продукт)
Перед тем как трогать настройки, решите, что вы обучаете. Это определяет лучшие настройки по умолчанию для подписей, шагов и регуляризации.
- Персонаж / сходство: сильнейшая последовательность идентичности (лицо/внешность). Наивысший риск bleeding и быстрого переобучения.
- Стиль: последовательный визуальный вид (палитра/текстура/освещение). Наивысший риск стать «фильтром для всего».
- Продукт / концепция: стабильная идентичность объекта и геометрия. Наивысший риск дрейфа формы/материала.
Если вы не уверены, сначала запустите короткий smoke test (см. TRAINING + SAMPLE ниже), затем зафиксируйте шаги, как только увидите, как быстро ваш датасет «впечатывается».
5.2 Шаг 1 – Создание датасетов в AI Toolkit
В интерфейсе AI Toolkit откройте вкладку Datasets.
Создайте хотя бы один датасет (пример названия):
my_dataset_2512
Загрузите ваши изображения в этот датасет.
Правила качества датасета (все цели)
- Конвертируйте всё в RGB (избегайте градаций серого/CMYK).
- Удаляйте сломанные/повреждённые файлы.
- Избегайте почти-дубликатов, если вы намеренно не хотите, чтобы этот вид/поза доминировал.
Рекомендуемые размеры датасета
- Персонаж: 15–50 изображений
- Стиль: 30–200 изображений (больше разнообразия помогает)
- Продукт: 20–80 изображений (последовательное кадрирование помогает)
5.3 Шаг 2 – Создание новой задачи
Откройте вкладку New Job. Настройте каждую панель в порядке их появления.
5.3.1 Панель JOB – Training Name, GPU ID, Trigger Word
- Training Name
Выберите понятное имя, которое вы узнаете позже (например,
qwen_2512_character_v1,qwen_2512_style_v1,qwen_2512_product_v1). - GPU ID – при локальной установке выберите GPU на вашей машине. В облачном AI Toolkit на RunComfy оставьте
GPU IDпо умолчанию. Фактический тип машины (H100 / H200) выбирается позже при запуске задачи из Training Queue. - Trigger Word
Рекомендуемое использование зависит от вашей цели:
- Персонаж: настоятельно рекомендуется (даёт чистый контроль вкл/выкл и помогает предотвратить bleeding).
- Стиль: опционально (используйте, если хотите «вызываемый стиль» вместо постоянно включённого).
- Продукт: настоятельно рекомендуется (помогает поддерживать изученную концепцию контролируемой).
Если вы используете триггер, ваши подписи могут включать плейсхолдер типа [trigger] и следовать последовательным шаблонам (см. ниже).
5.3.2 Панель MODEL – Model Architecture, Name or Path, Options
- Model Architecture
Выберите
Qwen-Image-2512. - Name or Path
Используйте
Qwen/Qwen-Image-2512. В большинстве сборок AI Toolkit выборQwen‑Image‑2512автоматически заполнит это значение.Если вы переопределяете, используйте формат ID репозитория Hugging Face:
org-or-user/model-name(опциональноorg-or-user/model-name@revision). - Options
- Low VRAM: включите для GPU с 24GB при Обучении LoRA Qwen Image 2512.
- Layer Offloading: рассматривайте как последнее средство, если вы всё ещё получаете OOM после использования квантизации, меньшего ранга и меньшего количества бакетов.
Порядок выгрузки (лучшие практики):
1) ARA + Low VRAM
2) Уменьшить ранг
3) Уменьшить бакеты разрешения
4) Уменьшить частоту/разрешение сэмплирования
5) Затем включить Layer Offloading
5.3.3 Панель QUANTIZATION – Transformer, Text Encoder
Здесь большинство запусков Обучения LoRA Qwen Image 2512 на 24GB успешны или терпят неудачу.
- Базовая линия 24GB (рекомендуется для обучения на 1024)
- Квантизируйте Transformer и используйте ARA (сначала 3-bit, если нужно — 4-bit).
- Квантизируйте Text Encoder до float8, если вам нужен дополнительный запас VRAM.
- GPU с большим VRAM
Вы можете уменьшить квантизацию или отключить её для простоты, если обучение стабильно и достаточно быстро.
Если квантизация не удаётся (ошибки dtype/quantize), сначала рассматривайте это как проблему совместимости инструментов:
- переключитесь между 3-bit ↔ 4-bit ARA,
- обновите AI Toolkit/зависимости,
- или временно используйте режим более высокой точности для проверки остальной части настройки задачи, затем вернитесь к ARA.
5.3.4 Панель TARGET – Target Type, Linear Rank
- Target Type: выберите
LoRA. - Linear Rank
Рекомендуемые начальные точки по целям:
- Персонаж: 32
- Стиль: 16–32
- Продукт: 32
Общие правила:
- Если OOM → уменьшите ранг перед изменением всего остального.
- Если недообучение → сначала настройте timesteps/steps/LR, затем рассмотрите увеличение ранга.
- Если переобучение → уменьшите повторения/шаги, уменьшите ранг, добавьте разнообразие, рассмотрите DOP.
5.3.5 Панель SAVE – Data Type, Save Every, Max Step Saves to Keep
- Data Type:
BF16(стабильное значение по умолчанию). - Save Every:
250(хорошая частота чекпоинтов). - Max Step Saves to Keep:
4(поддерживает использование диска под контролем).
5.3.6 Панель TRAINING – основные гиперпараметры
Это значения по умолчанию, с которых начинается большинство запусков:
- Batch Size: 1
- Gradient Accumulation: 1
- Optimizer: AdamW8Bit
- Learning Rate: 0.0001
- Weight Decay: 0.0001
- Timestep Type: Weighted
- Timestep Bias: Balanced
- Loss Type: Mean Squared Error
- Use EMA: OFF (для LoRA Qwen 2512)
Руководство по Timestep Type по целям
- Персонаж: Weighted — безопасная базовая линия; если сходство не фиксируется или выглядит непоследовательно, попробуйте более дружественную к идентичности настройку timestep (часто улучшает отпечаток персонажа).
- Стиль: Weighted обычно нормально; увеличивайте разнообразие перед увеличением шагов.
- Продукт: Weighted — стабильная базовая линия; если геометрия дрейфует, сначала уменьшите повторения или ужесточите подписи/триггер.
Шаги: рекомендуемые значения для Персонажа vs Стиля vs Продукта
Шаги не должны быть единственным магическим числом. Более надёжный способ — повторения на изображение:
- повторения ≈ (steps × batch_size × grad_accum) ÷ num_images
- при batch_size=1 и grad_accum=1: steps ≈ повторения × num_images
Если вы увеличиваете gradient accumulation до 2 или 4, уменьшайте шаги пропорционально.
Повторения на изображение для персонажа (сходство)
- Smoke test: 30–50
- Типичная оптимальная зона: 50–90
- Push высокого сходства: 90–120 (следите за bleeding)
Примеры (batch=1, accum=1):
| Изображения | 30–50 повт. | 50–90 повт. | 90–120 повт. |
|---|---|---|---|
| 15 | 450–750 | 750–1350 | 1350–1800 |
| 25 | 750–1250 | 1250–2250 | 2250–3000 |
| 40 | 1200–2000 | 2000–3600 | 3600–4800 |
Повторения на изображение для стиля
- Smoke test: 15–30
- Типичная оптимальная зона: 25–60
- Верхний предел: 60–80 (только с большими, разнообразными датасетами)
Примеры (batch=1, accum=1):
| Изображения | 15–30 повт. | 25–60 повт. | 60–80 повт. |
|---|---|---|---|
| 30 | 450–900 | 750–1800 | 1800–2400 |
| 100 | 1500–3000 | 2500–6000 | 6000–8000 |
Повторения на изображение для продукта / концепции
- Smoke test: 20–40
- Типичная оптимальная зона: 30–70
- Push высокой точности: 70–90 (только если форма/материал всё ещё недообучены)
Примеры (batch=1, accum=1):
| Изображения | 20–40 повт. | 30–70 повт. | 70–90 повт. |
|---|---|---|---|
| 20 | 400–800 | 600–1400 | 1400–1800 |
| 50 | 1000–2000 | 1500–3500 | 3500–4500 |
| 80 | 1600–3200 | 2400–5600 | 5600–7200 |
Оптимизации Text Encoder (правая сторона TRAINING)
- Unload TE
Используйте только для рабочих процессов только с триггером, где вы хотите минимизировать использование VRAM и не зависите от подписей на изображение.
- Cache Text Embeddings
Включайте только если:
- подписи статичны,
- caption dropout ВЫКЛ,
- DOP ВЫКЛ.
Если вы используете caption dropout или DOP, держите его ВЫКЛ.
Регуляризация (правая сторона TRAINING)
Differential Output Preservation (DOP) может помочь предотвратить bleeding.
- Что делает DOP
Побуждает LoRA вести себя как контролируемая дельта:
- сильный эффект при наличии триггера,
- минимальный эффект при отсутствии триггера.
- Когда включать DOP
- Персонаж: обычно да (особенно для чистого поведения триггера вкл/выкл).
- Стиль: опционально (используйте, если хотите вызываемый стиль).
- Продукт: рекомендуется, если идентичность продукта просачивается во всё.
Ключевое правило совместимости для Обучения LoRA Qwen Image 2512
Если DOP ВКЛ, не кэшируйте text embeddings.
Blank Prompt Preservation
Оставьте ВЫКЛ, если у вас нет конкретной причины сохранять поведение для пустых промптов.
5.3.7 Панель ADVANCED – Опции скорости и стабильности
- Do Differential Guidance
Опциональная настройка для увеличения «сигнала обучения». Если вы её включаете, начните консервативно (среднее значение) и увеличивайте только если обучение кажется слишком медленным.
- Latent caching
В разделе DATASETS вы можете включить Cache Latents (рекомендуется для скорости, если у вас достаточно диска и вы хотите более быстрые итерации).
5.3.8 Панель DATASETS – Target Dataset, Default Caption, Settings, Resolutions
Внутри Dataset 1:
- Target Dataset
Выберите датасет, который вы загрузили (например,
my_dataset_2512). - Default Caption
Выбирайте на основе вашей стратегии подписей:
- только триггер: оставьте пустым или просто
[trigger] - короткие подписи: используйте один последовательный шаблон для всего датасета
Шаблоны подписей:
- Персонаж:
portrait photo of [trigger], studio lighting, sharp focus - Стиль:
[trigger], watercolor illustration, pastel palette, soft edges(триггер опционален) - Продукт:
product photo of [trigger], clean background, studio lighting
Ключевое правило подписей
Если особенность появляется во многих обучающих изображениях, но вы никогда не упоминаете её в подписях, модель может выучить, что триггер неявно означает эту особенность — поэтому она будет пытаться воспроизводить её каждый раз, когда вы используете триггер.
- Caption Dropout Rate
0.05— обычная начальная точка, когда вы не кэшируете text embeddings.Если вы включаете кэширование text embeddings, установите dropout в
0. - Settings
- Cache Latents: рекомендуется для скорости (особенно на больших датасетах).
- Is Regularization: используйте только если этот датасет — датасет регуляризации.
- Flip X / Flip Y: ВЫКЛ по умолчанию. Включайте только если зеркальные отражения безопасны для вашего субъекта/продукта (примечание: отражение может испортить текст/логотипы).
- Resolutions
Начните просто:
- Персонаж: только 1024 (чистый отпечаток), добавьте 768 позже при необходимости
- Стиль: 768 + 1024, если датасет смешивает размеры
- Продукт: только 1024 в начале, добавьте другой бакет, когда форма стабильна
5.3.9 Панель SAMPLE – превью обучения
Сэмплирование — ваша система раннего предупреждения для Обучения LoRA Qwen Image 2512.
Рекомендуемые значения по умолчанию:
- Sample Every: 250
- Sampler: FlowMatch (соответствует обучению)
- Guidance Scale: 4
- Sample Steps: 25
- Width/Height: соответствует вашему основному бакету обучения (часто 1024×1024)
- Seed: 42
- Walk Seed: опционально (больше разнообразия в превью)
Сигналы ранней остановки
- Персонаж: сходство достигает пика, затем становится переобработанным; начинается bleeding идентичности; падает точность промптов.
- Стиль: становится «фильтром для всего»; появляются повторяющиеся текстуры; промпты перестают соблюдаться.
- Продукт: геометрия искажается после улучшения; метки/логотипы становятся чрезмерно напористыми; материалы деградируют.
5.4 Шаг 3 – Запуск обучения и мониторинг
После настройки задачи перейдите в Training Queue, выберите вашу задачу и запустите обучение.
Наблюдайте за двумя вещами:
- Использование VRAM (особенно с GPU на 24GB)
- Сэмпл-изображения (они говорят вам, когда остановиться и какой чекпоинт лучший)
Большинство пользователей получают лучшие результаты Qwen-Image-2512 обучения LoRA, выбирая лучший чекпоинт из сэмплирования (часто раньше), а не всегда заканчивая максимальные шаги.
6. Рекомендуемые конфигурации AI-Toolkit обучения LoRA Qwen 2512 по уровням VRAM
Qwen 2512 большой. Для практической тренировки LoRA Qwen Image 2512 думайте уровнями:
- 24GB VRAM (обычно): выполнимо, но вам обычно нужна low-bit квантизация + ARA для обучения на 1024
- 40–48GB VRAM: комфортное обучение на 1024 с меньшими компромиссами
- 80GB+ VRAM: простейшая настройка, самая быстрая итерация, меньше необходимости оптимизировать память
Если у вас меньше 24GB: вы иногда можете обучать на более низком разрешении (например, 768) с агрессивными тактиками памяти, но ожидайте более медленные запуски и более нестабильную стабильность.
Используйте ARA, если вам нужно любое из этого:
- Обучать Qwen 2512 на 1024×1024 на 24GB
- Меньше проблем с OOM
- Стабильная сходимость без тяжёлой выгрузки на CPU
7. Типичные проблемы Обучения LoRA Qwen Image 2512 и как их решить
7.1 Квантизация не удаётся при запуске (ARA / несоответствие dtype на Qwen-Image-2512)
Симптомы
- Обучение останавливается сразу во время запуска.
- Ошибки типа «Failed to quantize … Expected dtype …».
Почему это происходит
- Выбранный режим ARA или квантизации не полностью совместим с текущей сборкой AI Toolkit или средой.
Исправление (самый быстрый порядок)
- Обновите AI Toolkit и зависимости до версии, которая известна поддержкой Qwen-Image-2512.
- Переключите режим ARA:
- Если 3-bit ARA не удаётся → попробуйте 4-bit ARA.
- Если 4-bit ARA не удаётся → попробуйте 3-bit ARA.
- Временно используйте режим квантизации с более высокой точностью, чтобы подтвердить, что остальная часть настройки обучения работает, затем вернитесь к ARA.
7.2 Идентичность персонажа становится общей при batch size > 1
Симптомы
- Ранние сэмплы выглядят многообещающе, но финальная LoRA кажется «усреднённой».
- Персонаж больше не похож на конкретного человека.
Почему это происходит
- Бо́льшие батчи могут способствовать чрезмерному обобщению при Qwen-Image-2512 обучении LoRA для персонажей.
Исправление
- Предпочитайте Batch Size = 1 и Gradient Accumulation = 1.
- Если вам нужен бо́льший эффективный батч, увеличьте Gradient Accumulation вместо Batch Size и внимательно следите за сэмплами.
7.3 Сходство никогда не «фиксируется» (неправильное поведение timestep)
Симптомы
- Одежда, поза или атмосфера правильные, но лицо или идентичность непоследовательны.
- Результаты сильно различаются между промптами.
Почему это происходит
- Для реалистичных персонажей Qwen-Image-2512 часто лучше реагирует на sigmoid-подобное поведение timestep, чем на взвешенные timesteps.
Исправление
- Для LoRA персонажа (и часто продукта) переключите Timestep Type на
sigmoid. - Оценивайте сэмплы рано; не ждите конца обучения.
7.4 Лица становятся «жареными» или восковыми на поздних чекпоинтах
Симптомы
- Один чекпоинт выглядит отлично, но последующие выглядят переобработанными, пластиковыми или нестабильными.
- Bleeding идентичности быстро увеличивается.
Почему это происходит
- LoRA персонажей при Обучении LoRA Qwen Image 2512 могут быстро деградировать, как только вы превышаете примерно ~100 повторений на изображение.
Исправление
- Выберите более ранний чекпоинт (часто лучшее решение).
- Уменьшите общее количество повторений/шагов и оставайтесь ближе к рекомендуемому диапазону.
- При необходимости уменьшите ранг LoRA или добавьте больше разнообразия в датасет перед увеличением шагов.
7.5 LoRA стиля непоследовательна или действует как «фильтр для всего»
Симптомы
- Иногда стиль появляется, иногда нет.
- Или он всегда перезаписывает содержимое промпта.
Почему это происходит
- LoRA стилей часто нуждаются в большей широте датасета и более длительном общем обучении, чем LoRA персонажей.
Исправление
- Добавьте больше разнообразных примеров стиля (люди, объекты, окружение).
- Держите повторения на изображение разумными и увеличивайте общий сигнал через большее количество изображений, а не через экстремальные повторения.
- Сэмплируйте часто, чтобы избежать превращения стиля в грубый глобальный фильтр.
8. Использование вашей LoRA Qwen 2512 после обучения
Как только обучение завершено, вы можете использовать вашу LoRA Qwen 2512 двумя простыми способами:
- Model playground — откройте Qwen‑Image‑2512 LoRA playground и вставьте URL вашей обученной LoRA, чтобы быстро увидеть, как она ведёт себя поверх базовой модели.
- Рабочие процессы ComfyUI — запустите экземпляр ComfyUI и либо создайте свой собственный рабочий процесс, либо загрузите такой как Qwen Image 2512, добавьте узел загрузчика LoRA и вставьте в него вашу LoRA, и настройте вес LoRA и другие параметры для более детального контроля.
Тестирование вашей LoRA Qwen 2512 в инференсе
Тесты персонажа
- Промпт крупного плана портрета
- Промпт среднего плана
- Промпт полного роста
Тесты стиля
- Несколько категорий субъектов (человек/объект/окружение)
Тесты продукта
- Чистый студийный промпт + один промпт сложной сцены
Больше руководств по обучению LoRA с AI Toolkit
- Обучение LoRA Qwen-Image-Edit-2509 с AI Toolkit
- Обучение LoRA Qwen-Image-Edit-2511 с AI Toolkit (многоизображенческое редактирование)
- Обучение LoRA FLUX.2 Dev с AI Toolkit
- Обучение LoRA Z-Image Turbo с AI Toolkit (8-Step Turbo)
- Обучение LoRA Wan 2.2 I2V 14B изображение-в-видео
- Обучение LoRA Wan 2.2 T2V 14B текст-в-видео
- Обучение LoRA LTX-2 с AI Toolkit
Ready to start training?

