Qwen‑Image‑2512 (часто сокращается до **Qwen 2512**) — это большая базовая модель **текст-в-изображение**, которую можно дообучить с помощью небольших адаптеров для надёжного изучения **персонажа (сходства)**, **стиля** или **продукта/концепции**. Это руководство показывает, как проводить практическое **Обучение LoRA Qwen Image 2512** с использованием **Ostris AI Toolkit**, со стабильными настройками по умолчанию и решением типичных проблем. К концу этого руководства по **Обучению LoRA Qwen Image 2512** вы сможете: * Выбирать правильные настройки по умолчанию для LoRA **персонажа vs стиля vs продукта** на Qwen-Image-2512. * Планировать требования к VRAM и решать, когда стоит использовать **ARA**. * Создавать датасеты, подписи и триггеры, избегающие типичных режимов сбоя (переобучение/bleeding). * Запускать короткий **smoke test**, а затем уверенно фиксировать шаги и настройки. > Эта статья является частью серии по обучению LoRA с AI Toolkit. Если вы новичок в Ostris AI Toolkit, начните с [обзора обучения LoRA с AI Toolkit](https://www.runcomfy.com/ru/trainer/ai-toolkit/getting-started) перед погружением в это руководство о том, как обучить LoRA для Qwen-2512. --- ## Содержание - [1. Обзор Qwen‑Image‑2512: что может эта модель текст-в-изображение](#qwen-image-2512-section-1) - [2. Варианты среды: работа в интерфейсе обучения AI Toolkit](#qwen-image-2512-section-2) - [3. Оборудование и требования к VRAM для тренировки LoRA Qwen Image 2512](#qwen-image-2512-section-3) - [4. Создание датасета для Qwen-Image-2512 обучение LoRA](#qwen-image-2512-section-4) - [5. Пошагово: Обучение LoRA Qwen Image 2512 в AI Toolkit](#qwen-image-2512-section-5) - [6. Рекомендуемые конфигурации AI-Toolkit обучение LoRA Qwen 2512 по уровням VRAM](#qwen-image-2512-section-6) - [7. Типичные проблемы Обучения LoRA Qwen Image 2512 и как их решить](#qwen-image-2512-section-7) - [8. Использование вашей LoRA Qwen‑Image‑2512 после обучения](#qwen-image-2512-section-8) --- ## 1. Обзор Qwen‑Image‑2512: что может эта модель текст-в-изображение ### Что такое Обучение LoRA Qwen Image 2512 (и что значит «хорошо») При **Обучении LoRA Qwen Image 2512** вы не заменяете базовую модель — вы добавляете небольшой адаптер, который направляет её к определённой идентичности, стилю или концепции продукта. Сильная LoRA обладает тремя качествами: - **Сила**: явно изменяет выходные данные при активации - **Контроль**: активируется только когда вы этого хотите - **Обобщение**: работает на новых промптах, а не только на ваших обучающих изображениях --- ### Выберите вашу цель: Персонаж vs Стиль vs Продукт/Концепция Ваша цель определяет лучшие настройки по умолчанию для дизайна датасета и настроек обучения при тренировке LoRA Qwen Image 2512. #### Персонаж / сходство - Лучше всего для: конкретного человека, персонажа, сходства со знаменитостью, последовательного лица/идентичности - Основные риски: bleeding идентичности (влияет на других людей), переобработанные лица, быстрое переобучение - Требуется: более жёсткая стратегия timestep, осторожные шаги, обычно триггер, часто DOP #### Стиль - Лучше всего для: вида/грейда, стиля иллюстрации, стиля освещения, языка текстур - Основные риски: стать «фильтром для всего», потеря точности промптов - Требуется: больше разнообразия, обычно меньше повторений/изображение чем для персонажа, триггер опционален #### Продукт / концепция - Лучше всего для: конкретного продукта (обувь, бутылка), упаковки с логотипом, новой концепции объекта - Основные риски: дрейф формы, непоследовательные материалы, нестабильная геометрия - Требуется: последовательное кадрирование + чистые подписи; триггер обычно рекомендуется > Если вы не уверены, начните Обучение LoRA Qwen Image 2512 как **smoke test** (короткий запуск), затем зафиксируйте финальные шаги, как только увидите, как быстро ваш датасет «впечатывается». --- ## 2. Варианты среды: локальный AI Toolkit vs облачный AI Toolkit на RunComfy Для **Qwen-Image-2512 обучения LoRA** вы можете использовать **те же два окружения**, что и для других рабочих процессов LoRA с AI Toolkit: - **Локальный AI Toolkit** на вашей собственной GPU - **Облачный AI Toolkit на RunComfy** с большими GPU (H100 / H200) Интерфейс обучения, параметры и рабочий процесс **идентичны** в обоих случаях. Единственная разница — **где находится GPU** и сколько VRAM у вас доступно. --- ### 2.1 Локальный AI Toolkit (ваша собственная GPU) Установите AI Toolkit из [репозитория AI Toolkit на GitHub](https://github.com/ostris/ai-toolkit), затем запустите Web UI. Локальное обучение — хороший выбор, если: - У вас уже есть GPU NVIDIA (обычно **24GB VRAM или больше** для комфортного обучения на 1024) - Вы комфортно управляете CUDA, драйверами, дисковым пространством и долгими задачами --- ### 2.2 Облачный AI Toolkit на RunComfy (H100 / H200) С **облачным AI Toolkit на RunComfy** AI-Toolkit обучение LoRA Qwen 2512 работает полностью в браузере: - Вы **ничего не устанавливаете** локально - Вы открываете браузер, входите в систему и сразу попадаете в интерфейс обучения AI Toolkit - Вы можете выбрать **большие GPU** такие как **H100 (80GB)** или **H200 (141GB)** при запуске задачи - Вы получаете **постоянное рабочее пространство**, где датасеты, конфигурации и чекпоинты сохраняются и могут использоваться повторно между сессиями Эта среда особенно полезна для **Обучения LoRA Qwen Image 2512**, когда: - Вы хотите более быструю итерацию на **1024×1024** без агрессивных трюков с памятью - Вы хотите экспериментировать с бо́льшими рангами LoRA, бо́льшим количеством бакетов или бо́льшими размерами батча - Вы не хотите тратить время на отладку проблем с CUDA или драйверами **👉 Открыть здесь: [Облачный AI Toolkit на RunComfy](https://www.runcomfy.com/trainer/ai-toolkit/app)** --- ## 3. Оборудование и требования к VRAM для тренировки LoRA Qwen Image 2512 ### 3.1 Планирование оборудования: уровни VRAM и когда ARA важен Qwen 2512 большой. Для практического Обучения LoRA Qwen Image 2512 думайте уровнями: - **24GB VRAM (обычно)**: выполнимо, но вам обычно нужна low-bit квантизация + ARA для обучения на 1024 - **40–48GB VRAM**: комфортное обучение на 1024 с меньшими компромиссами - **80GB+ VRAM**: простейшая настройка, самая быстрая итерация, меньше необходимости оптимизировать память Если у вас меньше 24GB: вы иногда можете обучать на более низком разрешении (например, 768) с агрессивными тактиками памяти, но ожидайте более медленные запуски и более нестабильную стабильность. --- ### 3.2 ARA объяснение: что это, когда использовать и как влияет на обучение #### Что такое ARA **ARA (Accuracy Recovery Adapter)** — это механизм восстановления, используемый с очень низкобитовой квантизацией (обычно 3-bit или 4-bit). Базовая модель работает квантизованной для экономии VRAM, а ARA помогает восстановить точность, потерянную при квантизации. #### Когда использовать ARA для Qwen 2512 Используйте ARA, если вам нужно любое из этого: - Обучать Qwen 2512 на **1024×1024** на **24GB** - Меньше проблем с OOM - Стабильная сходимость без тяжёлой выгрузки на CPU #### Как ARA влияет на обучение (компромиссы) **Плюсы** - Делает обучение на 1024 выполнимым на потребительских GPU - Часто улучшает стабильность по сравнению с «простой low-bit» квантизацией **Минусы** - Добавляет дополнительные подвижные части (совместимость инструментов/версий важна) - Если квантизация не удаётся, вам может потребоваться настроить режим квантизации или обновить вашу среду **Практическое руководство для Обучения LoRA Qwen Image 2512** - Начните с **3-bit ARA** на 24GB - Если есть ошибки квантизации, попробуйте **4-bit ARA** - Если проблемы продолжаются, временно используйте режим квантизации с более высокой точностью для проверки остальной части вашего пайплайна, затем вернитесь к ARA --- ## 4. Создание датасета для Qwen-Image-2512 обучения LoRA ### 4.1 Дизайн датасета: что собирать для каждой цели Большинство неудач при Обучении LoRA Qwen Image 2512 — это замаскированные неудачи датасета. #### Универсальные правила - Конвертируйте всё в **RGB** (избегайте градаций серого/CMYK) - Удаляйте сломанные/повреждённые изображения - Избегайте почти-дубликатов, если вы намеренно не хотите, чтобы этот кадр доминировал - Поддерживайте последовательное разрешение где возможно (или используйте небольшой набор бакетов) #### Датасет персонажа (15–50 изображений) Стремитесь к: - 30–60% крупных планов / голова и плечи - 30–50% средних планов - 10–20% полный рост (опционально, но помогает обобщению одежды/позы) Поддерживайте освещение и фоны достаточно разнообразными, чтобы «идентичность» была последовательным сигналом. #### Датасет стиля (30–200 изображений) Стремитесь к: - Широкое разнообразие субъектов (люди, объекты, окружение) - Разнообразная композиция и цветовые ситуации - Последовательные стилевые подсказки (кисть, затенение, палитра, зернистость плёнки и т.д.) LoRA стиля при тренировке LoRA Qwen Image 2512 обобщаются лучше, когда стиль — единственный последовательный фактор. #### Датасет продукта / концепции (20–80 изображений) Стремитесь к: - Последовательные углы и кадрирование (спереди/сбоку/45 градусов) - Последовательный масштаб продукта в кадре (избегайте дикой разницы в масштабе) - Несколько условий освещения, если материал важен (матовый vs глянцевый) - Чистые фоны помогают в начале (вы можете добавить сложные сцены позже) --- ### 4.2 Подписи и триггеры: шаблоны для Персонажа / Стиля / Продукта Вы можете обучать Qwen 2512 **только с триггером** или с **короткими последовательными подписями**. #### 4.2.1 Ключевое правило подписей **Если особенность появляется во многих обучающих изображениях, но вы никогда не упоминаете её в подписях, модель может выучить, что триггер неявно означает эту особенность — поэтому она будет пытаться воспроизводить её каждый раз, когда вы используете триггер.** Это распространённая причина, почему LoRA «навязывает» причёску, наряд, цвет фона или стиль камеры каждый раз при активации. #### 4.2.2 Шаблоны подписей для персонажа **Рекомендуется: используйте триггер.** Держите подписи короткими. - Только триггер: `[trigger]` - Короткая подпись: `portrait photo of [trigger], studio lighting, sharp focus` `photo of [trigger], natural skin texture, realistic` Избегайте чрезмерного описания частей лица (глаза, нос и т.д.). Пусть модель изучает идентичность из изображений. #### 4.2.3 Шаблоны подписей для стиля Триггер опционален. Если вы его используете, вы получаете переключатель вкл/выкл. - Без триггера, короткая подпись: `in a watercolor illustration style, soft edges, pastel palette` - Триггер + короткая подпись: `[trigger], watercolor illustration, pastel palette, soft edges` Для стиля подписи должны описывать **атрибуты стиля**, а не содержание сцены. #### 4.2.4 Шаблоны подписей для продукта/концепции Триггер настоятельно рекомендуется для контроля. - Простой: `product photo of [trigger], clean background, studio lighting` - Если продукт имеет определяющие особенности: `product photo of [trigger], transparent bottle, blue label, studio lighting` Избегайте длинных подписей. Для продуктов последовательная формулировка улучшает стабильность геометрии. --- ## 5. Пошагово: Обучение LoRA Qwen Image 2512 в AI Toolkit Этот раздел следует тому же потоку, что и интерфейс обучения AI Toolkit. Сначала создайте ваши датасеты, затем настройте новую задачу панель за панелью. ### 5.1 Шаг 0 – Выберите вашу цель (Персонаж vs Стиль vs Продукт) Перед тем как трогать настройки, решите, что вы обучаете. Это определяет лучшие настройки по умолчанию для подписей, шагов и регуляризации. - **Персонаж / сходство**: сильнейшая последовательность идентичности (лицо/внешность). Наивысший риск bleeding и быстрого переобучения. - **Стиль**: последовательный визуальный вид (палитра/текстура/освещение). Наивысший риск стать «фильтром для всего». - **Продукт / концепция**: стабильная идентичность объекта и геометрия. Наивысший риск дрейфа формы/материала. Если вы не уверены, сначала запустите короткий **smoke test** (см. TRAINING + SAMPLE ниже), затем зафиксируйте шаги, как только увидите, как быстро ваш датасет «впечатывается». --- ### 5.2 Шаг 1 – Создание датасетов в AI Toolkit В интерфейсе AI Toolkit откройте вкладку **Datasets**. Создайте хотя бы один датасет (пример названия): - `my_dataset_2512` Загрузите ваши изображения в этот датасет. **Правила качества датасета (все цели)** - Конвертируйте всё в **RGB** (избегайте градаций серого/CMYK). - Удаляйте сломанные/повреждённые файлы. - Избегайте почти-дубликатов, если вы намеренно не хотите, чтобы этот вид/поза доминировал. **Рекомендуемые размеры датасета** - **Персонаж**: 15–50 изображений - **Стиль**: 30–200 изображений (больше разнообразия помогает) - **Продукт**: 20–80 изображений (последовательное кадрирование помогает) --- ### 5.3 Шаг 2 – Создание новой задачи Откройте вкладку **New Job**. Настройте каждую панель в порядке их появления. --- #### 5.3.1 Панель JOB – Training Name, GPU ID, Trigger Word - **Training Name** Выберите понятное имя, которое вы узнаете позже (например, `qwen_2512_character_v1`, `qwen_2512_style_v1`, `qwen_2512_product_v1`). - **GPU ID** – при локальной установке выберите GPU на вашей машине. В **облачном AI Toolkit на RunComfy** оставьте `GPU ID` по умолчанию. Фактический тип машины (H100 / H200) выбирается позже при запуске задачи из **Training Queue**. - **Trigger Word** Рекомендуемое использование зависит от вашей цели: - **Персонаж**: настоятельно рекомендуется (даёт чистый контроль вкл/выкл и помогает предотвратить bleeding). - **Стиль**: опционально (используйте, если хотите «вызываемый стиль» вместо постоянно включённого). - **Продукт**: настоятельно рекомендуется (помогает поддерживать изученную концепцию контролируемой). Если вы используете триггер, ваши подписи могут включать плейсхолдер типа `[trigger]` и следовать последовательным шаблонам (см. ниже). --- #### 5.3.2 Панель MODEL – Model Architecture, Name or Path, Options - **Model Architecture** Выберите `Qwen-Image-2512`. - **Name or Path** Используйте `Qwen/Qwen-Image-2512`. В большинстве сборок AI Toolkit выбор `Qwen‑Image‑2512` **автоматически заполнит** это значение. Если вы переопределяете, используйте формат ID репозитория Hugging Face: `org-or-user/model-name` (опционально `org-or-user/model-name@revision`). - **Options** - **Low VRAM**: включите для GPU с 24GB при Обучении LoRA Qwen Image 2512. - **Layer Offloading**: рассматривайте как последнее средство, если вы всё ещё получаете OOM после использования квантизации, меньшего ранга и меньшего количества бакетов. Порядок выгрузки (лучшие практики): 1) ARA + Low VRAM 2) Уменьшить ранг 3) Уменьшить бакеты разрешения 4) Уменьшить частоту/разрешение сэмплирования 5) Затем включить Layer Offloading --- #### 5.3.3 Панель QUANTIZATION – Transformer, Text Encoder Здесь большинство запусков Обучения LoRA Qwen Image 2512 на 24GB успешны или терпят неудачу. - **Базовая линия 24GB (рекомендуется для обучения на 1024)** - Квантизируйте **Transformer** и используйте **ARA** (сначала 3-bit, если нужно — 4-bit). - Квантизируйте **Text Encoder** до float8, если вам нужен дополнительный запас VRAM. - **GPU с большим VRAM** Вы можете уменьшить квантизацию или отключить её для простоты, если обучение стабильно и достаточно быстро. Если квантизация не удаётся (ошибки dtype/quantize), сначала рассматривайте это как проблему совместимости инструментов: - переключитесь между 3-bit ↔ 4-bit ARA, - обновите AI Toolkit/зависимости, - или временно используйте режим более высокой точности для проверки остальной части настройки задачи, затем вернитесь к ARA. --- #### 5.3.4 Панель TARGET – Target Type, Linear Rank - **Target Type**: выберите `LoRA`. - **Linear Rank** Рекомендуемые начальные точки по целям: - **Персонаж**: 32 - **Стиль**: 16–32 - **Продукт**: 32 Общие правила: - Если OOM → уменьшите ранг перед изменением всего остального. - Если недообучение → сначала настройте timesteps/steps/LR, затем рассмотрите увеличение ранга. - Если переобучение → уменьшите повторения/шаги, уменьшите ранг, добавьте разнообразие, рассмотрите DOP. --- #### 5.3.5 Панель SAVE – Data Type, Save Every, Max Step Saves to Keep - **Data Type**: `BF16` (стабильное значение по умолчанию). - **Save Every**: `250` (хорошая частота чекпоинтов). - **Max Step Saves to Keep**: `4` (поддерживает использование диска под контролем). --- #### 5.3.6 Панель TRAINING – основные гиперпараметры Это значения по умолчанию, с которых начинается большинство запусков: - **Batch Size**: 1 - **Gradient Accumulation**: 1 - **Optimizer**: AdamW8Bit - **Learning Rate**: 0.0001 - **Weight Decay**: 0.0001 - **Timestep Type**: Weighted - **Timestep Bias**: Balanced - **Loss Type**: Mean Squared Error - **Use EMA**: OFF (для LoRA Qwen 2512) **Руководство по Timestep Type по целям** - **Персонаж**: Weighted — безопасная базовая линия; если сходство не фиксируется или выглядит непоследовательно, попробуйте более дружественную к идентичности настройку timestep (часто улучшает отпечаток персонажа). - **Стиль**: Weighted обычно нормально; увеличивайте разнообразие перед увеличением шагов. - **Продукт**: Weighted — стабильная базовая линия; если геометрия дрейфует, сначала уменьшите повторения или ужесточите подписи/триггер. ##### Шаги: рекомендуемые значения для Персонажа vs Стиля vs Продукта Шаги не должны быть единственным магическим числом. Более надёжный способ — **повторения на изображение**: - повторения ≈ (steps × batch_size × grad_accum) ÷ num_images - при batch_size=1 и grad_accum=1: steps ≈ повторения × num_images Если вы увеличиваете gradient accumulation до 2 или 4, уменьшайте шаги пропорционально. **Повторения на изображение для персонажа (сходство)** - Smoke test: 30–50 - Типичная оптимальная зона: 50–90 - Push высокого сходства: 90–120 (следите за bleeding) Примеры (batch=1, accum=1): | Изображения | 30–50 повт. | 50–90 повт. | 90–120 повт. | |---:|---:|---:|---:| | 15 | 450–750 | 750–1350 | 1350–1800 | | 25 | 750–1250 | 1250–2250 | 2250–3000 | | 40 | 1200–2000 | 2000–3600 | 3600–4800 | **Повторения на изображение для стиля** - Smoke test: 15–30 - Типичная оптимальная зона: 25–60 - Верхний предел: 60–80 (только с большими, разнообразными датасетами) Примеры (batch=1, accum=1): | Изображения | 15–30 повт. | 25–60 повт. | 60–80 повт. | |---:|---:|---:|---:| | 30 | 450–900 | 750–1800 | 1800–2400 | | 100 | 1500–3000 | 2500–6000 | 6000–8000 | **Повторения на изображение для продукта / концепции** - Smoke test: 20–40 - Типичная оптимальная зона: 30–70 - Push высокой точности: 70–90 (только если форма/материал всё ещё недообучены) Примеры (batch=1, accum=1): | Изображения | 20–40 повт. | 30–70 повт. | 70–90 повт. | |---:|---:|---:|---:| | 20 | 400–800 | 600–1400 | 1400–1800 | | 50 | 1000–2000 | 1500–3500 | 3500–4500 | | 80 | 1600–3200 | 2400–5600 | 5600–7200 | --- ##### Оптимизации Text Encoder (правая сторона TRAINING) - **Unload TE** Используйте только для рабочих процессов только с триггером, где вы хотите минимизировать использование VRAM и не зависите от подписей на изображение. - **Cache Text Embeddings** Включайте только если: - подписи статичны, - caption dropout ВЫКЛ, - DOP ВЫКЛ. Если вы используете caption dropout или DOP, держите его ВЫКЛ. --- ##### Регуляризация (правая сторона TRAINING) **Differential Output Preservation (DOP)** может помочь предотвратить bleeding. - **Что делает DOP** Побуждает LoRA вести себя как контролируемая дельта: - сильный эффект при наличии триггера, - минимальный эффект при отсутствии триггера. - **Когда включать DOP** - **Персонаж**: обычно да (особенно для чистого поведения триггера вкл/выкл). - **Стиль**: опционально (используйте, если хотите вызываемый стиль). - **Продукт**: рекомендуется, если идентичность продукта просачивается во всё. **Ключевое правило совместимости для Обучения LoRA Qwen Image 2512** Если DOP ВКЛ, не кэшируйте text embeddings. **Blank Prompt Preservation** Оставьте ВЫКЛ, если у вас нет конкретной причины сохранять поведение для пустых промптов. --- #### 5.3.7 Панель ADVANCED – Опции скорости и стабильности - **Do Differential Guidance** Опциональная настройка для увеличения «сигнала обучения». Если вы её включаете, начните консервативно (среднее значение) и увеличивайте только если обучение кажется слишком медленным. - **Latent caching** В разделе **DATASETS** вы можете включить **Cache Latents** (рекомендуется для скорости, если у вас достаточно диска и вы хотите более быстрые итерации). --- #### 5.3.8 Панель DATASETS – Target Dataset, Default Caption, Settings, Resolutions Внутри **Dataset 1**: - **Target Dataset** Выберите датасет, который вы загрузили (например, `my_dataset_2512`). - **Default Caption** Выбирайте на основе вашей стратегии подписей: - только триггер: оставьте пустым или просто `[trigger]` - короткие подписи: используйте один последовательный шаблон для всего датасета Шаблоны подписей: - Персонаж: `portrait photo of [trigger], studio lighting, sharp focus` - Стиль: `[trigger], watercolor illustration, pastel palette, soft edges` (триггер опционален) - Продукт: `product photo of [trigger], clean background, studio lighting` **Ключевое правило подписей** Если особенность появляется во многих обучающих изображениях, но вы никогда не упоминаете её в подписях, модель может выучить, что триггер неявно означает эту особенность — поэтому она будет пытаться воспроизводить её каждый раз, когда вы используете триггер. - **Caption Dropout Rate** `0.05` — обычная начальная точка, когда вы не кэшируете text embeddings. Если вы включаете кэширование text embeddings, установите dropout в `0`. - **Settings** - **Cache Latents**: рекомендуется для скорости (особенно на больших датасетах). - **Is Regularization**: используйте только если этот датасет — датасет регуляризации. - **Flip X / Flip Y**: ВЫКЛ по умолчанию. Включайте только если зеркальные отражения безопасны для вашего субъекта/продукта (примечание: отражение может испортить текст/логотипы). - **Resolutions** Начните просто: - **Персонаж**: только 1024 (чистый отпечаток), добавьте 768 позже при необходимости - **Стиль**: 768 + 1024, если датасет смешивает размеры - **Продукт**: только 1024 в начале, добавьте другой бакет, когда форма стабильна --- #### 5.3.9 Панель SAMPLE – превью обучения Сэмплирование — ваша система раннего предупреждения для Обучения LoRA Qwen Image 2512. Рекомендуемые значения по умолчанию: - **Sample Every**: 250 - **Sampler**: FlowMatch (соответствует обучению) - **Guidance Scale**: 4 - **Sample Steps**: 25 - **Width/Height**: соответствует вашему основному бакету обучения (часто 1024×1024) - **Seed**: 42 - **Walk Seed**: опционально (больше разнообразия в превью) **Сигналы ранней остановки** - Персонаж: сходство достигает пика, затем становится переобработанным; начинается bleeding идентичности; падает точность промптов. - Стиль: становится «фильтром для всего»; появляются повторяющиеся текстуры; промпты перестают соблюдаться. - Продукт: геометрия искажается после улучшения; метки/логотипы становятся чрезмерно напористыми; материалы деградируют. --- ### 5.4 Шаг 3 – Запуск обучения и мониторинг После настройки задачи перейдите в **Training Queue**, выберите вашу задачу и запустите обучение. Наблюдайте за двумя вещами: - **Использование VRAM** (особенно с GPU на 24GB) - **Сэмпл-изображения** (они говорят вам, когда остановиться и какой чекпоинт лучший) Большинство пользователей получают лучшие результаты Qwen-Image-2512 обучения LoRA, выбирая лучший чекпоинт из сэмплирования (часто раньше), а не всегда заканчивая максимальные шаги. --- ## 6. Рекомендуемые конфигурации AI-Toolkit обучения LoRA Qwen 2512 по уровням VRAM Qwen 2512 большой. Для практической тренировки LoRA Qwen Image 2512 думайте уровнями: - **24GB VRAM (обычно)**: выполнимо, но вам обычно нужна low-bit квантизация + ARA для обучения на 1024 - **40–48GB VRAM**: комфортное обучение на 1024 с меньшими компромиссами - **80GB+ VRAM**: простейшая настройка, самая быстрая итерация, меньше необходимости оптимизировать память Если у вас меньше 24GB: вы иногда можете обучать на более низком разрешении (например, 768) с агрессивными тактиками памяти, но ожидайте более медленные запуски и более нестабильную стабильность. Используйте ARA, если вам нужно любое из этого: - Обучать Qwen 2512 на **1024×1024** на **24GB** - Меньше проблем с OOM - Стабильная сходимость без тяжёлой выгрузки на CPU --- ## 7. Типичные проблемы Обучения LoRA Qwen Image 2512 и как их решить ### 7.1 Квантизация не удаётся при запуске (ARA / несоответствие dtype на Qwen-Image-2512) **Симптомы** - Обучение останавливается сразу во время запуска. - Ошибки типа «Failed to quantize … Expected dtype …». **Почему это происходит** - Выбранный режим ARA или квантизации не полностью совместим с текущей сборкой AI Toolkit или средой. **Исправление (самый быстрый порядок)** 1. Обновите AI Toolkit и зависимости до версии, которая известна поддержкой Qwen-Image-2512. 2. Переключите режим ARA: - Если **3-bit ARA** не удаётся → попробуйте **4-bit ARA**. - Если **4-bit ARA** не удаётся → попробуйте **3-bit ARA**. 3. Временно используйте режим квантизации с более высокой точностью, чтобы подтвердить, что остальная часть настройки обучения работает, затем вернитесь к ARA. --- ### 7.2 Идентичность персонажа становится общей при batch size > 1 **Симптомы** - Ранние сэмплы выглядят многообещающе, но финальная LoRA кажется «усреднённой». - Персонаж больше не похож на конкретного человека. **Почему это происходит** - Бо́льшие батчи могут способствовать чрезмерному обобщению при Qwen-Image-2512 обучении LoRA для персонажей. **Исправление** - Предпочитайте **Batch Size = 1** и **Gradient Accumulation = 1**. - Если вам нужен бо́льший эффективный батч, увеличьте **Gradient Accumulation** вместо Batch Size и внимательно следите за сэмплами. --- ### 7.3 Сходство никогда не «фиксируется» (неправильное поведение timestep) **Симптомы** - Одежда, поза или атмосфера правильные, но лицо или идентичность непоследовательны. - Результаты сильно различаются между промптами. **Почему это происходит** - Для реалистичных персонажей Qwen-Image-2512 часто лучше реагирует на **sigmoid-подобное поведение timestep**, чем на взвешенные timesteps. **Исправление** - Для LoRA **персонажа** (и часто **продукта**) переключите **Timestep Type** на `sigmoid`. - Оценивайте сэмплы рано; не ждите конца обучения. --- ### 7.4 Лица становятся «жареными» или восковыми на поздних чекпоинтах **Симптомы** - Один чекпоинт выглядит отлично, но последующие выглядят переобработанными, пластиковыми или нестабильными. - Bleeding идентичности быстро увеличивается. **Почему это происходит** - LoRA персонажей при Обучении LoRA Qwen Image 2512 могут быстро деградировать, как только вы превышаете примерно **~100 повторений на изображение**. **Исправление** 1. Выберите **более ранний чекпоинт** (часто лучшее решение). 2. Уменьшите общее количество повторений/шагов и оставайтесь ближе к рекомендуемому диапазону. 3. При необходимости уменьшите ранг LoRA или добавьте больше разнообразия в датасет перед увеличением шагов. --- ### 7.5 LoRA стиля непоследовательна или действует как «фильтр для всего» **Симптомы** - Иногда стиль появляется, иногда нет. - Или он всегда перезаписывает содержимое промпта. **Почему это происходит** - LoRA стилей часто нуждаются в **большей широте датасета** и более длительном общем обучении, чем LoRA персонажей. **Исправление** - Добавьте больше разнообразных примеров стиля (люди, объекты, окружение). - Держите повторения на изображение разумными и увеличивайте общий сигнал через большее количество изображений, а не через экстремальные повторения. - Сэмплируйте часто, чтобы избежать превращения стиля в грубый глобальный фильтр. --- ## 8. Использование вашей LoRA Qwen 2512 после обучения Как только обучение завершено, вы можете использовать вашу LoRA Qwen 2512 двумя простыми способами: - **Run LoRA** — откройте **[страницу Run LoRA для Qwen‑Image‑2512](https://www.runcomfy.com/trainer/inference/qwen-image-2512)**. На этой странице инференса базовой модели вы можете выбрать LoRA‑asset, который вы обучили на RunComfy, или импортировать LoRA‑файл, обученный в AI Toolkit, а затем запускать инференс через playground или API. **RunComfy использует ту же базовую модель и полное определение пайплайна AI Toolkit из вашей training‑конфигурации**, поэтому что вы видели во время обучения, то и получите в инференсе — такое выравнивание training/inference помогает сохранять результаты согласованными с вашими training‑samples. - **Рабочие процессы ComfyUI** — запустите экземпляр **[ComfyUI](https://www.runcomfy.com/comfyui-workflows)** и либо создайте свой собственный рабочий процесс, либо загрузите такой как **[Qwen Image 2512](https://www.runcomfy.com/comfyui-workflows/qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow)**, добавьте узел загрузчика LoRA и вставьте в него вашу LoRA, и настройте вес LoRA и другие параметры для более детального контроля. Тестирование вашей LoRA Qwen 2512 в инференсе **Тесты персонажа** - Промпт крупного плана портрета - Промпт среднего плана - Промпт полного роста **Тесты стиля** - Несколько категорий субъектов (человек/объект/окружение) **Тесты продукта** - Чистый студийный промпт + один промпт сложной сцены --- ## Больше руководств по обучению LoRA с AI Toolkit - [Обучение LoRA Qwen-Image-Edit-2509 с AI Toolkit](https://www.runcomfy.com/ru/trainer/ai-toolkit/qwen-image-edit-2509-lora-training) - [Обучение LoRA Qwen-Image-Edit-2511 с AI Toolkit (многоизображенческое редактирование)](https://www.runcomfy.com/ru/trainer/ai-toolkit/qwen-image-edit-2511-lora-training) - [Обучение LoRA FLUX.2 Dev с AI Toolkit](https://www.runcomfy.com/ru/trainer/ai-toolkit/flux-2-dev-lora-training) - [Обучение LoRA Z-Image Turbo с AI Toolkit (8-Step Turbo)](https://www.runcomfy.com/ru/trainer/ai-toolkit/z-image-turbo-lora-training) - [Обучение LoRA Wan 2.2 I2V 14B изображение-в-видео](https://www.runcomfy.com/ru/trainer/ai-toolkit/wan-2-2-i2v-14b-lora-training) - [Обучение LoRA Wan 2.2 T2V 14B текст-в-видео](https://www.runcomfy.com/ru/trainer/ai-toolkit/wan-2-2-t2v-14b-lora-training) - [Обучение LoRA LTX-2 с AI Toolkit](https://www.runcomfy.com/ru/trainer/ai-toolkit/ltx-2-lora-training)