Проект In-Context LoRA (IC-LoRA), разработанный Лянхуа Хуаном, Вэй Ваном, Чжи-Фан Ву и их соавторами из Tongyi Lab, представляет собой революционный подход к независимой от задачи генерации изображений с использованием диффузионных трансформеров (DiTs). Их инновационная структура использует возможности генерации в контексте DiTs, вводя минимальную настройку и упрощенный конвейер, что позволяет эффективно настраивать задачи с небольшими наборами данных. Чтобы узнать больше об их работе и получить доступ к их ресурсам, посетите официальный репозиторий на GitHub.
1. О In-Context LoRA (IC-LoRA)
In-Context LoRA (IC-LoRA) — это мощная и гибкая структура, которая позволяет существующим моделям диффузионных трансформеров текст-к-изображению выполнять широкий спектр задач генерации изображений с минимальным дополнительным обучением. Основная идея In-Context LoRA заключается в использовании врожденных возможностей обучения в контексте этих моделей, предоставляя им тщательно подобранные обучающие данные и используя простой, но эффективный подход к тонкой настройке.
Вот как работает In-Context LoRA в двух словах:
- Конкатенация изображений: Вместо генерации отдельных изображений IC-LoRA объединяет набор связанных элементов в один большой композит. Это позволяет модели изучать отношения и согласованность, необходимые для всего набора.
- Инженерия запросов: Текстовые запросы для набора также объединяются в один запрос. Этот запрос начинается с общего описания набора, за которым следуют конкретные детали для каждого отдельного элемента. Создавая запрос таким образом, модель может понять как высокоуровневую задачу, так и низкоуровневые требования.
- Низкоранговая адаптация (LoRA): Вместо того чтобы тонко настраивать всю модель диффузии, что было бы вычислительно затратным, IC-LoRA использует LoRA для адаптации модели к каждой конкретной задаче. LoRA обучает только небольшой набор вспомогательных параметров, оставляя исходные веса модели неизменными. Это делает процесс тонкой настройки гораздо более эффективным.
- Небольшие обучающие наборы данных: Еще одно ключевое прозрение IC-LoRA состоит в том, что для активации возможностей обучения в контексте не нужны огромные наборы данных. Всего 20-100 высококачественных наборов изображений на задачу достаточно, чтобы достичь впечатляющих результатов. Это значительно снижает нагрузку на сбор данных и вычисления.
Прелесть In-Context LoRA заключается в том, что это независимая от задач структура. Тот же подход можно применить к широкому спектру задач, таких как генерация раскадровок, дизайн шрифтов, дизайн продуктов, визуальные эффекты и многое другое. Предоставляя данные для обучения, специфичные для задачи, IC-LoRA может адаптироваться к каждой задаче без необходимости изменения самой архитектуры модели.
2. 10 моделей In-Context LoRA и их рекомендуемые настройки
<table style={{ width: '100%', border: '1px solid grey', borderCollapse: 'collapse' }}> <thead> <tr> <th style={{ border: '1px solid grey', textAlign: 'center' }}><strong>Задача</strong></th> <th style={{ border: '1px solid grey', textAlign: 'center' }}><strong>Модель</strong></th> <th style={{ border: '1px solid grey', textAlign: 'center' }}><strong>Рекомендуемые настройки</strong></th> <th style={{ border: '1px solid grey', textAlign: 'center' }}><strong>Пример запроса</strong></th> </tr> </thead> <tbody> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>1. Дизайн профиля пары</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/couple-profile.safetensors" target="_blank" rel="noopener noreferrer">couple-profile.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 2048, высота: 1024</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>Это изображение из двух частей изображает пару мультяшных котов в детективной одежде; [ЛЕВО] черный кот в плаще и фетровой шляпе держит лупу и смотрит вправо, в то время как [ПРАВО] белый кот с бабочкой и подходящей шляпой поднимает бровь в любопытстве, создавая забавную, вдохновленную нуаром сцену на фоне слабо освещенного фона.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>2. Раскадровка фильма</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/film-storyboard.safetensors" target="_blank" rel="noopener noreferrer">film-storyboard.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 1024, высота: 1536</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>[КАДРЫ-ФИЛЬМА] На ярком фестивале, [СЦЕНА-1] мы видим <Лео>, застенчивого мальчика, стоящего на краю шумного карнавала, с широко раскрытыми глазами от удивления перед красочными аттракционами и смехом, [СЦЕНА-2] переходящего к тому, как он нехотя пробует смелую игру, его друзья подбадривают его, [СЦЕНА-3] заканчивается триумфальным моментом, когда он выигрывает гигантского плюшевого медведя, его лицо светится гордостью, когда он поднимает его, чтобы все увидели.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>3. Дизайн шрифтов</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/font-design.safetensors" target="_blank" rel="noopener noreferrer">font-design.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 1792, высота: 1216</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>Четырехпанельное изображение демонстрирует игривый шрифт в стиле поп-арт. [ВЕРХ-ЛЕВО] показывает "Pop Candy" ярко-розовым цветом на фоне в горошек; [ВЕРХ-ПРАВО] показывает "Sweet Treat" в фиолетовом цвете, окруженном иллюстрациями конфет; [НИЗ-ЛЕВО] показывает "Yum!" в смеси ярких цветов; [НИЗ-ПРАВО] показывает "Delicious" на полосатом фоне, идеально подходит для веселых, детских продуктов.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>4. Украшение дома</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/home-decoration.safetensors" target="_blank" rel="noopener noreferrer">home-decoration.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 1344, высота: 1728</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>Это четырехпанельное изображение демонстрирует деревенскую гостиную с теплыми деревянными тонами и уютными декоративными элементами; [ВЕРХ-ЛЕВО] показывает большой каменный камин с деревянными полками, заполненными книгами и свечами; [ВЕРХ-ПРАВО] показывает винтажный кожаный диван, покрытый клетчатыми одеялами, дополненный смесью текстурированных подушек; [НИЗ-ЛЕВО] показывает угол с деревянным креслом рядом с боковым столиком, на котором стоит парящая кружка и классическая книга; [НИЗ-ПРАВО] показывает уютный уголок для чтения с оконным сиденьем, мягким меховым пледом и аккуратно сложенными декоративными бревнами.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>5. Иллюстрация портрета</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/portrait-illustration.safetensors" target="_blank" rel="noopener noreferrer">portrait-illustration.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 1152, высота: 1088</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>Это двухпанельное изображение представляет трансформацию от реалистичного портрета к игривой иллюстрации, захватывая как детали, так и художественный стиль; [ЛЕВО] фотография показывает женщину, стоящую на оживленном рынке, в широкополой шляпе, в развевающемся богемном платье и с кожаной сумкой через плечо; [ПРАВО] иллюстрационная панель преувеличивает ее аксессуары и черты, с богемным платьем, изображенным в ярких узорах и смелых цветах, в то время как фон упрощен до абстрактных рыночных павильонов, придавая сцене анимированный и живой вид.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>6. Портретная фотография</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/portrait-photography.safetensors" target="_blank" rel="noopener noreferrer">portrait-photography.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 1344, высота: 1728</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>Это [ЧЕТЫРЕХПАНЕЛЬНОЕ] изображение иллюстрирует творческий процесс молодой художницы в яркой и вдохновляющей студии; [ВЕРХ-ЛЕВО] она стоит перед большим холстом, кисть в руке, добавляя яркие цвета к частично завершенной картине, [ВЕРХ-ПРАВО] она сидит за загроможденным деревянным столом, набрасывая идеи в блокнот с различными художественными принадлежностями, разбросанными вокруг, [НИЗ-ЛЕВО] она делает паузу, чтобы отступить и понаблюдать за своей работой, задумчиво поправляя очки, и [НИЗ-ПРАВО] она экспериментирует с различными текстурами, смешивая краски прямо на палитре, ее сосредоточенное выражение лица демонстрирует ее преданность своему ремеслу.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>7. Шаблон PPT</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/ppt-templates.safetensors" target="_blank" rel="noopener noreferrer">ppt-templates.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 1984, высота: 1152</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>Это четырехпанельное изображение демонстрирует шаблон PowerPoint в деревенской тематике для кулинарного мастер-класса; [ВЕРХ-ЛЕВО] представляет "Готовка от фермы до стола" в теплых, земляных тонах; [ВЕРХ-ПРАВО] организует разделы мастер-класса, такие как "Ингредиенты", "Подготовка" и "Подача"; [НИЗ-ЛЕВО] показывает списки ингредиентов для сезонных продуктов; [НИЗ-ПРАВО] включает профили шеф-поваров с краткими биографиями.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>8. Визуальный эффект песчаной бури</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/sandstorm-visual-effect.safetensors" target="_blank" rel="noopener noreferrer">sandstorm-visual-effect.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 1408, высота: 1600</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>[ПЕСЧАНАЯ-БУРЯ-ПСА] Это изображение из двух частей демонстрирует трансформацию велосипедиста через визуальный эффект песчаной бури; [ВЕРХ] верхняя панель показывает велосипедиста в яркой одежде, устойчиво педалирующего на чистой, открытой дороге с спокойным небом на заднем плане, подчеркивая фокус и решимость, [НИЗ] нижняя панель трансформирует сцену, когда велосипедист оказывается окруженным яростной песчаной бурей, с песчаными частицами, интенсивно кружащимися вокруг велосипеда и велосипедиста на фоне бурного, потемневшего неба, подчеркивая хаос и мощь.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>9. Визуальный эффект бенгальских огней</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/sparklers-visual-effect.safetensors" target="_blank" rel="noopener noreferrer">sparklers-visual-effect.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 960, высота: 1088</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>[РЕАЛЬНЫЕ-БЕНГАЛЬСКИЕ-ОГНИ-НАЛОЖЕНИЯ] Изображение из двух частей ярко иллюстрирует предложение в лесу, преобразованное наложениями бенгальских огней; [ВЕРХ] первая панель изображает мужчину, стоящего на одном колене с обручальным кольцом перед своей партнершей в лесной поляне на закате, с теплым, естественным освещением, [НИЗ] в то время как вторая панель вводит светящиеся бенгальские огни, которые формируют сердце вокруг пары, усиливая романтику и радость момента.</td> </tr> <tr> <td style={{ border: '1px solid grey', textAlign: 'center' }}><strong>10. Дизайн визуальной идентичности</strong></td> <td style={{ border: '1px solid grey', textAlign: 'center' }}> <a href="https://huggingface.co/ali-vilab/In-Context-LoRA/blob/main/visual-identity-design.safetensors" target="_blank" rel="noopener noreferrer">visual-identity-design.safetensors</a> </td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>ширина: 1472, высота: 1024</td> <td style={{ border: '1px solid grey', textAlign: 'center' }}>Двухпанельное изображение демонстрирует радостную идентичность бренда продукции, с левой панелью, показывающей улыбающийся график ананаса и название бренда "Fresh Tropic" в веселом, неформальном шрифте на светло-аква фоне; [ЛЕВО] в то время как правая панель переводит дизайн на многоразовую сумку для покупок с логотипом ананаса в черном цвете, которую держит человек на рынке, подчеркивая доступный и экологически чистый облик бренда.</td> </tr> </tbody> </table>
3. Использование Flux и In-Context LoRA в ComfyUI
Этот рабочий процесс Flux и In-Context LoRA использует мощное сочетание модели Flux и In-Context LoRA для генерации набора связанных изображений на основе текстового запроса. Давайте разберем, как это работает шаг за шагом.
3.1. Предварительно загруженные модели Flux и In-Context LoRA для эффективного рабочего процесса
Наша платформа уже имеет модель Flux и 10 моделей In-Context LoRA, готовых к использованию. Это упрощает ваш рабочий процесс и экономит ваше время. Просто выберите нужную группу и начните создавать.
3.2. Создание идеального запроса на основе предустановленных запросов
Самая важная часть этого рабочего процесса — это текстовое описание, которое захватывает основную идею, которую вы хотите создать. Мы уже написали запросы для каждой модели In-Context LoRA в списке, упомянутом ранее. Когда вы пишете свой собственный запрос, используйте эти примеры в качестве руководства.
3.3. Настройка разрешения и размеров
Чтобы создать визуализации, которые идеально соответствуют вашим потребностям, измените настройки ширины и высоты, чтобы они соответствовали нужному размеру. Мы также предоставили рекомендуемые размеры каждой модели In-Context LoRA, которые вы можете использовать в качестве отправной точки.
3.4. Flux Sampler
Узел Flux Sampler управляет процессом выборки Flux и оптимизирует параметры генерации для достижения лучших результатов. Ключевые параметры включают:
- Seed (1): Значение seed обеспечивает постоянные результаты при одинаковых настройках. Изменение seed позволяет генерации Flux создавать разнообразные результаты.
- Steps (50): Этот параметр определяет количество шагов в процессе выборки Flux. Большее количество шагов улучшает качество, но требует больше времени на обработку. Здесь 50 шагов предлагают сбалансированный вариант.
- Guidance (3): Определяет силу руководства. Более высокие значения (например, 3) делают выходной результат, сгенерированный Flux, более близким к входным запросам, обеспечивая точное представление вашего намерения.
- Max Shift (null): Этот параметр определяет максимальное смещение или диапазон трансформации. Настройка "null" указывает на использование диапазона по умолчанию или неограниченного диапазона.
- Base Shift (null): Подобно max shift, он регулирует базовую силу трансформации. Установка его на "null" применяет конфигурацию по умолчанию.
- Denoise (1): Регулирует силу удаления шума во время генерации Flux. Значение 1 применяет легкое удаление шума, эффективно устраняя незначительные несоответствия, сохраняя при этом ясность.
Сочетание Flux и In-Context LoRA открывает мир возможностей для создания интересного визуального контента. Попробуйте эти новые модели и раскройте свою креативность, как никогда раньше.
Лицензия
Просмотр файлов лицензий:
flux/model_licenses/LICENSE-FLUX1-dev
flux/model_licenses/LICENSE-FLUX1-schnell
Модель FLUX.1 [dev] лицензирована Black Forest Labs. Inc. по лицензии FLUX.1 [dev] Non-Commercial License. Авторское право Black Forest Labs. Inc.
НИ В КАКОМ СЛУЧАЕ BLACK FOREST LABS, INC. НЕ НЕСЕТ ОТВЕТСТВЕННОСТИ ЗА ЛЮБЫЕ ПРЕТЕНЗИИ, УЩЕРБ ИЛИ ИНЫЕ ОБЯЗАННОСТИ, БУДЬ ТО В РЕЗУЛЬТАТЕ ДОГОВОРА, ДЕЛИКТА ИЛИ ИНЫМ ОБРАЗОМ, ВОЗНИКАЮЩИЕ ИЗ ИЛИ В СВЯЗИ С ИСПОЛЬЗОВАНИЕМ ЭТОЙ МОДЕЛИ.

