ERNIE-Image ComfyUI Workflow

Хотите запустить этот рабочий процесс?

Полностью функциональные рабочие процессы
Нет недостающих узлов или моделей
Не требуется ручная настройка
Отличается потрясающей визуализацией

ERNIE-Image ComfyUI Examples

ernie-image-comfyui-workflow-text-to-image-ai-generator-1399-example_01.webp

ernie-image-comfyui-workflow-text-to-image-ai-generator-1399-example_02.webp

ernie-image-comfyui-workflow-text-to-image-ai-generator-1399-example_03.webp

ernie-image-comfyui-workflow-text-to-image-ai-generator-1399-example_04.webp

ernie-image-comfyui-workflow-text-to-image-ai-generator-1399-example_05.webp

ernie-image-comfyui-workflow-text-to-image-ai-generator-1399-example_06.webp

ERNIE-Image ComfyUI: следование инструкциям текст-в-изображение с четким отображением текста#

Этот рабочий процесс ERNIE-Image ComfyUI превращает короткие подсказки в высококачественные изображения, которые следуют инструкциям и надежно отображают текст. Он сочетает в себе модель диффузии ERNIE-Image от Comfy-Org с сильным текстовым энкодером, опциональным усилителем подсказок и современным Flux2 VAE для сохранения деталей и типографики.

Разработан для быстрой итерации, ERNIE-Image ComfyUI принимает вашу подсказку, опционально расширяет ее для более богатых рекомендаций, кодирует ее, выбирает с помощью ERNIE-Image и декодирует в финальное изображение. Путь усиления подсказок включен и может быть переключен, чтобы вы могли сравнить оригинальные и усиленные подсказки без изменения графа.

Ключевые модели в рабочем процессе Comfyui ERNIE-Image ComfyUI#

Модель диффузии ERNIE-Image. Основной генератор, который денойзит латенты в изображения, настроен для следования инструкциям и отображения текста. Model card
Текстовый энкодер Ministral-3-3B. Основной текстовый энкодер, который преобразует вашу подсказку в кондиционирование для ERNIE-Image. File
Усилитель подсказок ERNIE-Image. Вспомогательный энкодер, используемый ветвью усиления для расширения кратких подсказок в описательные рекомендации. File
Flux2 VAE. Декодер, который превращает латенты от сэмплера в пиксели, сохраняя при этом детализированность и читаемость текста. File

Как использовать рабочий процесс Comfyui ERNIE-Image ComfyUI#

На высоком уровне, ваша подсказка проходит через опциональный шаг усиления, кодируется, затем сэмплируется ERNIE-Image в латенты, которые в конечном итоге декодируются Flux2 VAE и сохраняются. Группы ниже напрямую соответствуют графу, чтобы вы всегда знали, где регулировать входные данные.

Подсказка#

Напишите, что вы хотите увидеть в поле prompt верхнего уровня подграфа ERNIE-Image ComfyUI. Ясные, директивные фразы работают лучше всего для следования инструкциям и отображения текста. Вы можете включать цитируемый текст, который хотите изобразить на изображении. Позитивное кондиционирование строится на основе этой подсказки; негативный путь начинается пустым, поэтому результаты, как правило, соответствуют вашему замыслу, если вы не добавите свои собственные негативы позже.

Усиление подсказок#

Включите или выключите путь усиления с помощью Enable prompt enhancement? (#76). Когда включено, ваше краткое задание расширяется TextGenerate (#74) с использованием усилителя подсказок ERNIE-Image, загруженного через Load CLIP (PE) (#91). Усилитель использует структурированную инструкцию для обогащения вашей подсказки и также передает целевую ширину и высоту для поощрения согласованной композиции. ComfySwitchNode (#75) направляет либо оригинальный, либо усиленный текст вниз по потоку, чтобы вы могли легко провести тестирование A/B. Для широкой совместимости переключатель по умолчанию выключен; включите его, когда модель усилителя будет присутствовать.

Модель#

Рабочий процесс загружает три актива: UNETLoader (#66) выбирает модель диффузии ERNIE-Image, CLIPLoader (#62) загружает текстовый энкодер Ministral-3-3B, а VAELoader (#63) предоставляет Flux2 VAE. Эта комбинация обеспечивает сильное следование инструкциям ERNIE-Image ComfyUI и чистую типографику. Если вы замените любую модель, держите тройку согласованной, чтобы избежать несоответствий.

Размер изображения#

EmptyFlux2LatentImage (#71) определяет холст. Установите ширину и высоту в соотношение сторон, которое вы хотите; пейзажи, портреты и квадратные графики все работают. Эти размеры также вводятся в подсказку усиления, когда переключатель включен, что помогает модели планировать макет и размещение текста. Большие размеры требуют больше вычислений; для быстрых предварительных просмотров используйте меньшие размеры, затем увеличивайте по мере необходимости.

Текст в изображение#

CLIPTextEncode (#67) превращает ваш маршрутизированный запрос в позитивное кондиционирование, в то время как CLIPTextEncode (#72) предоставляет негативную ветвь (по умолчанию оставлено пустым). KSampler (#70) затем генерирует латенты, используя модель ERNIE-Image и ваше кондиционирование. После сэмплирования VAEDecode (#65) преобразует латенты в RGB пиксели. Все настроено для генерации в одно нажатие, так что как только ваши входные данные установлены, просто поставьте задачу в очередь и наблюдайте за предварительным просмотром.

Вывод#

Изображение сохраняется с помощью SaveImage (#73). Вы увидите его в предварительном просмотре UI и в вашей выходной директории. Используйте согласованные семена при сравнении включенного и выключенного усиления, чтобы изолировать эффект текстовой ветви.

Ключевые узлы в рабочем процессе Comfyui ERNIE-Image ComfyUI#

KSampler (#70) Основной генератор, который контролирует траекторию диффузии. Регулируйте steps для качества против скорости, используйте cfg для ужесточения или ослабления следования подсказкам, и установите фиксированное seed для воспроизводимости через варианты подсказок. Более высокое руководство может усилить соответствие, но может снизить креативность; балансируйте по вкусу. См. ссылки ComfyUI на сэмплер для общего поведения. ComfyUI

UNETLoader (#66) Загружает модель диффузии ERNIE-Image, которая фактически денойзит латенты в изображение. Держите это настроенным на контрольную точку ERNIE-Image, чтобы воспользоваться следованием инструкциям и отображением текста. Если вы переключаете модели, ожидайте изменений в стиле и способности к типографике. ERNIE-Image

CLIPLoader (#62) Обеспечивает текстовый энкодер Ministral-3-3B, используемый для основной ветви кондиционирования. Замена энкодеров изменяет, как язык отображается в визуальные образы; для верного следования инструкциям держите его выровненным с стеком ERNIE-Image. Этот узел влияет на оба позитивных и негативных энкодера вниз по потоку. Ministral-3-3B file

VAELoader (#63) Поставляет Flux2 VAE, используемый при декодировании. Соответствующий VAE сохраняет цвет и четкость краев и помогает сохранить четкость отображаемого текста. Используйте это при генерации с ERNIE-Image для наилучших результатов. Flux2 VAE file

EmptyFlux2LatentImage (#71) Инициализирует пустой латентный холст в вашем выбранном разрешении. Это устанавливает конечный размер изображения и тонко направляет макет. Изменение размеров также обновит внутреннюю инструкцию усилителя, когда этот путь активен.

CLIPTextEncode (#67) Кодирует окончательный маршрутизированный запрос в позитивное кондиционирование. Чтобы улучшить отображение текста, включите точные слова, которые вы хотите видеть в кавычках, и укажите регистр, если это важно. Держите инструкции краткими и конкретными для лучшего соответствия.

CLIPTextEncode (#72) Кодирует негативную подсказку. По умолчанию она оставлена пустой, чтобы результаты были близки к вашему замыслу. Если вы заметите нежелательные артефакты, добавьте несколько кратких негативных терминов здесь.

TextGenerate (#74) Генерирует расширенное описание с использованием усилителя подсказок ERNIE-Image, загруженного Load CLIP (PE) (#91). Полезно для превращения кратких заданий в богатые, визуальные направления, которые улучшают композицию и детали. Держите переключатель усиления выключенным для буквального контроля, включенным для описательного разнообразия. Prompt Enhancer file

ComfySwitchNode (#75) Направляет либо оригинальную, либо усиленную подсказку вперед в зависимости от Enable prompt enhancement? (#76). Это делает тестирование A/B тривиальным без изменения соединений. Используйте фиксированное seed при сравнении, чтобы изолировать различия только в подсказках.

VAEDecode (#65) Декодирует финальный латент в изображение с использованием Flux2 VAE. Этот шаг сильно влияет на цвет, четкость и то, насколько хорошо читается мелкий текст. Держите его в паре с Flux2 VAE из стека ERNIE-Image.

SaveImage (#73) Записывает сгенерированное изображение на диск и отображает его в UI. Используйте согласованные правила именования, если вы планируете проводить бенчмаркинг нескольких запусков ERNIE-Image ComfyUI.

Дополнительные возможности#

Для четкого отображения текста, поместите точные слова в кавычки и укажите стиль, например "жирный шрифт с засечками" или "рукописная метка"; ERNIE-Image ComfyUI оптимизирован для отображения текста.
Используйте ясные директивы, такие как "центральное фото продукта", "белый фон" или "макет постера 2:3", чтобы ERNIE-Image ComfyUI мог точно следовать инструкциям.
При сравнении пути усилителя, зафиксируйте seed и переключайте только переключатель усиления, чтобы увидеть истинные различия A/B.
Выберите соотношение сторон, которое соответствует сцене; ERNIE-Image ComfyUI будет учитывать подсказки по размеру и планировать макет соответственно.

Признание#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарим Comfy-Org за ERNIE-Image (перепакованные файлы моделей и активы), Baidu за оригинальную модель ERNIE-Image и команду ComfyUI за пример рабочего процесса ERNIE-Image ComfyUI за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Исходный код рабочего процесса ComfyUI/ERNIE-Image ComfyUI
- GitHub: comfy-org/docs
- Документы / Примечания к выпуску: Пример рабочего процесса ERNIE-Image ComfyUI
Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
Comfy-Org/flux2-vae.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: flux2-vae.safetensors

Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и сопровождающими.

Want More ComfyUI Workflows?

Qwen-Image | Генератор Многоязычных Постеров в HD

Новая Эра Генерации Текста в Изображениях!

ComfyUI FLUX | Новое Поколение Генерации Изображений

Новая модель генерации изображений, разработанная Black Forest Labs

ComfyUI VNCCS Клон | Генератор Согласованных Персонажей

Клонируйте персонажей быстро с устойчивыми, высококачественными результатами, готовыми к использованию в спрайтах.

Z-Image | Быстрая фотореалистичная базовая модель

Супербыстрый генератор изображений с потрясающей ясностью и полным контролем.

AnimateDiff + ControlNet + IPAdapter V1 | Плоский аниме-стиль

Придайте вашим видео уникальный аниме-макияж без усилий, захватывая яркий плоский стиль

LongCat Image | Текст в изображение

Создавайте высококачественные квадратные изображения из текста с LongCat Image.

Создатель Постоянного Персонажа

Создавайте постоянные, высококачественные дизайны персонажей с разных углов с полным контролем над эмоциями, освещением и окружением.

Stable Fast 3D | ComfyUI 3D Pack

Создавайте потрясающий 3D контент с помощью Stable Fast 3D и ComfyUI 3D Pack.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

ERNIE-Image ComfyUI | Умный генератор текста в изображение