ERNIE-Image ComfyUI: следование инструкциям текст-в-изображение с четким отображением текста
Этот рабочий процесс ERNIE-Image ComfyUI превращает короткие подсказки в высококачественные изображения, которые следуют инструкциям и надежно отображают текст. Он сочетает в себе модель диффузии ERNIE-Image от Comfy-Org с сильным текстовым энкодером, опциональным усилителем подсказок и современным Flux2 VAE для сохранения деталей и типографики.
Разработан для быстрой итерации, ERNIE-Image ComfyUI принимает вашу подсказку, опционально расширяет ее для более богатых рекомендаций, кодирует ее, выбирает с помощью ERNIE-Image и декодирует в финальное изображение. Путь усиления подсказок включен и может быть переключен, чтобы вы могли сравнить оригинальные и усиленные подсказки без изменения графа.
Ключевые модели в рабочем процессе Comfyui ERNIE-Image ComfyUI
- Модель диффузии ERNIE-Image. Основной генератор, который денойзит латенты в изображения, настроен для следования инструкциям и отображения текста. Model card
- Текстовый энкодер Ministral-3-3B. Основной текстовый энкодер, который преобразует вашу подсказку в кондиционирование для ERNIE-Image. File
- Усилитель подсказок ERNIE-Image. Вспомогательный энкодер, используемый ветвью усиления для расширения кратких подсказок в описательные рекомендации. File
- Flux2 VAE. Декодер, который превращает латенты от сэмплера в пиксели, сохраняя при этом детализированность и читаемость текста. File
Как использовать рабочий процесс Comfyui ERNIE-Image ComfyUI
На высоком уровне, ваша подсказка проходит через опциональный шаг усиления, кодируется, затем сэмплируется ERNIE-Image в латенты, которые в конечном итоге декодируются Flux2 VAE и сохраняются. Группы ниже напрямую соответствуют графу, чтобы вы всегда знали, где регулировать входные данные.
Подсказка
Напишите, что вы хотите увидеть в поле prompt верхнего уровня подграфа ERNIE-Image ComfyUI. Ясные, директивные фразы работают лучше всего для следования инструкциям и отображения текста. Вы можете включать цитируемый текст, который хотите изобразить на изображении. Позитивное кондиционирование строится на основе этой подсказки; негативный путь начинается пустым, поэтому результаты, как правило, соответствуют вашему замыслу, если вы не добавите свои собственные негативы позже.
Усиление подсказок
Включите или выключите путь усиления с помощью Enable prompt enhancement? (#76). Когда включено, ваше краткое задание расширяется TextGenerate (#74) с использованием усилителя подсказок ERNIE-Image, загруженного через Load CLIP (PE) (#91). Усилитель использует структурированную инструкцию для обогащения вашей подсказки и также передает целевую ширину и высоту для поощрения согласованной композиции. ComfySwitchNode (#75) направляет либо оригинальный, либо усиленный текст вниз по потоку, чтобы вы могли легко провести тестирование A/B. Для широкой совместимости переключатель по умолчанию выключен; включите его, когда модель усилителя будет присутствовать.
Модель
Рабочий процесс загружает три актива: UNETLoader (#66) выбирает модель диффузии ERNIE-Image, CLIPLoader (#62) загружает текстовый энкодер Ministral-3-3B, а VAELoader (#63) предоставляет Flux2 VAE. Эта комбинация обеспечивает сильное следование инструкциям ERNIE-Image ComfyUI и чистую типографику. Если вы замените любую модель, держите тройку согласованной, чтобы избежать несоответствий.
Размер изображения
EmptyFlux2LatentImage (#71) определяет холст. Установите ширину и высоту в соотношение сторон, которое вы хотите; пейзажи, портреты и квадратные графики все работают. Эти размеры также вводятся в подсказку усиления, когда переключатель включен, что помогает модели планировать макет и размещение текста. Большие размеры требуют больше вычислений; для быстрых предварительных просмотров используйте меньшие размеры, затем увеличивайте по мере необходимости.
Текст в изображение
CLIPTextEncode (#67) превращает ваш маршрутизированный запрос в позитивное кондиционирование, в то время как CLIPTextEncode (#72) предоставляет негативную ветвь (по умолчанию оставлено пустым). KSampler (#70) затем генерирует латенты, используя модель ERNIE-Image и ваше кондиционирование. После сэмплирования VAEDecode (#65) преобразует латенты в RGB пиксели. Все настроено для генерации в одно нажатие, так что как только ваши входные данные установлены, просто поставьте задачу в очередь и наблюдайте за предварительным просмотром.
Вывод
Изображение сохраняется с помощью SaveImage (#73). Вы увидите его в предварительном просмотре UI и в вашей выходной директории. Используйте согласованные семена при сравнении включенного и выключенного усиления, чтобы изолировать эффект текстовой ветви.
Ключевые узлы в рабочем процессе Comfyui ERNIE-Image ComfyUI
KSampler (#70) Основной генератор, который контролирует траекторию диффузии. Регулируйте steps для качества против скорости, используйте cfg для ужесточения или ослабления следования подсказкам, и установите фиксированное seed для воспроизводимости через варианты подсказок. Более высокое руководство может усилить соответствие, но может снизить креативность; балансируйте по вкусу. См. ссылки ComfyUI на сэмплер для общего поведения. ComfyUI
UNETLoader (#66) Загружает модель диффузии ERNIE-Image, которая фактически денойзит латенты в изображение. Держите это настроенным на контрольную точку ERNIE-Image, чтобы воспользоваться следованием инструкциям и отображением текста. Если вы переключаете модели, ожидайте изменений в стиле и способности к типографике. ERNIE-Image
CLIPLoader (#62) Обеспечивает текстовый энкодер Ministral-3-3B, используемый для основной ветви кондиционирования. Замена энкодеров изменяет, как язык отображается в визуальные образы; для верного следования инструкциям держите его выровненным с стеком ERNIE-Image. Этот узел влияет на оба позитивных и негативных энкодера вниз по потоку. Ministral-3-3B file
VAELoader (#63) Поставляет Flux2 VAE, используемый при декодировании. Соответствующий VAE сохраняет цвет и четкость краев и помогает сохранить четкость отображаемого текста. Используйте это при генерации с ERNIE-Image для наилучших результатов. Flux2 VAE file
EmptyFlux2LatentImage (#71) Инициализирует пустой латентный холст в вашем выбранном разрешении. Это устанавливает конечный размер изображения и тонко направляет макет. Изменение размеров также обновит внутреннюю инструкцию усилителя, когда этот путь активен.
CLIPTextEncode (#67) Кодирует окончательный маршрутизированный запрос в позитивное кондиционирование. Чтобы улучшить отображение текста, включите точные слова, которые вы хотите видеть в кавычках, и укажите регистр, если это важно. Держите инструкции краткими и конкретными для лучшего соответствия.
CLIPTextEncode (#72) Кодирует негативную подсказку. По умолчанию она оставлена пустой, чтобы результаты были близки к вашему замыслу. Если вы заметите нежелательные артефакты, добавьте несколько кратких негативных терминов здесь.
TextGenerate (#74) Генерирует расширенное описание с использованием усилителя подсказок ERNIE-Image, загруженного Load CLIP (PE) (#91). Полезно для превращения кратких заданий в богатые, визуальные направления, которые улучшают композицию и детали. Держите переключатель усиления выключенным для буквального контроля, включенным для описательного разнообразия. Prompt Enhancer file
ComfySwitchNode (#75) Направляет либо оригинальную, либо усиленную подсказку вперед в зависимости от Enable prompt enhancement? (#76). Это делает тестирование A/B тривиальным без изменения соединений. Используйте фиксированное seed при сравнении, чтобы изолировать различия только в подсказках.
VAEDecode (#65) Декодирует финальный латент в изображение с использованием Flux2 VAE. Этот шаг сильно влияет на цвет, четкость и то, насколько хорошо читается мелкий текст. Держите его в паре с Flux2 VAE из стека ERNIE-Image.
SaveImage (#73) Записывает сгенерированное изображение на диск и отображает его в UI. Используйте согласованные правила именования, если вы планируете проводить бенчмаркинг нескольких запусков ERNIE-Image ComfyUI.
Дополнительные возможности
- Для четкого отображения текста, поместите точные слова в кавычки и укажите стиль, например "жирный шрифт с засечками" или "рукописная метка"; ERNIE-Image ComfyUI оптимизирован для отображения текста.
- Используйте ясные директивы, такие как "центральное фото продукта", "белый фон" или "макет постера 2:3", чтобы ERNIE-Image ComfyUI мог точно следовать инструкциям.
- При сравнении пути усилителя, зафиксируйте
seedи переключайте только переключатель усиления, чтобы увидеть истинные различия A/B. - Выберите соотношение сторон, которое соответствует сцене; ERNIE-Image ComfyUI будет учитывать подсказки по размеру и планировать макет соответственно.
Признание
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарим Comfy-Org за ERNIE-Image (перепакованные файлы моделей и активы), Baidu за оригинальную модель ERNIE-Image и команду ComfyUI за пример рабочего процесса ERNIE-Image ComfyUI за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- Исходный код рабочего процесса ComfyUI/ERNIE-Image ComfyUI
- GitHub: comfy-org/docs
- Документы / Примечания к выпуску: Пример рабочего процесса ERNIE-Image ComfyUI
- Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
- Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
- Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
- Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
- Comfy-Org/flux2-vae.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: flux2-vae.safetensors
Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и сопровождающими.


