Gemma 4 Text Generation ComfyUI workflow | Инструмент анализа изображения, текста и аудио

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool

Хотите запустить этот рабочий процесс?

Полностью функциональные рабочие процессы
Нет недостающих узлов или моделей
Не требуется ручная настройка
Отличается потрясающей визуализацией

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 Text Generation ComfyUI workflow: мультимодальный текст с контекстом изображения, видео и аудио#

Этот рабочий процесс Gemma 4 Text Generation ComfyUI — это компактный шаблон, готовый к запуску RunComfy, который генерирует высококачественный текст, одновременно понимая изображения и аудио, с включённым видео примером. Он разработан для быстрой итерации на мультимодальных подсказках, резюмирования обзоров продуктов, анализа контента и прототипирования лёгких помощников внутри ComfyUI.

График использует нативные TextGenerate и CLIPLoader ComfyUI для запуска Gemma 4 E4B с опциональными изображениями, аудио и видео входами. Вы можете упростить его для чистой генерации текста или присоединить медиа, чтобы направить рассуждения модели и создать более насыщенные результаты.

Ключевые модели в рабочем процессе Comfyui Gemma 4 Text Generation ComfyUI#

Мультимодальная модель Gemma 4 E4B Instruct. Обеспечивает генерацию текста с визуальным и аудио пониманием для кратких ответов, резюме и анализов. Активы модели для ComfyUI организованы в сообществе Comfy-Org/gemma-4.
Текстовый энкодер Gemma 4 E4B (масштабированный FP8). Рабочий процесс загружает упакованные веса энкодера gemma4_e4b_it_fp8_scaled.safetensors, которые поддерживают языковые и мультимодальные вводы узла TextGenerate. Прямая ссылка на файл для локальных пользователей: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Как использовать рабочий процесс Comfyui Gemma 4 Text Generation ComfyUI#

Общая логика: рабочий процесс загружает энкодер Gemma 4, принимает опциональные медиа, затем использует TextGenerate для создания ответа, который отображается в предварительном просмотре. Вы можете запустить его как текст‑только, подключить изображение и аудио или расширить до видео, подключив группу примеров.

CLIPLoader (#3) Загружает текстовый энкодер Gemma 4 E4B, необходимый для генератора. При запуске локально выберите gemma4_e4b_it_fp8_scaled.safetensors, чтобы языковая модель имела правильный токенизатор и мультимодальный энкодер. В управляемых средах правильный файл обычно предварительно выбран. Здесь не нужно ничего регулировать, как только выбранные веса видны.
Вход изображения с LoadImage (#2) Поставляет одно эталонное изображение, которое модель может описать, распознать текст (OCR) или проанализировать как часть подсказки. Замените пример файла на ваш собственный скриншот, график, документ или фото продукта. Изображение передаётся напрямую в TextGenerate, который обусловливает ответ визуальным контентом. Если хотите поведение только текста, оставьте этот узел отключённым.
Вход аудио с LoadAudio (#5) Добавляет аудиоклип для транскрипции или аудиосознательных рассуждений. Замените пример файла на голосовую заметку, отрывок встречи или запись обзора. Аудиопоток передаётся в TextGenerate, чтобы вы могли попросить модель транскрибировать или резюмировать его вместе с изображением. Для текст‑только задач оставьте этот ввод пустым.
Пример группы входа видео Группа "Пример входа видео" показывает, как подключить видео в тот же поток, используя LoadVideo (#6) и GetVideoComponents (#7). GetVideoComponents раскрывает представительные кадры и звуковую дорожку, чтобы вы могли анализировать сцены, слайды или текст на экране. Чтобы включить понимание видео, подключите выход images к входу image TextGenerate, а выход audio к его входу audio. Это позволяет рабочему процессу Gemma 4 Text Generation ComfyUI рассуждать как над кадрами, так и над речью из клипа.
Генерация текста с TextGenerate (#1) Это основной узел, который принимает вашу инструкцию плюс любое прикреплённое медиа и возвращает сгенерированный текст. Предоставьте ясную подсказку, такую как "Опишите изображение и транскрибируйте аудио, затем напишите резюме из 2 предложений." Узел автоматически объединяет визуальный и аудио контексты, так что вы пишете естественные инструкции без заполнителей. Вы можете оставлять подсказки разговорными или ориентированными на задачи, в зависимости от вашего случая использования.
Просмотр результатов с помощью PreviewAny (#4) Отображает сгенерированный текст, чтобы вы могли скопировать его в свои заметки или в инструменты по дальнейшей обработке. Перезапустите после редактирования подсказки или замены медиа, чтобы быстро сравнить результаты. Используйте этот предварительный просмотр, чтобы проверить, насколько каждая модальность влияет на ответ.

Ключевые узлы в рабочем процессе Comfyui Gemma 4 Text Generation ComfyUI#

TextGenerate (#1) Управляет конечным выводом и является местом, где сосредоточена основная настройка. Регулируйте, как долго может быть ответ и насколько он должен быть исследовательским, изменяя максимальное количество токенов и температуру выборки. Включите опциональный режим рассуждений, если хотите больше пошагового мышления перед ответом. Для деталей реализации смотрите исходный код узла генерации текста ComfyUI здесь.
CLIPLoader (#3) Выбирает и загружает пакет энкодера Gemma 4 E4B, необходимый для текстового и мультимодального понимания. Если вы поддерживаете модели локально, разместите файл в: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors После выбора вам редко потребуется возвращаться к этому узлу, если только вы не переключаете варианты моделей.
GetVideoComponents (#7) Полезен, когда вы хотите, чтобы модель учитывала видео. Он раскрывает кадры и аудио, чтобы вы могли обусловливать TextGenerate обоими. Если ваш клип длинный, выберите меньший набор кадров для более быстрого оборота; если вам нужны более тонкие детали, увеличьте выборку кадров за счёт скорости.

Дополнительные возможности#

Начните с явных инструкций, таких как "Учитывайте прикреплённое изображение и аудио", чтобы сделать мультимодальное обоснование очевидным.
Для обзоров продуктов запросите плюсы, минусы и приговор в одно предложение, чтобы поддерживать структуру выводов.
Если ваша задача чисто текстовая, отключите изображение и аудио для более быстрых запусков.
Чтобы пакетировать эксперименты, дублируйте узел TextGenerate с различными подсказками и сравнивайте предварительные просмотры бок о бок.
Файлы моделей и варианты для Gemma 4 организованы в сообществе; изучите доступные активы здесь: Comfy-Org/gemma-4.

Благодарности#

Этот рабочий процесс реализует и расширяет следующие работы и ресурсы. Мы искренне благодарим Comfy-Org за пакет модели Gemma 4 ComfyUI и текстовый энкодер E4B, Comfy-Org (поддерживающих ComfyUI) за встроенный узел TextGenerate и Comfy.org за официальный учебник и блог о выпуске Gemma 4 за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

ComfyUI Docs/Gemma 4 ComfyUI workflow example
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- Документация / Примечания к выпуску: Gemma 4 ComfyUI workflow example
ComfyUI Blog/New Open-Source Models Now in ComfyUI: VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- Документация / Примечания к выпуску: New Open-Source Models Now in ComfyUI: VOID, BiRefNet & Gemma 4
Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
Comfy-Org/gemma-4 E4B text encoder
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
Comfy-Org/ComfyUI TextGenerate node
- GitHub: Comfy-Org/ComfyUI: comfy_extras/nodes_textgen.py

Примечание: Использование указанных моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

Wan 2.1 | Революционное создание видео

Создавайте невероятные видео из текста или изображений с прорывным ИИ, работающим на повседневных ЦП.

Janus-Pro | T2I + I2T Model

Janus-Pro: Продвинутая генерация Text-to-Image и Image-to-Text.

Reallusion AI Render | Коллекция рабочих процессов от 3D к ComfyUI

ComfyUI + Reallusion = Скорость, Доступность и Простота для 3D визуализации

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

OmniGen | Изображение-в-изображение

OmniGen: Изменение изображений на основе эталонных изображений и подсказок

Hunyuan Image to Video | Впечатляющий Создатель Движения

Создавайте великолепные фильмы из неподвижных изображений с кинематографическим движением и настраиваемыми эффектами.

DynamiCrafter | Изображения в видео

Протестировано для зацикленных видео и интерполяции кадров. Лучше, чем закрытые видео генераторы в определённых сценариях

Stable Diffusion 3 (SD3) | Текст в изображение

Интегрируйте Stable Diffusion 3 medium в свой рабочий процесс для создания исключительного искусства ИИ.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Gemma 4 Text Generation ComfyUI workflow | Мультимодальный писатель