ComfyUI>Рабочие процессы>Gemma 4 Text Generation ComfyUI workflow | Мультимодальный писатель

Gemma 4 Text Generation ComfyUI workflow | Мультимодальный писатель

Workflow Name: RunComfy/Gemma-4-TextGen-Workflow
Workflow ID: 0000...1440
Этот рабочий процесс позволяет создавать связные текстовые результаты, руководствуясь визуальными, аудио и видео подсказками. Вы можете анализировать медиа, резюмировать обзоры или прототипировать лёгкие чат-боты с точной контекстной основой. Он интегрирует узлы ComfyUI для задач текста, CLIP и транскрипции безупречно. Настройка повышает эффективность в тестировании LLM и мультимодальных исследованиях. Идеально подходит для дизайнеров и разработчиков, стремящихся к быстрой, контекстно-осведомленной генерации текста с помощью ИИ.

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 Text Generation ComfyUI workflow: мультимодальный текст с контекстом изображения, видео и аудио#

Этот рабочий процесс Gemma 4 Text Generation ComfyUI — это компактный шаблон, готовый к запуску RunComfy, который генерирует высококачественный текст, одновременно понимая изображения и аудио, с включённым видео примером. Он разработан для быстрой итерации на мультимодальных подсказках, резюмирования обзоров продуктов, анализа контента и прототипирования лёгких помощников внутри ComfyUI.

График использует нативные TextGenerate и CLIPLoader ComfyUI для запуска Gemma 4 E4B с опциональными изображениями, аудио и видео входами. Вы можете упростить его для чистой генерации текста или присоединить медиа, чтобы направить рассуждения модели и создать более насыщенные результаты.

Ключевые модели в рабочем процессе Comfyui Gemma 4 Text Generation ComfyUI#

  • Мультимодальная модель Gemma 4 E4B Instruct. Обеспечивает генерацию текста с визуальным и аудио пониманием для кратких ответов, резюме и анализов. Активы модели для ComfyUI организованы в сообществе Comfy-Org/gemma-4.
  • Текстовый энкодер Gemma 4 E4B (масштабированный FP8). Рабочий процесс загружает упакованные веса энкодера gemma4_e4b_it_fp8_scaled.safetensors, которые поддерживают языковые и мультимодальные вводы узла TextGenerate. Прямая ссылка на файл для локальных пользователей: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Как использовать рабочий процесс Comfyui Gemma 4 Text Generation ComfyUI#

Общая логика: рабочий процесс загружает энкодер Gemma 4, принимает опциональные медиа, затем использует TextGenerate для создания ответа, который отображается в предварительном просмотре. Вы можете запустить его как текст‑только, подключить изображение и аудио или расширить до видео, подключив группу примеров.

  • CLIPLoader (#3) Загружает текстовый энкодер Gemma 4 E4B, необходимый для генератора. При запуске локально выберите gemma4_e4b_it_fp8_scaled.safetensors, чтобы языковая модель имела правильный токенизатор и мультимодальный энкодер. В управляемых средах правильный файл обычно предварительно выбран. Здесь не нужно ничего регулировать, как только выбранные веса видны.
  • Вход изображения с LoadImage (#2) Поставляет одно эталонное изображение, которое модель может описать, распознать текст (OCR) или проанализировать как часть подсказки. Замените пример файла на ваш собственный скриншот, график, документ или фото продукта. Изображение передаётся напрямую в TextGenerate, который обусловливает ответ визуальным контентом. Если хотите поведение только текста, оставьте этот узел отключённым.
  • Вход аудио с LoadAudio (#5) Добавляет аудиоклип для транскрипции или аудиосознательных рассуждений. Замените пример файла на голосовую заметку, отрывок встречи или запись обзора. Аудиопоток передаётся в TextGenerate, чтобы вы могли попросить модель транскрибировать или резюмировать его вместе с изображением. Для текст‑только задач оставьте этот ввод пустым.
  • Пример группы входа видео Группа "Пример входа видео" показывает, как подключить видео в тот же поток, используя LoadVideo (#6) и GetVideoComponents (#7). GetVideoComponents раскрывает представительные кадры и звуковую дорожку, чтобы вы могли анализировать сцены, слайды или текст на экране. Чтобы включить понимание видео, подключите выход images к входу image TextGenerate, а выход audio к его входу audio. Это позволяет рабочему процессу Gemma 4 Text Generation ComfyUI рассуждать как над кадрами, так и над речью из клипа.
  • Генерация текста с TextGenerate (#1) Это основной узел, который принимает вашу инструкцию плюс любое прикреплённое медиа и возвращает сгенерированный текст. Предоставьте ясную подсказку, такую как "Опишите изображение и транскрибируйте аудио, затем напишите резюме из 2 предложений." Узел автоматически объединяет визуальный и аудио контексты, так что вы пишете естественные инструкции без заполнителей. Вы можете оставлять подсказки разговорными или ориентированными на задачи, в зависимости от вашего случая использования.
  • Просмотр результатов с помощью PreviewAny (#4) Отображает сгенерированный текст, чтобы вы могли скопировать его в свои заметки или в инструменты по дальнейшей обработке. Перезапустите после редактирования подсказки или замены медиа, чтобы быстро сравнить результаты. Используйте этот предварительный просмотр, чтобы проверить, насколько каждая модальность влияет на ответ.

Ключевые узлы в рабочем процессе Comfyui Gemma 4 Text Generation ComfyUI#

  • TextGenerate (#1) Управляет конечным выводом и является местом, где сосредоточена основная настройка. Регулируйте, как долго может быть ответ и насколько он должен быть исследовательским, изменяя максимальное количество токенов и температуру выборки. Включите опциональный режим рассуждений, если хотите больше пошагового мышления перед ответом. Для деталей реализации смотрите исходный код узла генерации текста ComfyUI здесь.
  • CLIPLoader (#3) Выбирает и загружает пакет энкодера Gemma 4 E4B, необходимый для текстового и мультимодального понимания. Если вы поддерживаете модели локально, разместите файл в: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors После выбора вам редко потребуется возвращаться к этому узлу, если только вы не переключаете варианты моделей.
  • GetVideoComponents (#7) Полезен, когда вы хотите, чтобы модель учитывала видео. Он раскрывает кадры и аудио, чтобы вы могли обусловливать TextGenerate обоими. Если ваш клип длинный, выберите меньший набор кадров для более быстрого оборота; если вам нужны более тонкие детали, увеличьте выборку кадров за счёт скорости.

Дополнительные возможности#

  • Начните с явных инструкций, таких как "Учитывайте прикреплённое изображение и аудио", чтобы сделать мультимодальное обоснование очевидным.
  • Для обзоров продуктов запросите плюсы, минусы и приговор в одно предложение, чтобы поддерживать структуру выводов.
  • Если ваша задача чисто текстовая, отключите изображение и аудио для более быстрых запусков.
  • Чтобы пакетировать эксперименты, дублируйте узел TextGenerate с различными подсказками и сравнивайте предварительные просмотры бок о бок.
  • Файлы моделей и варианты для Gemma 4 организованы в сообществе; изучите доступные активы здесь: Comfy-Org/gemma-4.

Благодарности#

Этот рабочий процесс реализует и расширяет следующие работы и ресурсы. Мы искренне благодарим Comfy-Org за пакет модели Gemma 4 ComfyUI и текстовый энкодер E4B, Comfy-Org (поддерживающих ComfyUI) за встроенный узел TextGenerate и Comfy.org за официальный учебник и блог о выпуске Gemma 4 за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Примечание: Использование указанных моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.