Gemma 4 텍스트 생성 ComfyUI 워크플로우: 이미지, 비디오 및 오디오 컨텍스트를 사용한 다중 모달 텍스트#
이 Gemma 4 텍스트 생성 ComfyUI 워크플로우는 이미지와 오디오를 이해하면서 높은 품질의 텍스트를 생성하는 압축된, RunComfy-ready 템플릿입니다. 비디오 예제가 포함되어 있습니다. 다중 모달 프롬프트, 제품 리뷰 요약, 콘텐츠 분석 및 경량 어시스턴트 프로토타입의 빠른 반복을 위해 설계되었습니다.
그래프는 ComfyUI의 기본 TextGenerate 및 CLIPLoader를 사용하여 Gemma 4 E4B를 실행하며, 선택적으로 이미지, 오디오 및 비디오 입력을 사용할 수 있습니다. 순수 텍스트 생성을 위해 간단하게 유지하거나 미디어를 첨부하여 모델의 추론을 유도하고 풍부한 출력을 생성할 수 있습니다.
Comfyui Gemma 4 텍스트 생성 ComfyUI 워크플로우의 주요 모델#
- Gemma 4 E4B 인스트럭트 다중 모달 모델. 간결한 답변, 요약 및 분석을 위한 시각 및 오디오 이해를 제공하는 텍스트 생성. ComfyUI용 모델 자산은 커뮤니티 팩 Comfy-Org/gemma-4에 정리되어 있습니다.
- Gemma 4 E4B 텍스트 인코더 (FP8 스케일). 워크플로우는
TextGenerate노드의 언어 및 다중 모달 입력을 지원하는 패키지된 인코더 가중치gemma4_e4b_it_fp8_scaled.safetensors를 로드합니다. 로컬 사용자용 직접 파일 링크: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.
Comfyui Gemma 4 텍스트 생성 ComfyUI 워크플로우 사용 방법#
전체 논리: 워크플로우는 Gemma 4 인코더를 로드하고 선택적 미디어를 수용한 다음 TextGenerate를 사용하여 미리보기로 렌더링되는 응답을 생성합니다. 텍스트 전용으로 실행하거나 이미지 및 오디오를 연결하거나 예제 그룹을 연결하여 비디오로 확장할 수 있습니다.
CLIPLoader(#3) 생성기에 필요한 Gemma 4 E4B 텍스트 인코더를 로드합니다. 로컬에서 실행할 때는gemma4_e4b_it_fp8_scaled.safetensors를 선택하여 언어 모델이 올바른 토크나이저와 다중 모달 인코더를 갖추도록 합니다. 관리 환경에서는 올바른 파일이 일반적으로 미리 선택되어 있습니다. 선택한 가중치가 표시되면 여기에서 조정할 필요가 없습니다.LoadImage(#2)를 사용한 이미지 입력 모델이 설명, OCR 또는 프롬프트의 일부로 분석할 수 있는 단일 참조 이미지를 제공합니다. 예제 파일을 자신의 스크린샷, 차트, 문서 또는 제품 사진으로 교체하세요. 이미지는TextGenerate에 직접 전달되어 시각적 콘텐츠에 따라 응답을 조정합니다. 텍스트 전용 동작을 원하면 이 노드를 연결 해제하세요.LoadAudio(#5)를 사용한 오디오 입력 전사 또는 오디오 인식 추론을 위한 오디오 클립을 추가합니다. 샘플 파일을 음성 메모, 회의 발췌문 또는 리뷰 녹음으로 교체하세요. 오디오 스트림은TextGenerate에 전달되므로 모델에 오디오와 함께 이미지를 전사하거나 요약하도록 요청할 수 있습니다. 텍스트 전용 작업의 경우 이 입력을 비워 두세요.- 비디오 입력 예제 그룹 "비디오 입력 예제" 그룹은
LoadVideo(#6) 및GetVideoComponents(#7)를 사용하여 동일한 흐름에 비디오를 가져오는 방법을 보여줍니다.GetVideoComponents는 대표적인 프레임과 사운드트랙을 노출하여 장면, 슬라이드 또는 화면의 텍스트를 분석할 수 있습니다. 비디오 이해를 활성화하려면TextGenerate의image입력에images출력을 연결하고audio입력에audio출력을 연결합니다. 이를 통해 Gemma 4 텍스트 생성 ComfyUI 워크플로우가 클립의 프레임과 음성을 모두 고려하여 추론할 수 있습니다. TextGenerate(#1)를 사용한 텍스트 생성 이는 명령과 첨부된 미디어를 받아 생성된 텍스트를 반환하는 핵심 노드입니다. "이미지를 설명하고 오디오를 전사한 다음 2문장 요약을 작성하세요."와 같은 명확한 프롬프트를 제공하세요. 노드는 시각적 및 오디오 컨텍스트를 자동으로 결합하므로 플레이스홀더 없이 자연스러운 지시를 작성할 수 있습니다. 사용 사례에 따라 프롬프트를 대화식 또는 작업 지향적으로 유지할 수 있습니다.PreviewAny(#4)를 사용한 결과 보기 생성된 텍스트를 표시하여 노트나 다운스트림 도구에 복사할 수 있습니다. 프롬프트를 편집하거나 미디어를 교체한 후 다시 실행하여 출력을 빠르게 비교하세요. 이 미리보기를 사용하여 각 모달리티가 응답에 미치는 영향을 검증하세요.
Comfyui Gemma 4 텍스트 생성 ComfyUI 워크플로우의 주요 노드#
TextGenerate(#1) 최종 출력을 구동하며 대부분의 튜닝이 이루어지는 곳입니다. 응답의 길이와 탐구적 느낌을 조정하려면 최대 토큰 및 샘플링 온도를 변경하세요. 답변 전에 단계별 사고를 더 원한다면 선택적 추론 모드를 활성화하세요. 구현 세부 사항은 ComfyUI 텍스트 생성 노드 소스 코드를 참조하세요 here.CLIPLoader(#3) 텍스트 및 다중 모달 이해에 필요한 Gemma 4 E4B 인코더 패키지를 선택하고 로드합니다. 모델을 로컬로 유지하는 경우 파일을 다음 위치에 배치하세요: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors 선택 후 모델 변형을 전환하지 않는 한 이 노드를 다시 방문할 필요는 거의 없습니다.GetVideoComponents(#7) 모델이 비디오를 고려하도록 하고 싶을 때 유용합니다. 프레임과 오디오를 노출하여TextGenerate가 둘 다 조건으로 사용할 수 있습니다. 클립이 길면 더 빠른 전환을 위해 더 작은 프레임 세트를 선택하고, 세부 사항이 더 필요하면 속도를 희생하고 프레임 샘플링을 늘리세요.
선택적 추가 사항#
- 첨부된 이미지와 오디오를 고려하라는 명확한 지시로 시작하여 다중 모달 기반을 명확히 하세요.
- 제품 리뷰의 경우 장단점과 한 문장 평결을 요청하여 출력을 구조화하세요.
- 작업이 순수 텍스트인 경우 이미지와 오디오를 연결 해제하여 더 빠르게 실행하세요.
- 실험을 일괄 처리하려면 다른 프롬프트로
TextGenerate노드를 복제하고 미리보기를 나란히 비교하세요. - Gemma 4의 모델 파일 및 변형은 커뮤니티 팩에 정리되어 있습니다. 사용 가능한 자산을 여기에서 탐색하세요: Comfy-Org/gemma-4.
감사의 글#
이 워크플로우는 다음 작업과 리소스를 구현하고 구축합니다. 우리는 Gemma 4 ComfyUI 모델 패키지와 E4B 텍스트 인코더를 제공한 Comfy-Org, 내장 TextGenerate 노드를 유지 관리한 Comfy-Org (ComfyUI 유지 관리자), 공식 Gemma 4 튜토리얼 및 릴리스 블로그를 유지 관리한 Comfy.org에 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하세요.
리소스#
- ComfyUI Docs/Gemma 4 ComfyUI 워크플로우 예제
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: Gemma 4 ComfyUI 워크플로우 예제
- ComfyUI 블로그/새 오픈 소스 모델이 이제 ComfyUI에 있습니다: VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: 새 오픈 소스 모델이 이제 ComfyUI에 있습니다: VOID, BiRefNet & Gemma 4
- Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
- Comfy-Org/gemma-4 E4B 텍스트 인코더
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
- Comfy-Org/ComfyUI TextGenerate 노드
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 저자 및 유지 관리자가 제공한 각각의 라이선스 및 조건에 따릅니다.





