BAGEL AI | T2I + I2T + I2I
BAGEL AI는 7B 활성 파라미터(총 14B)와 Mixture-of-Transformer-Experts (MoT) 디자인을 특징으로 하는 오픈 소스 다중 모달 기초 모델입니다. 텍스트-이미지 생성, 이미지 편집 및 시각적 질문 응답과 같은 다중 모달 작업을 위해 구축된 BAGEL AI는 벤치마크 테스트에서 Qwen2.5-VL 및 InternVL-2.5와 같은 최고 수준의 오픈 VLM을 능가합니다. 또한 SD3와 같은 전문 모델과 동등한 고품질 생성 기능을 제공합니다. 자연어 프롬프트, 복잡한 추론 및 모델의 의사 결정 과정에 대한 선택적 투명성을 지원하여 BAGEL AI는 ComfyUI에서 고급 다중 모달 워크플로우를 위한 올인원 솔루션을 제공합니다.ComfyUI BAGEL AI 워크플로우
ComfyUI BAGEL AI 예제







ComfyUI BAGEL AI 설명
BAGEL AI: ComfyUI를 위한 다중 모달 기초 모델
BAGEL (BAndwidth-efficient Generalist Expert Learner) AI는 이미지 생성과 비전-언어 이해 모두를 위해 설계된 강력한 다중 모달 기초 모델입니다. 14B 파라미터 Mixture-of-Transformer-Experts (MoT) 아키텍처를 기반으로 하며, 추론 시 7B가 활성화되어 BAGEL AI는 텍스트-이미지 생성, 이미지 편집 및 이미지 이해 작업 전반에서 최첨단 성능을 제공합니다.
ComfyUI에 직접 통합되어, BAGEL AI는 창작자들이 자연어 프롬프트로부터 상세한 이미지를 생성하고, 텍스트 지시로 시각적 요소를 편집하며, 시각적 Q&A, 캡셔닝 및 단계별 추론과 같은 다중 모달 작업을 수행할 수 있게 합니다. BAGEL AI는 확산 모델(Stable Diffusion 3과 같은)의 품질과 선도적인 VLM의 분석력을 결합하여 Qwen2.5-VL 및 InternVL-2.5와 같은 모델을 능가합니다.
BAGEL AI를 사용하는 이유는?
BAGEL AI 워크플로우는 다음을 제공합니다:
- 텍스트-이미지 생성: BAGEL AI를 사용하여 자연어 프롬프트로부터 고품질 이미지를 생성합니다
- 텍스트를 통한 이미지 편집: BAGEL AI를 사용하여 설명적 지시로 기존 이미지를 수정합니다
- 이미지 이해: BAGEL AI에서 이미지 캡셔닝, Q&A 및 시각적 분석 작업을 수행합니다
- 다중 모달 추론: BAGEL AI를 통해 시각적 입력의 단계별 설명 또는 분석을 활성화합니다
- 올인원 기초 모델: BAGEL AI 내에서 다양한 다중 모달 작업을 위해 단일 14B MoT 기반 아키텍처를 사용합니다
BAGEL AI를 통해 예술가, 연구원 및 개발자들은 BAGEL AI 기술로 구동되는 통합되고 확장 가능한 ComfyUI 인터페이스를 사용하여 다중 모달 AI의 생성 및 분석 기능을 탐색할 수 있습니다.
1 - BAGEL AI를 통한 텍스트-이미지 생성
자연어 프롬프트를 사용하여 이미지 생성
BAGEL AI는 텍스트 입력에서 직접 고품질 이미지를 생성할 수 있게 합니다. BAGEL AI로 시작하려면:
- BAGEL AI의
Prompt
입력 노드에 자세한 텍스트 프롬프트를 입력합니다. - BAGEL AI 내에서 시드, 비율 또는 디코딩 단계와 같은 매개변수를 선택적으로 구성합니다.
- BAGEL 모델로부터 새 이미지를 생성하기 위해 BAGEL AI 워크플로우를 실행합니다.
이 BAGEL AI 기능은 개념 예술, 시각적 아이디어화, 스토리텔링 또는 순수한 자연어 설명을 사용한 신속한 프로토타이핑에 이상적입니다.
2 - BAGEL AI를 통한 이미지 이해 및 시각적 Q&A
언어를 사용하여 이미지 분석 및 이해
BAGEL AI는 고급 다중 모달 추론 및 이해 기능을 포함하고 있어, 이미지 캡셔닝, 분석 및 Q&A에 BAGEL AI가 이상적입니다:
- BAGEL AI에 분석할 이미지를 업로드합니다.
- BAGEL AI에서 이미지에 대한 질문 또는 프롬프트를 입력합니다 (예: "남자가 들고 있는 것은 무엇인가요?", "이 장면을 설명하세요.").
- BAGEL AI 시스템은 이미지 내용에 기반한 시각적 답변 또는 추론 경로를 반환합니다.
이 BAGEL AI 기능은 교육, 콘텐츠 태그 지정, 접근성 워크플로우 또는 BAGEL AI 기능을 통해 시각적 근거가 필요한 AI 에이전트에 특히 유용합니다.
3 - BAGEL AI에서 텍스트 지시로 이미지 편집
프롬프트 기반 편집을 통한 기존 이미지 수정
BAGEL AI는 고급 BAGEL AI 인터페이스를 통해 프롬프트 기반 이미지 편집도 지원합니다. BAGEL AI를 사용하는 방법은 다음과 같습니다:
- BAGEL AI 입력 노드에 원본 이미지를 업로드합니다.
- BAGEL AI에서 원하는 수정을 설명하는 텍스트 지시를 제공합니다 (예: "일몰 배경 추가", "눈 내리게 하기" 등).
- BAGEL AI 처리를 사용하여 원하는 편집을 적용하기 위해 노드 그룹을 실행합니다.
이는 예술가와 디자이너가 수동 사진 편집 없이 간단한 텍스트를 통해 이미지를 비파괴적으로 변환할 수 있게 하며, 모두 BAGEL AI 기술로 구동됩니다.
감사의 말
ComfyUI를 위한 BAGEL AI 워크플로우는 ByteDance Seed의 오픈 소스 BAGEL-7B-MoT 모델을 기반으로 합니다.
ComfyUI 통합 및 BAGEL AI 워크플로우 설정은 neverbiasu에 의해 개발되어, 단일 통합 BAGEL AI 인터페이스 내에서 이미지 생성, 편집 및 이해 기능에 원활하게 액세스할 수 있게 합니다.
GitHub Repository:
BAGEL AI 모델 정보
- 모델 이름: ComfyUI BAGEL-7B-MoT
- 아키텍처: BAGEL AI에 최적화된 Mixture-of-Transformer-Experts (MoT)
- 총 파라미터: BAGEL AI에서 14B (7B 활성)
- ComfyUI 경로:
models/bagel/ComfyUI-BAGEL-7B-MoT/
- 자동 다운로드: BAGEL AI에서 활성화됨
- 수동 다운로드: