Stable Diffusion 3 (SD3) | 텍스트 대 이미지

Stable Diffusion 3 노드는 이제 RunComfy Beta 버전에서 쉽게 사용할 수 있어 프로젝트에 쉽게 접근할 수 있습니다. 이 워크플로우 내에서 직접 Stable Diffusion 3 노드를 사용하거나 기존 워크플로우에 Stable Diffusion 3 노드를 통합할 수 있습니다. 먼저 Stability API 키 페이지에서 API 키를 받으세요.

ComfyUI 워크플로우

Stable Diffusion 3 in ComfyUI
이 워크플로우를 실행하고 싶으신가요?
  • 완전히 작동 가능한 워크플로우
  • 누락된 노드 또는 모델 없음
  • 수동 설정 불필요
  • 멋진 시각 효과 제공

예시

leverage-stable-diffusion-3-for-advanced-visuals-1089

설명

1. 창의적인 워크플로우에 Stable Diffusion 3 통합하기

1.1. Stable Diffusion 3 API 시작하기

Stable Diffusion 3를 프로젝트에 통합하려면 먼저 Stability AI 개발자 플랫폼 API를 통해 표준 버전과 Turbo 변형 모두에 대한 API에 액세스하세요.

  • API 키 받기: 먼저 Stability API 키를 받으세요. 시작할 때 25개의 무료 크레딧을 받게 되며, 이를 사용하여 이미지를 생성할 수 있습니다.
  • 사용 비용:
    • SD3: 이미지 생성 시 6.5 크레딧이 소모됩니다.
    • SD3 Turbo: 이미지당 4 크레딧으로 더 비용 효율적인 옵션입니다.

API 키에 충분한 크레딧이 있는지 확인하세요. 프롬프트를 대기열에 넣었지만 결과를 받지 못한 경우 Stability 플랫폼에서 크레딧 잔액을 확인하세요. 😃

1.2. 워크플로우에 Stable Diffusion 3 노드 통합하기 (RunComfy Beta 버전 사용)

Stable Diffusion 3 노드는 이제 RunComfy Beta 버전에 사전 로드되어 있어 프로젝트에서 쉽게 사용할 수 있습니다. 이 워크플로우 내에서 직접 Stable Diffusion 3 노드를 사용하거나 기존 워크플로우에 Stable Diffusion 3 노드를 통합할 수 있는 유연성이 있습니다.

Stable Diffusion 3 노드의 주요 기능은 다음과 같습니다:

  • 긍정적인 프롬프트: 모델이 아트워크의 특정 테마나 요소에 집중하도록 지시합니다.
  • 부정적인 프롬프트: 이미지에서 피해야 할 요소를 지정합니다. (참고: SD3 Turbo 모델은 부정적인 프롬프트를 지원하지 않습니다.)
  • 가로세로 비율: "21:9", "16:9", "5:4", "3:2", "1:1", "2:3", "4:5", "9:16", "9:21"을 포함한 다양한 범위에서 선택할 수 있습니다. (참고: SD3의 이미지 대 이미지 모드는 가로세로 비율 선택을 지원하지 않습니다.)
  • 모드: 텍스트 대 이미지 모드와 이미지 대 이미지 모드 모두에 대해 구성 가능합니다.
  • 모델 옵션: SD3와 SD3 Turbo 모델 모두에 대한 지원이 포함됩니다.
  • 시드: 생성된 이미지 간의 일관성을 보장합니다.
  • 강도: 이는 이미지 대 이미지 모드에 적용됩니다.
ComfyUI Stable Diffusion 3

2. Stable Diffusion 3란 무엇인가요?

Stable Diffusion 3는 텍스트 프롬프트에서 이미지를 생성하도록 특별히 설계된 최첨단 AI 모델입니다. Stable Diffusion 시리즈의 세 번째 반복을 나타내며 이전 버전과 DALL·E 3, Midjourney v6, Ideogram v1과 같은 다른 모델에 비해 개선된 정확성, 프롬프트의 뉘앙스에 대한 더 나은 준수, 우수한 시각적 미학을 제공하는 것을 목표로 합니다.

3. Stable Diffusion 3의 기술 아키텍처

Stable Diffusion 3의 핵심에는 Multimodal Diffusion Transformer(MMDiT) 아키텍처가 있습니다. 이 혁신적인 프레임워크는 모델이 텍스트 및 시각 정보를 처리하고 통합하는 방식을 개선합니다. 이미지와 텍스트 처리에 동일한 신경망 가중치 세트를 사용한 이전 버전과 달리 Stable Diffusion 3는 각 양식에 대해 별도의 가중치 세트를 사용합니다. 이러한 분리를 통해 텍스트와 이미지 데이터를 더 전문적으로 처리할 수 있어 텍스트 이해력과 생성된 이미지의 철자가 향상됩니다.

MMDiT 아키텍처의 구성 요소

  • 텍스트 임베더: Stable Diffusion 3는 두 개의 CLIP 모델과 T5를 포함하여 세 가지 텍스트 임베딩 모델의 조합을 사용하여 텍스트를 AI가 이해하고 처리할 수 있는 형식으로 변환합니다.
  • 이미지 인코더: AI가 조작하고 새로운 시각적 콘텐츠를 생성하는 데 적합한 형태로 이미지를 변환하는 데 향상된 자동 인코딩 모델이 사용됩니다.
  • 듀얼 트랜스포머 접근 방식: 아키텍처는 텍스트와 이미지에 대해 독립적으로 작동하지만 주의 연산을 위해 상호 연결된 두 개의 고유한 트랜스포머를 특징으로 합니다. 이 설정을 통해 두 가지 양식이 서로 직접 영향을 줄 수 있어 텍스트 입력과 이미지 출력 간의 일관성이 향상됩니다.

4. Stable Diffusion 3의 새로운 점과 개선된 점

  • 프롬프트 준수: SD3는 복잡한 장면이나 여러 주제가 포함된 사용자 프롬프트의 세부 사항을 면밀히 따르는 데 탁월합니다. 자세한 프롬프트를 이해하고 렌더링하는 이러한 정밀성을 통해 DALL·E 3, Midjourney v6, Ideogram v1과 같은 다른 주요 모델을 능가할 수 있으므로 주어진 지침을 엄격히 준수해야 하는 프로젝트에 매우 신뢰할 수 있습니다.
  • 이미지 내 텍스트: 고급 Multimodal Diffusion Transformer(MMDiT) 아키텍처를 통해 SD3는 이미지 내 텍스트의 선명도와 가독성을 크게 향상시킵니다. 이미지와 언어 데이터를 처리하기 위해 별도의 가중치 세트를 사용함으로써 이 모델은 우수한 텍스트 이해력과 철자 정확도를 달성합니다. 이는 Stable Diffusion의 이전 버전에 비해 상당한 개선 사항으로, 텍스트 대 이미지 AI 애플리케이션에서 일반적인 문제 중 하나를 해결합니다.
  • 시각적 품질: SD3는 경쟁 업체에서 생성한 이미지의 시각적 품질과 일치할 뿐만 아니라 많은 경우 이를 능가합니다. 생성된 이미지는 모델의 텍스트 설명을 해석하고 시각화하는 능력이 향상되어 미적으로 만족스러울 뿐만 아니라 프롬프트에 대한 높은 충실도를 유지합니다. 이러한 이유로 SD3는 생성된 이미지에서 탁월한 시각적 미학을 추구하는 사용자에게 최고의 선택이 됩니다.
ComfyUI Stable Diffusion 3

모델에 대한 자세한 내용은 Stable Diffusion 3 연구 논문을 참조하세요.

더 많은 ComfyUI 워크플로우를 원하시나요?