Step1X-Edit | AI 이미지 편집 도구
Step1X-Edit는 참조 이미지와 사용자 지시를 처리하여 정확히 편집된 출력을 생성하는 이미지 편집 모델입니다. 이 통합 프레임워크는 Multimodal Large Language Models의 강력한 의미적 추론과 확산 아키텍처를 결합하여 주제 추가/제거, 스타일 전환, 텍스트 수정 등 11가지 다른 편집 작업을 수행할 수 있게 합니다. 단순히 이미지를 제공하고 원하는 변경 사항을 설명하면, Step1X-Edit는 주요 독점 모델에 필적하는 스튜디오급 결과를 제공합니다.ComfyUI Step1X-Edit 워크플로우
ComfyUI Step1X-Edit 예제
ComfyUI Step1X-Edit 설명
1. Step1X-Edit란 무엇인가?
Step1X-Edit는 StepFun AI에서 개발한 고급 이미지 편집 모델로, GPT-4o 및 Gemini2 Flash와 같은 폐쇄 소스 모델에 필적하는 성능을 제공하는 것을 목표로 합니다. Step1X-Edit 프레임워크는 Multimedia Large Language Models (MLLM)의 의미적 추론 능력과 Diffusion in Transformer (DiT) 아키텍처를 결합하여 고품질의 지시 기반 이미지 편집을 제공합니다.
Step1X-Edit는 자연어 지시를 이해하고 이미지 충실도를 유지하면서 정확한 편집을 적용하는 데 탁월합니다. Step1X-Edit 모델은 11개의 독특한 편집 범주를 다루는 100만 개 이상의 고품질 지시-이미지 쌍으로 훈련되어 다양한 편집 작업에 대해 매우 다재다능합니다.
2. ComfyUI Step1X-Edit의 장점:
- 탁월한 지시 이해력: Step1X-Edit는 MLLM 기술을 활용하여 텍스트와 시각적 콘텐츠의 미묘한 이해를 통해 복잡한 편집 요청을 이해합니다.
- 포괄적인 편집 기능: Step1X-Edit는 주제 추가/제거, 배경 변경, 색상 변경, 재질 수정, 움직임 변경 등을 포함한 11가지 다른 편집 범주를 처리합니다.
- 고품질 결과: Step1X-Edit는 참조 이미지 재구성과 편집 프롬프트 추종 사이의 균형을 잘 유지하여 이미지 품질을 보존합니다.
- 간소화된 워크플로우: 편집 과정에서 마스크가 필요 없으며, 단순화된 Step1X-Edit 사용자 경험을 제공합니다.
- 오픈 소스 대안: Step1X-Edit는 독점 모델에 필적하는 결과를 제공하면서도 완전히 오픈 소스입니다.
3. 빠른 시작 가이드
3.1 시스템 요구 사항
Step1X-Edit는 리소스를 많이 소모하는 모델로, 최고의 성능을 발휘하기 위해 다음을 권장합니다:
- VRAM: 80GB 권장, 1024×1024 해상도에서 최적의 성능 제공
- 참고: RunComfy의 클라우드 GPU 서비스는 Step1X-Edit에 필요한 모든 계산 능력을 제공하며, 설치가 필요 없습니다. 단순히 사용 가능한 옵션 중 충분한 VRAM을 가진 머신을 선택하세요.
3.2 워크플로우 옵션
Step1X-Edit는 두 가지 주요 워크플로우 구성을 제공합니다:
일반 워크플로우 (비실제 인물 버전)
- 적합 대상: Step1X-Edit로 객체, 장면 및 비인간 주제의 일반적인 편집에 적합
- 특징:
- 간단한 3단계 프로세스: 이미지 로드 → Step1X-Edit로 편집 → 결과 저장
- 텍스트 수정, 주제 추가/제거, 스타일 전환, 배경 변경 등 탁월한 성능
- 추가 얼굴 처리 없이 직접 편집
실제 인물 워크플로우 (확장 버전)
- 적합 대상: 얼굴의 정체성 보존이 중요한 인물 이미지 편집
- 특징:
- Step1X-Edit와 추가 얼굴 일관성 보존 결합
- 얼굴 경계 상자와 간단한 인물 설명을 사용하여 정체성 보존 강화
- 표준 Step1X-Edit 워크플로우보다 정체성 특징을 더 잘 보존
3.3 매개변수 참조
주요 Step1X-Edit 노드 매개변수:
cfg
: 가이드 스케일, 일반적으로 약 6.0 (높을수록 프롬프트에 더 잘 따름)size_level
: 출력 해상도 제어 (512, 768, 또는 1024)num_steps
: 확산 단계 수 (일반적으로 20-31)mllm_model
: 비전 언어 모델 (기본값: Qwen2.5-VL-7B-Instruct)
실제 인물 워크플로우 추가 매개변수:
- 얼굴 경계 상자 노드 (FaceAnalysis에서):
Index
: 얼굴 감지 제어-1
: 모든 얼굴 감지 (기본값)0
: 가장 큰 얼굴만 선택1
: 두 번째로 큰 얼굴 선택- 여러 얼굴을 다룰 때 워크플로우를 주의 깊게 확인
padding
: 얼굴 주변의 추가 공간 (기본값: 0)padding_percent
: 비율 기반 패딩 (기본값: 0.30)

3.4 편집 작업 범주
Step1X-Edit는 다음의 11가지 편집 범주에 대해 최적화되었습니다:
- 주제 추가: Step1X-Edit를 사용하여 장면에 새로운 객체나 사람 추가
- 주제 제거: Step1X-Edit로 이미지에서 원치 않는 요소 제거
- 주제 교체: Step1X-Edit를 사용하여 하나의 객체를 다른 객체로 교체
- 배경 변경: 전경 요소를 보존하면서 배경 수정 또는 교체
- 색상 변경: Step1X-Edit로 이미지 내 특정 색상 변경
- 재질 수정: 객체의 재질 속성 변환 (예: 유리를 금속으로)
- 움직임 변경: Step1X-Edit를 사용하여 주제의 위치나 자세 변경
- 초상화 미화: 자연스러운 개선으로 초상화 향상 또는 수정
- 스타일 전환: Step1X-Edit로 이미지에 예술적 스타일 적용
- 텍스트 수정: Step1X-Edit를 사용하여 이미지 내 텍스트 수정 또는 교체
- 톤 변환: 이미지의 전체 톤, 조명 또는 분위기 조정
3.5 단계별 사용 가이드
일반 워크플로우 (비실제 인물 버전)
- 이미지 업로드: Load Image 노드를 사용하여 이미지 업로드
- 편집 지시 입력: Step1X-Edit 노드에 편집 지시 입력
- 매개변수 조정이 필요한 경우:
cfg
: Step1X-Edit에 적합한 기본값은 6.0size_level
: 테스트에는 512, 최종 결과에는 1024num_steps
: 20-31 (더 많은 단계 = 더 나은 품질, 그러나 느림)
- 실행 클릭: Step1X-Edit로 편집을 처리
실제 인물 워크플로우 (얼굴 편집)
- 이미지 업로드: Load Image 노드를 사용하여 이미지 업로드
- 간단한 인물 설명 입력: CR Prompt Text 노드에 입력
- "젊은 여성" 또는 "남자"와 같은 기본 용어 사용
- 이는 Step1X-Edit 모델이 이미지에 있는 사람을 이해하는 데 도움
- 편집 지시 입력: Step1X-Edit 노드에 편집 지시 입력
- 변경하고자 하는 사항에 대해 구체적으로 명시
- 매개변수 조정이 필요한 경우:
- 일반 워크플로우와 동일, 필요시 얼굴 감지 설정 추가
- 실행 클릭: Step1X-Edit로 편집을 처리
- 결과 보기 및 다운로드


3.6 최상의 결과를 위한 팁
- 명확한 지시: Step1X-Edit 프롬프트에서 구체적이고 간결하게
- 크기 고려: 더 큰 크기 (1024)는 더 나은 품질을 제공하지만 처리 시간이 더 걸림
- 얼굴 처리: Step1X-Edit로 사람 얼굴을 편집할 때 실제 인물 워크플로우 사용
- 여러 편집: 복잡한 편집의 경우, 별도의 단계로 나누어 고려
- 워크플로우 선택: 주제에 따라 적절한 Step1X-Edit 워크플로우 선택
- 머신 선택: 최적의 Step1X-Edit 성능을 위해 2X Large (80GB VRAM) 또는 2XL Plus (80GB VRAM) 선택
4. 감사의 말
이 구현은 StepFun AI 팀이 개발한 Step1X-Edit 모델에 기반을 두고 있습니다 (). ComfyUI의 Step1X-Edit 통합은 에 의해 만들어져 이 강력한 기술을 ComfyUI 환경 내에서 사용할 수 있게 했습니다.
RunComfy는 Step1X-Edit 기술을 사용하기 쉬운 클라우드 워크플로우로 통합하여 고급 AI 이미지 편집을 로컬 설치나 고성능 하드웨어 없이도 사용할 수 있게 했습니다.
이 도구를 커뮤니티에 제공해 주신 원저자와 ComfyUI 통합 개발자에게 진심으로 감사드립니다.