FLUX.2 Klein LoRA 학습: Ostris AI Toolkit로 4B/9B 트레이닝하기

FLUX.2 Klein은 텍스트‑투‑이미지 생성 + 이미지 편집을 하나로 묶은 통합 모델 패밀리로, 오픈 웨이트 “Base” 체크포인트는 4B와 9B 두 가지 크기로 제공됩니다. 이 가이드는 Ostris AI Toolkit을 사용해 실전용 FLUX.2 Klein LoRA를 만드는 FLUX.2 Klein LoRA 학습 방법을 다루며, Klein에서 특히 중요한 포인트( Base vs Distilled 기대치, 4B/9B 호환성, VRAM 현실, Klein에서 자주 보고되는 실패 패턴 )에 집중합니다.

또한 “FLUX.2 Klein LoRA 훈련”, “Flux2 Klein LoRA 학습 4B”, “Flux2 Klein LoRA 학습 9B”, “FLUX.2 [klein] LoRA 학습” 같은 키워드로 찾고 있었다면, 이 FLUX.2 Klein LoRA 학습 문서가 동일한 주제를 정리해 줍니다.

이 FLUX.2 Klein LoRA 학습을 끝내면 다음을 할 수 있습니다.

FLUX.2 Klein 4B Base vs 9B Base를 올바르게 선택하고(잘못된 모델 크기 때문에 LoRA가 “안 먹는” 문제 방지)
Base Klein에 맞는 퀀타이제이션(quantization) + 샘플링(sampling) 기본값을 잡고 VRAM을 계획하며
캐릭터, 스타일, 제품/컨셉 LoRA용 데이터셋과 트리거 전략을 구성하고
Base에 맞는 샘플링으로 스모크 테스트 후, 감에 의존하지 않고 스케일업하고
Klein 특유 이슈(라이선스 게이팅, Base‑vs‑Distilled 테스트 불일치, 9B 붕괴(collapse) 패턴, AI Toolkit 엣지 케이스)를 해결할 수 있습니다.

이 글은 AI Toolkit LoRA 트레이닝 시리즈의 일부입니다. Ostris AI Toolkit이 처음이라면, 이 FLUX.2 Klein LoRA 학습에 들어가기 전에 먼저 개요를 읽어보세요.

https://www.runcomfy.com/ko/trainer/ai-toolkit/getting-started

1. FLUX.2 Klein 개요: 4B/9B의 차이(그리고 Base 샘플링이 중요한 이유)
2. 환경 선택: 로컬 AI Toolkit vs RunComfy 클라우드 AI Toolkit
3. FLUX.2 Klein 4B/9B LoRA 학습을 위한 하드웨어 & VRAM 플래닝
4. FLUX.2 Klein LoRA 학습 데이터셋 만들기(캐릭터 vs 스타일 vs 제품)
5. 단계별: AI Toolkit에서 FLUX.2 Klein LoRA를 학습하기(FLUX.2 Klein LoRA 학습)
6. VRAM 티어별 추천 FLUX.2 Klein LoRA 설정(FLUX.2 Klein LoRA 학습)
7. 자주 발생하는 FLUX.2 Klein LoRA 학습 문제와 해결 방법
8. 학습 후: FLUX.2 Klein LoRA 활용

1. FLUX.2 Klein 개요: 4B/9B의 차이(그리고 FLUX.2 Klein LoRA 학습에서 Base 샘플링이 중요한 이유)

1.1 Klein은 “생성과 편집을 한 모델로”

Klein은 텍스트‑투‑이미지 생성과 이미지 편집을 하나의 모델 패밀리로 처리하도록 설계되었습니다. 실무적으로는, FLUX.2 Klein LoRA 학습으로 만든 스타일/캐릭터/제품 LoRA가 “생성(generate)”과 “편집(edit)” 워크플로에 모두 도움이 되는 경우가 많고, 무엇을 배우는지는 데이터와 캡션이 결정합니다.

1.2 4B vs 9B: 목표와 하드웨어 기준으로 선택

4B Base는 대부분 사용자에게 FLUX.2 Klein LoRA 학습의 최고의 출발점입니다. 반복 속도가 빠르고 VRAM에 넣기 쉽고, 전반적으로 안정화가 더 수월합니다.
9B Base는 VRAM과 안정화 튜닝 여력이 있다면 프롬프트 충실도와 디테일이 더 좋아질 수 있지만, 관용도가 낮고(커뮤니티에서도 엣지 케이스 보고가 더 많음) 설정이 까다롭습니다.

중요한 호환성 규칙:

4B로 학습한 LoRA는 9B에서 동작하지 않고, 9B로 학습한 LoRA는 4B에서 동작하지 않습니다. FLUX.2 Klein LoRA 학습과 테스트 모두에서, 학습한 동일한 Klein 크기에 LoRA를 로드하세요.

1.3 Base vs Distilled(그리고 AI Toolkit의 현재 지원 범위)

Klein은 보통 두 가지 “동작”으로 설명됩니다.

Base = 파인튜닝 / LoRA 학습을 위한 비증류 체크포인트
Distilled = 매우 적은 step으로 빠르게 추론하도록 최적화된 동작

AI Toolkit에서는 현재 _FLUX.2 Klein 4B Base_ 또는 _FLUX.2 Klein 9B Base_만 선택할 수 있습니다.

Model Architecture 드롭다운에 Distilled 옵션이 없으므로, 이 FLUX.2 Klein LoRA 학습은 Base 전용으로 작성했습니다.

1.4 Klein의 1번 함정: Base는 더 많은 추론 steps가 필요

“LoRA가 약하다/노이즈가 심하다”는 보고는 대개 Base를 Distilled처럼 샘플링해서 생깁니다.

Base Klein을 4–8 steps 정도로 미리보기하면 덜 익거나 노이즈처럼 보일 수 있습니다.

FLUX.2 Klein LoRA 학습 중 평가 기본값은 다음으로 두세요.

Sample Steps / Inference Steps: 약 50
Guidance Scale (CFG): 약 4

이 한 가지 설정만으로도 FLUX.2 Klein LoRA 학습 중 “가짜 경보”가 크게 줄어듭니다.

2. 환경 선택: 로컬 AI Toolkit vs RunComfy 클라우드 AI Toolkit(FLUX.2 Klein LoRA 학습)

이 FLUX.2 Klein LoRA 학습은 AI Toolkit을 두 가지 방식으로 실행할 수 있습니다.

로컬 AI Toolkit(본인 GPU)
GitHub에서 AI Toolkit을 설치하고 Web UI를 띄워 내 PC에서 학습합니다. 호환되는 NVIDIA GPU가 있고 CUDA/드라이버/디스크 관리에 익숙하다면 좋은 선택입니다.
RunComfy 클라우드 AI Toolkit(H100 / H200)
브라우저에서 AI Toolkit을 열고 클라우드 GPU(H100 80GB / H200 141GB)로 학습합니다. 9B Base FLUX.2 Klein LoRA 학습, 대형 데이터셋, 고해상도 학습을 VRAM 타협 없이 진행하려면 가장 쉬운 경로입니다.

https://www.runcomfy.com/trainer/ai-toolkit/app

워크플로와 UI는 동일하며, GPU가 어디에 있느냐만 다릅니다.

3. FLUX.2 Klein 4B/9B LoRA 학습을 위한 하드웨어 & VRAM 플래닝

3.1 “추론은 된다” ≠ “학습이 된다”

BF16 추론으로 “들어가는” 체크포인트라도, 학습은 추가 오버헤드(옵티마이저 상태, activation, LoRA 모듈, 샘플링 프리뷰)를 먹습니다. FLUX.2 Klein LoRA 학습에서는 여유를 잡으세요.

3.2 현실적인 티어(기대치)

FLUX.2 Klein LoRA 학습 계획을 세울 때 유용한 감각은 다음과 같습니다.

4B Base

24GB에서 보수적인 설정(batch 1, 적당한 rank, 필요 시 퀀타이제이션)으로 로컬 학습이 실용적입니다.
더 낮은 VRAM에서도 작은 해상도는 가능할 수 있지만, 반복과 안정성이 흔들리기 쉽습니다.

9B Base

로컬에서 “편하게” LoRA를 하려면 32GB+를 현실적 기준으로 보세요.
고해상도 반복을 쉽게 하려면 클라우드(H100/H200)가 가장 무난합니다.

3.3 Klein 특유 경고: 9B + 과한 메모리 절약은 더 취약

커뮤니티 보고에 따르면 9B 학습은 일부 메모리 절약 전략에 더 민감해질 수 있습니다. VRAM이 빡빡하다면,

1) 먼저 4B Base로 FLUX.2 Klein LoRA 학습을 진행하거나

2) 클라우드 GPU로 옮기는 편이,

로컬 9B의 불안정과 씨름하는 것보다 생산적인 경우가 많습니다.

4. FLUX.2 Klein LoRA 학습 데이터셋 만들기(캐릭터 vs 스타일 vs 제품)

원칙은 단순합니다. 먼저 데이터를 깔끔하게 큐레이션하고, 그 다음에 파라미터를 조정하세요. 이것이 FLUX.2 Klein LoRA 학습의 지름길입니다.

4.1 공통 데이터셋 규칙(효과 큼)

의도적으로 특정 샷을 지배시키려는 경우가 아니라면, 거의 중복인 이미지는 제거합니다.
워터마크, UI 오버레이, 텍스트 블록은 피하세요(LoRA 목표가 그 아티팩트 자체인 경우는 예외).
신호를 일관되게: FLUX.2 Klein LoRA 학습은 정체성 또는 스타일 또는 제품을 학습해야지, 배경의 우연을 학습하면 안 됩니다.

4.2 캐릭터/유사도(라이크니스) LoRA

목표: 다양한 프롬프트에서 일관된 아이덴티티.

보통 데이터셋: 20–60장(엄선)
다양한 각도/조명/표정/초점거리가 중요
캡션은 짧게. 얼굴 부위 과설명은 피하기

트리거: 권장

고유 토큰을 사용해 FLUX.2 Klein LoRA 학습에서 켜고 끄는 제어를 확보하세요.

4.3 스타일 LoRA

목표: 프롬프트 충실도를 망치지 않으면서 재사용 가능한 “룩”.

보통 데이터셋: 50–200장(다양성이 유리)
사람+사물+장면을 섞어, 스타일만 공통 요소가 되게
캡션은 스타일 속성(매체, 팔레트, 라이팅 표현)을 강조

트리거: 선택

호출형 스타일이 필요하면 FLUX.2 Klein LoRA 학습에 트리거를 넣으세요.

4.4 제품/컨셉 LoRA

목표: 특정 제품(또는 새로운 컨셉)의 형태/재질을 안정적으로 유지.

보통 데이터셋: 30–100장
초반에는 프레이밍과 스케일을 비교적 일관되게 유지
캡션에 제품명과 보존할 핵심 속성을 명시

트리거: 강력 권장

제품/컨셉은 FLUX.2 Klein LoRA 학습에서 활성화 제어가 있으면 훨씬 다루기 쉽습니다.

5. 단계별: AI Toolkit에서 FLUX.2 Klein LoRA를 학습하기(FLUX.2 Klein LoRA 학습)

여기서는 FLUX.2 Klein LoRA 학습의 빠른 경로만 다룹니다. 사용자가 실제로 클릭하는 패널 중심입니다.

Step 0 — AI Toolkit 실행 위치 선택

로컬 AI Toolkit(본인 GPU) — 4B Base 및 소규모 FLUX.2 Klein LoRA 학습에 적합
RunComfy 클라우드 AI Toolkit — 9B Base와 고해상도 학습을 VRAM 튜닝 없이 진행하기에 최적
https://www.runcomfy.com/trainer/ai-toolkit/app

Step 1 — AI Toolkit에서 데이터셋 생성

AI Toolkit UI에서 Datasets 탭을 엽니다.

데이터셋 생성(예시 이름):

klein_my_lora_v1

이미지를 업로드하고 (선택) 매칭되는 .txt 캡션 파일도 올립니다.

아직 이미지별 캡션이 준비되지 않았다면, FLUX.2 Klein LoRA 학습은 다음으로도 시작할 수 있습니다.

Trigger Word(JOB 패널)
Default Caption(DATASETS 패널)

Step 2 — 새 Job 생성(UI 순서대로 설정)

Job panel

Training Name: 알아보기 쉬운 이름(예: klein4b_character_lora_v1)
GPU ID: 로컬은 GPU 선택, 클라우드는 기본값 유지
Trigger Word:

캐릭터/제품: 권장(고유 토큰)
스타일: 선택(깔끔한 on/off 제어가 필요하면 권장)

Model panel

Model Architecture: FLUX.2 Klein 4B Base 또는 FLUX.2 Klein 9B Base
Name or Path:

선택한 크기의 공식 모델 repo를 사용( FLUX.2 Klein LoRA 학습 전제 )
9B에서 다운로드가 실패하면 Troubleshooting(라이선스 게이팅) 참고

Quantization panel

퀀타이제이션은 FLUX.2 Klein LoRA 학습에서 주로 VRAM에 맞추기와 안정성 확보를 위한 옵션입니다.

VRAM이 타이트(특히 9B)하면, 무거운 컴포넌트에 퀀타이제이션을 켭니다.
퀀타이제이션 관련 오류가 의심되면, 일시적으로 끄고 파이프라인을 검증한 뒤 학습이 돌아가면 다시 켭니다.

Target panel

여기서 FLUX.2 Klein LoRA 학습의 LoRA 용량을 결정합니다.

Target Type: LoRA
Linear Rank(초기값):

4B Base: 16부터, 부족하면 32
9B Base: 16–32부터(불안정하면 16 우선)

출력이 “붕괴(collapse)”하거나 불안정해지면, rank를 줄이는 것이 FLUX.2 Klein LoRA 학습에서 가장 빠른 안정화 방법 중 하나입니다.

Save panel

Data Type: BF16은 안전한 기본값
Save Every: 250–500 steps가 실용적
Max Step Saves to Keep: 3–6(디스크 사용량 관리)

Training panel

첫 FLUX.2 Klein LoRA 학습은 단순하고 보수적으로 시작하세요.

Batch Size: 1(여유가 생기면 증가)
Gradient Accumulation: 1–4(VRAM 급증 없이 실효 batch 증가)
Learning Rate:

안정적이면 1e‑4부터
불안정/붕괴가 보이면 5e‑5 시도

Steps(초기 범위):

소형(20–40장): 2000–4000
중형(50–120장): 3000–6000

확신이 없으면, FLUX.2 Klein LoRA 학습 스모크 테스트부터:

~1000 steps만 돌리고 샘플을 확인한 뒤, 계속할지/다시 시작할지(rank/LR 조정)를 결정합니다.

Regularization(9B에서 붕괴가 보이면 강력 권장)

데이터셋이 매우 좁은 경우(단일 캐릭터/단일 제품)에는, 같은 대분류의 일반 이미지를 낮은 가중치로 섞은 정규화 데이터셋을 추가하면 붕괴/과적합 패턴이 줄고 FLUX.2 Klein LoRA 학습의 일반화가 좋아질 수 있습니다.

Datasets panel

Target Dataset: 데이터셋 선택
Default Caption(선택):

캐릭터: photo of [trigger]
스타일: [trigger], watercolor illustration, soft edges, pastel palette
제품: product photo of [trigger], clean background, studio lighting

Caption Dropout Rate: 0.05 같은 작은 값은(텍스트 임베딩을 캐시하지 않을 때) “캡션 과적합” 완화에 도움
Cache Latents: 가능하면 ON(큰 속도 향상)
Resolutions:

첫 FLUX.2 Klein LoRA 학습은 하나의 대표 해상도(예: 1024)로 시작
필요해지면 버킷을 추가

Sample panel(Klein 핵심)

Klein Base를 학습하므로, 샘플링은 Base처럼 설정해야 합니다( Distilled처럼 설정하면 FLUX.2 Klein LoRA 학습 평가가 어긋남 ).

초기값:

Sample Every: 250–500
Guidance Scale: 약 4
Sample Steps: 약 50
Seed: 고정(예: 42)으로 비교 가능하게

실제 사용 프롬프트(캐릭터/스타일/제품)를 6–10개 넣어, FLUX.2 Klein LoRA 학습이 현실 사용을 반영하도록 합니다.

Step 3 — 학습 실행 & 모니터링

Training Queue에서 job을 시작하고 다음을 확인합니다.

Samples: Base에 맞는 step(≈50)로만 판단(그렇지 않으면 FLUX.2 Klein LoRA 학습 진행을 잘못 읽기 쉬움)
Stability: 좋아졌다가 다시 나빠지면 중지하고 더 이른 체크포인트로 롤백

6. VRAM 티어별 추천 FLUX.2 Klein LoRA 설정(FLUX.2 Klein LoRA 학습)

아래는 FLUX.2 Klein LoRA 학습을 위한 “좋은 기본값”입니다(절대 규칙은 아님).

Tier A — 24GB에서 4B Base(로컬 흔한 구성)

Quantization: 필요하면 ON
Batch size: 1
Rank: 16(underfitting이면 32)
Resolution: 768–1024
Sampling: steps 50, CFG ~4( FLUX.2 Klein LoRA 학습 Base 테스트 )

Tier B — 32–48GB에서 9B Base(로컬 “진지한” 구성)

Quantization: 강력 권장
Batch size: 1(여유 있을 때만 증가)
Rank: 먼저 16(안정적일 때만 32)
불안정/붕괴 시 정규화 데이터셋 추가
Sampling: steps 50, CFG ~4( FLUX.2 Klein LoRA 학습 Base 테스트 )

Tier C — 클라우드 H100/H200(가장 빠른 반복, 가장 단순한 설정)

최대 충실도가 목표라면 9B Base 우선
Batch size: 2–4가 실용적인 경우가 많음
Rank: 안정적이면 32도 합리적
1024를 기본으로, 필요할 때만 버킷 확장
Sampling: steps 50, CFG ~4( FLUX.2 Klein LoRA 학습 표준 )

7. 자주 발생하는 FLUX.2 Klein LoRA 학습 문제와 해결 방법

이 섹션은 Klein 전용입니다. 일반론이 아니라, FLUX.2 Klein LoRA 학습에서 실제로 막히는 지점을 빠르게 해결하는 데 초점을 둡니다.

“LoRA가 약하거나 노이즈가 많다”(loss는 감소)

가장 흔한 원인: Klein Base를 Distilled 스타일 steps로 샘플링하고 있음.

해결

Sample 패널에서 Sample Steps ≈ 50, Guidance Scale ≈ 4
샘플링 변경 후에만 체크포인트 재평가( FLUX.2 Klein LoRA 학습 비교 기준을 맞추기 )

9B Base 다운로드 불가 / 접근 거부

가장 흔한 원인: 9B 모델이 라이선스 동의로 게이팅되어 있고, 환경 인증이 안 됨.

해결

모델 페이지에서 라이선스 동의/접근 요청: https://huggingface.co/black-forest-labs/FLUX.2-klein-base-9B
AI Toolkit Settings에 Hugging Face Read token 추가
토큰 저장 후 job 재실행( FLUX.2 Klein LoRA 학습 재개 )

(체크리스트가 필요하면 RunComfy의 전용 도움말: “Hugging Face token for FLUX”.)

“LoRA를 학습했는데 아무 변화가 없다”

Klein에서 특히 흔한 원인

4B로 학습하고 9B에서 테스트(또는 반대)
Base로 학습했는데 다른 변형/파이프라인에서 테스트

해결

모델 크기 일치 확인(4B LoRA → 4B Base, 9B LoRA → 9B Base)
평가 파이프라인을 학습 베이스와 일치( FLUX.2 Klein LoRA 학습 일관성 유지 )

9B 학습 붕괴(collapse)(갑자기 품질 저하/혼돈)

커뮤니티에서도 자주 언급되는 9B의 FLUX.2 Klein LoRA 학습 패턴입니다.

해결 순서(효과 큰 것부터)

1) Learning Rate 낮추기(예: 1e‑4 → 5e‑5)

2) Rank 줄이기(예: 32 → 16)

3) 정규화 데이터셋 추가(같은 클래스의 일반 이미지, 낮은 가중치)

4) 러닝을 짧게 하고 early stop(마지막 “좋았던” 체크포인트 선택)

붕괴와 싸우지 않고 빠르게 가려면, 먼저 4B Base로 FLUX.2 Klein LoRA 학습을 해보는 것이 좋습니다.

AI Toolkit 엣지 케이스(현재 보고된 Klein 관련 이슈)

일부 사용자들은 FLUX.2 Klein LoRA 학습에서 다음을 보고했습니다.

특정 구성에서 Klein 9B의 Layer Offloading 동작이 기대와 다름
일부 설정에서 edit‑mode / control‑image 학습 오류
특정 환경(특히 일부 WSL2)에서 GPU가 사용되지 않음

실용적 우회책

오늘 당장 안정적인 run이 필요하다면:

4B Base로 전환하거나
클라우드 AI Toolkit으로 이동하거나
AI Toolkit을 최신 버전으로 업데이트 후 재시도하세요

8. 학습 후: FLUX.2 Klein LoRA 활용(FLUX.2 Klein LoRA 학습)

8.1 Base 스타일 생성 설정으로 테스트

Klein Base에서 LoRA를 테스트할 때는, FLUX.2 Klein LoRA 학습 전제에 맞춰 다음부터 시작하세요.

Steps: ~50
CFG: ~4
LoRA weight: 0.6 → 1.0(몇 가지 값을 스윕)

8.2 프로처럼 테스트(빠르고 재현성 있게)

1) LoRA 없이 생성(베이스라인)

2) LoRA 포함 0.6 / 0.8 / 1.0

3) seed + steps + CFG 고정

4) 평가:

활성 강도(효과가 보이나?)
제어(트리거 없을 때 꺼지나?)
일반화(새 프롬프트에서도 동작하나?)

8.3 편집 워크플로

Klein은 편집 워크플로도 지원합니다. 생성에서 안정적이면, 편집 파이프라인에 적용해 편집 중에도 정체성/스타일/제품 일관성을 유지할 수 있습니다. 이것이 FLUX.2 Klein LoRA 학습의 실전 가치입니다.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample