LTX-2는 단일 모델 내에서 동기화된 비디오와 오디오를 생성하도록 설계된 오픈 웨이트 Diffusion Transformer (DiT) 기반 모델입니다. "무음" 비디오 모델과 달리, 움직임과 소리가 시간적으로 정렬될 수 있도록 공동 오디오-비디오 시스템으로 구축되었습니다. 공식 릴리스에서 주요 체크포인트 패밀리는 19B급입니다(훈련 가능한 "dev" 변형, 여러 양자화 변형, 가속화된 증류 변형 포함).
이 가이드는 Ostris AI Toolkit을 사용한 LTX-2 LoRA 학습에 초점을 맞추고 있습니다. 목표는 빠르게 생산성을 높이는 것입니다: LTX-2가 잘하는 것, 준비해야 할 데이터, 중요한 AI Toolkit 설정, 첫 실행에 "안전한" 설정을 이해하는 것입니다.
AI Toolkit을 로컬에 설치하고 싶지 않다면 RunComfy의 클라우드 GPU(H100 / H200)에서 브라우저로 실행할 수 있습니다.
▶ 여기서 시작: RunComfy cloud AI Toolkit
목차
- 1. LTX-2가 다른 비디오 LoRA 타겟과 다른 이유
- 2. LTX-2 LoRA가 가장 적합한 용도
- 3. LTX-2 LoRA 학습을 위한 데이터셋 준비
- 4. Ostris AI Toolkit의 훈련 방식 이해
- 5. 단계별: AI Toolkit에서 LTX-2 LoRA 훈련하기
- 6. LTX-2 LoRA 학습 시간 예상
- 7. LTX-2 LoRA 학습의 일반적인 문제점(및 해결 방법)
- 8. LTX-2 LoRA 학습: 빠른 FAQ
- 9. 더 알아보기: 다른 AI Toolkit LoRA 훈련 가이드
1. LTX-2가 다른 비디오 LoRA 타겟과 다른 이유
LTX-2의 몇 가지 특성이 LTX-2 LoRA 학습 방식에 직접적으로 영향을 미칩니다:
- 오디오-비디오가 네이티브: LTX-2는 하나의 모델에서 동기화된 오디오와 비주얼을 생성하도록 구축되었습니다(추가 기능이 아님). "완성된 샷"(대화, 앰비언스, 폴리)에는 훌륭하지만, 오디오 인식 파인튜닝은 트레이너가 실제로 오디오 경로와 크로스 모달 컴포넌트를 업데이트하는지에 따라 달라집니다(많은 서드파티 훈련 스택은 비디오 전용 파인튜닝으로 시작합니다).
- 크기가 큽니다(19B급 체크포인트): VRAM, 스텝 시간, 그리고 "작은 랭크"가 종종 언더핏한다는 점에서 느끼게 됩니다. 공식 체크포인트 목록에는 다음이 포함됩니다:
- ltx-2-19b-dev (bf16으로 훈련 가능),
- dev 양자화 변형 (fp8 / nvfp4),
- 그리고 ltx-2-19b-distilled (가속 추론, 8 스텝, CFG=1).
- 엄격한 형태 제약: 너비/높이는 32로 나누어 떨어져야 하고, 프레임 수는 8 + 1로 나누어 떨어져야 합니다 (즉, 8n+1: 1, 9, 17, 25, …, 121, …). 입력이 이에 맞지 않으면 일반적으로 패딩(보통
-1로)한 다음 대상 크기/프레임 수로 크롭해야 합니다.
2. LTX-2 LoRA가 가장 적합한 용도
실제로 LTX-2 19B LoRA 학습을 수행할 때 다음 방향에서 가장 가치가 있습니다:
- 캐릭터/아이덴티티 LoRA: 일관된 얼굴, 의상, 소품, "브랜드 캐릭터" 룩, 카메라 이동 전반에 걸친 안정적인 아이덴티티.
- 스타일 LoRA: 아트 디렉션(조명 언어, 렌더링 스타일, 렌즈, 필름 스톡 분위기), 피사체는 유연하게 유지.
- 모션/안무 LoRA: 특정 움직임 패턴(걷기 사이클 스타일, 댄스 플레이버, 크리처 로코모션), 또는 "세계가 어떻게 움직이는가"(핸드헬드 흔들림, 애니메이션 타이밍).
- 카메라 동작 LoRA: 돌리 인/아웃, 크레인/집 느낌, 궤도 카메라 언어, 안정화 vs 핸드헬드.
- (고급) 오디오 LoRA: 일관된 앰비언스 팔레트, 폴리 스타일 또는 음성 같은 특성—훈련 스택이 오디오 브랜치 파인튜닝을 지원하는 경우에만.
이미지만 있고 비디오가 없는 경우에도 아이덴티티/스타일을 효과적으로 훈련할 수 있지만, 단일 프레임에서 시간적 움직임 패턴을 학습할 것으로 기대해서는 안 됩니다.
3. LTX-2 LoRA 학습을 위한 데이터셋 준비
3.1 적절한 클립 길이 + 해상도 "예산" 선택
LTX2 LoRA 학습 훈련 비용은 공간 크기와 프레임 수 모두에 따라 증가합니다. 첫 LoRA의 경우 간단하게 유지하세요:
- 아이덴티티/스타일 스타터:
- 해상도: 512–768 정도 (GPU에 따라)
- 프레임: 49 또는 81 (짧은 클립이 더 빨리 훈련됨; 시간적 일관성에는 충분)
- 모션/카메라 스타터:
- 해상도: 512 (여유가 있으면 768)
- 프레임: 121 (모션 학습에 적합; 24fps에서 약 5초)
제약을 기억하세요: 프레임은 8n+1이어야 합니다.
3.2 비디오 vs 이미지 데이터셋 (둘 다 유효)
많은 사람들이 LTX-2 LoRA 훈련에는 비디오 전용 데이터셋이 필요하다고 가정합니다. 실제로 대부분의 실용적인 훈련 스택은 둘 다 작동할 수 있습니다:
- 이미지 전용 데이터셋 (각 샘플을 "1프레임 클립"으로 처리), 또는
- 비디오 데이터셋 (짧은 일관된 클립).
AI Toolkit을 사용할 때 각 데이터셋 항목을 동질적으로 유지하는 것이 가장 간단합니다(모두 이미지 또는 모두 비디오), 모달리티를 혼합해야 하는 경우 별도의 데이터셋 항목을 사용합니다.
- 이미지의 경우:
frames = 1은 8n+1을 충족합니다. - 비디오의 경우: 짧고 일관된 클립을 사용하세요; 긴 멀티 씬 세그먼트는 피하세요.
이것은 캐릭터 작업에 중요합니다: 이미지에서 아이덴티티를 부트스트랩한 다음 나중에 짧은 클립으로 모션을 정제할 수 있습니다.
3.3 얼마나 많은 데이터가 필요한가 (현실적인 규모)?
단일 "공식 최소값"은 없지만, ltx-2-19b LoRA를 위한 현실적인 시작점 범위는 다음과 같습니다:
- 이미지 기반 LoRA (아이덴티티/소품/스타일): 약 20~50개의 깨끗하고 다양한 이미지로 시작합니다. 조명, 렌즈, 구도 전반에 걸쳐 더 강한 견고성을 원한다면, 50~150개의 큐레이션된 이미지가 거의 중복을 반복하는 것보다 일반적으로 더 도움이 됩니다.
- 비디오 기반 LoRA (모션/카메라/시간적 일관성): 긴 비디오 몇 개 대신 20~60개의 짧고 일관된 클립(단일 액션 샷)을 목표로 합니다. 더 넓거나 모션이 풍부한 목표의 경우, 50~150개의 짧은 클립(또는 약 10~30분의 "좋은" 영상)으로 확장하면 눈에 띄게 더 안정적인 결과를 얻는 경향이 있습니다.
3.4 캡션 품질이 생각보다 중요합니다
LTX-2는 더 길고 설명적인 캡션에 잘 반응합니다, 특히 제어 가능한 결과를 원할 때. 클립에 음성이나 주요 사운드 큐가 포함되어 있으면 훈련 스택이 지원할 때 캡션(또는 트랜스크립트 발췌)에 포함하세요.
실용적인 캡션 팁:
- 아이덴티티 LoRA의 경우: 일관된 아이덴티티 토큰을 포함하고 (다른 모든 것을 변화시키세요: 조명, 의상, 배경, 렌즈).
- 스타일 LoRA의 경우: 스타일 설명자를 일관되게 유지하고 피사체/액션을 변화시킵니다.
- 모션 LoRA의 경우: 액션을 정확하게 설명합니다 (템포, 바디 메카닉스, 카메라 움직임).
3.5 정규화는 "안티 블리드" 도구입니다 (LoRA가 좁을 때 사용)
좁은 컨셉(한 캐릭터, 한 제품)을 훈련하고 있다면 오버핏해서 "모든 것이 내 데이터셋처럼 보인다"가 되기 쉽습니다. AI Toolkit에서 Differential Output Preservation (DOP)은 그런 종류의 드리프트를 줄이도록 설계되었으며, "정규화" 데이터셋과 자연스럽게 결합됩니다.
간단한 정규화 세트:
- 메인 데이터셋과 유사한 프레이밍의 일반적인 클립/이미지
- 일반 도메인에 맞는 캡션 (그러나 고유한 아이덴티티 토큰은 아님)
4. Ostris AI Toolkit의 훈련 방식 이해
AI Toolkit은 본질적으로 UI로 래핑된 일관된 훈련 엔진입니다: 모델 패밀리를 선택하고, 데이터셋을 첨부하고, LoRA 타겟 + 랭크를 정의하고, 최적화 + 샘플링을 조정합니다. UI 패널은 기본 훈련 구성에 깔끔하게 매핑됩니다: Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.
이것이 당신에게 의미하는 바: 기본적인 것에 모델별 스크립트가 필요하지 않고, 동일한 멘탈 모델 (랭크/스텝/LR/캐싱/정규화)이 적용되지만, LTX-2의 크기와 비디오 특성으로 인해 일부 설정이 더 "민감"해집니다 (랭크, VRAM 최적화, 프레임).
Ostris AI Toolkit이 처음이라면 LTX-2 특정 설정을 조정하기 전에 AI Toolkit LoRA 훈련 개요로 시작하여 UI 패널과 핵심 파라미터를 이해하세요:
어디서 실행할지 결정하는 경우:
- 로컬 AI Toolkit: 이미 호환되는 GPU가 있고 환경을 완전히 제어하고 싶을 때 최적.
- RunComfy cloud AI Toolkit: 설정을 건너뛰고, 고 VRAM GPU에서 훈련하고, "내 컴퓨터에서 안 돌아감" 문제 없이 빠르게 반복하고 싶을 때 최적—특히 LTX-2의 큰 체크포인트와 비디오 워크로드에 유용합니다. ▶ RunComfy cloud AI Toolkit 열기
5. 단계별: AI Toolkit에서 LTX-2 LoRA 훈련하기
5.1 AI Toolkit에서 데이터셋 생성
Datasets 패널 / 작업의 Dataset 섹션에서:
- Target Dataset: 업로드한 데이터셋
- Default Caption: 글로벌 접미사가 필요하지 않으면 비워 두세요
- Caption Dropout Rate: 약 0.05로 시작 (일반화에 도움)
- Cache Latents: 디스크 공간이 있으면 ON (반복에서 큰 속도 향상, 그러나 비디오 레이턴트 캐시는 빠르게 커짐)
- Num Frames:
- 이미지 전용 데이터셋의 경우 1
- 비디오의 경우, 목표에 따라 49 / 81 / 121
- Resolutions: 512 + 768 활성화로 시작; 설정을 증명할 때까지 1024+는 피하세요
좁은 아이덴티티 LoRA를 만드는 경우, 두 번째 데이터셋 항목을 추가하고 Is Regularization으로 표시하세요 (보존 적극성에 따라 가중치를 낮거나 동일하게 유지).
5.2 새 Training Job → Model
Model 섹션에서:
- Model Architecture: LTX-2 (빌드에서 사용 가능한 경우)
- Name or Path: 기본 모델의 Hugging Face model id (예:
Lightricks/LTX-2) - 체크포인트 선택: LTX-2 LoRA 파인튜닝을 위해 dev 체크포인트 선택:
- ltx-2-19b-dev는 전체 모델이며 bf16으로 훈련 가능합니다.
- distilled 체크포인트는 주로 빠른 추론용 (8 스텝, CFG=1)이며, 증류된 동작을 특별히 적응시키고 싶지 않는 한 LoRA 훈련의 기본 시작점이 아닙니다.
5.3 양자화 + VRAM 옵션
LTX-2는 크기 때문에 양자화/오프로드를 자주 사용합니다:
- H100/H200급 VRAM에서는 bf16을 더 편안하게 실행할 수 있는 경우가 많습니다.
- 24–48 GB GPU에서는 양자화와 "Low VRAM" 모드가 필수가 됩니다.
두 가지 실용적인 참고:
- LTX-2 자체에는 전체 모델의 공식 양자화 변형 (fp8 / nvfp4)이 포함되어 있습니다; 해당 가중치에서 훈련할 수 있는지는 트레이너 구현에 따라 다릅니다.
- 별도로, 8비트 옵티마이저 (예: AdamW8bit)는 소비자 하드웨어에서 훈련을 실용적으로 만들기 위해 일반적으로 사용됩니다.
5.4 Target = LoRA + 랭크
여기서 LTX-2 LoRA 학습이 작은 모델과 다릅니다.
- Target Type: LoRA
- Linear Rank: 32에서 시작
- 많은 LTX-2 LoRA 트레이너들이 랭크 32가 견고한 결과를 위한 실용적 최소값이라고 보고합니다.
- VRAM 여유가 있고 더 많은 용량이 필요하면 (복잡한 스타일, 멀티 컨셉), 64를 테스트하세요.
5.5 훈련 하이퍼파라미터 (견고한 첫 실행)
폭발하지 않을 값으로 시작하세요:
- Batch Size: 1 (비디오는 거의 항상 여기서 끝남)
- Gradient Accumulation: 더 안정적인 유효 배치를 원하고 시간 여유가 있으면 2–4
- Steps:
- 첫 패스에 2,000–3,000
- 더 큰 데이터셋이나 미묘한 스타일이 있으면 더 길게
- Optimizer: AdamW8bit (VRAM 효율성을 위한 일반적인 선택)
- Learning Rate: 시작 시 0.0001, 오버피팅이나 아이덴티티 "번인"이 너무 빠르면 0.00005
- Weight Decay: ~0.0001
- Timestep Type / Bias: 변경하는 이유를 알지 않는 한 기본값 유지
- DOP / Blank Prompt Preservation: 스타일 블리드나 기본 다용성 손실이 보이면 DOP 활성화.
5.6 훈련 중 샘플링 (건너뛰지 마세요)
샘플링은 LTX-2 LoRA 학습의 조기 경고 시스템입니다. 사용하세요.
- Sample Every: 250 스텝 (좋은 케이던스)
- Sampler / Scheduler: LTX-2 프리셋 기본값으로 시작하고, 베이스라인이 생긴 후에만 실험하세요.
- Guidance + 스텝은 샘플링하는 체크포인트에 따라 다름:
- dev 실행의 경우, 일반적인 시작점은
guidance ~4와25–30샘플링 스텝입니다. - distilled의 경우, 공개된 동작은 8 스텝, CFG=1이므로,
guidance = 1과steps = 8로 샘플링하세요 (그렇지 않으면 "왜 더 나빠 보이지?" 혼란이 생깁니다). - Width/Height/Frames: 훈련 버킷 (또는 대표적인 타겟)에 맞추세요
실제 사용에 맞는 샘플 프롬프트를 작성하세요:
- 트리거 단어를 포함하세요 (아이덴티티 LoRA의 경우).
- 카메라/모션 설명자를 포함하세요 (그것들이 중요한 경우).
- 오버피팅을 드러내는 "지루한" 프롬프트를 하나 유지하세요 (간단한 조명, 간단한 액션).
6. LTX-2 LoRA 학습 시간 예상
보편적인 숫자는 없습니다. 런타임을 실용적인 추정으로 취급하세요. 프레임/해상도, 오프로드/양자화 선택, 샘플링 빈도에 따라 변동할 수 있습니다.
현실적인 멘탈 모델:
- 프레임이 종종 가장 큰 레버입니다: 121 → 81 → 49는 "훈련됨"과 "기어감 / OOM"의 차이가 될 수 있습니다.
- 샘플링 오버헤드는 큰 비디오를 자주 샘플링하면 훈련 시간에 필적할 수 있습니다.
대략적인 참조점으로: H100에서 작은 비디오 데이터셋 (~20 클립, 각 3–5초), batch=1, rank=32, gradient checkpointing 활성화로, 768 정도의 해상도 버킷과 중간 길이의 프레임 버킷 (예: 49–81 프레임)에서 훈련 스텝당 한 자릿수 초가 일반적입니다. 정확한 스텝 시간은 I/O, 캐싱, 오디오 인식 전처리 여부에 따라 크게 달라집니다.
샘플링도 예산에 넣으세요: "3 프롬프트 × 25 스텝 × 121 프레임 @ 1024×768" 미리보기는 실행할 때마다 쉽게 분 단위가 걸릴 수 있습니다. 250 스텝마다 샘플링하면 2,000 스텝 실행 전체에서 그 오버헤드가 빠르게 누적됩니다.
7. LTX-2 LoRA 학습의 일반적인 문제점(및 해결 방법)
- 잘못된 프레임 수: 데이터셋이 121이 아닌 120 프레임을 사용하면 오류나 사일런트 미스매치가 발생합니다. 8n+1 프레임 수를 지키세요 (1, 9, 17, 25, …, 49, 81, 121, …).
- 잘못된 크기: 너비/높이는 32로 나누어 떨어져야 합니다. 자동 패딩하지 않는 파이프라인을 사용하는 경우, 적절하게 리사이즈/버킷하세요.
- 랭크가 너무 낮음: 증상은 "훈련하지만 아무것도 변하지 않음" 또는 LoRA 스케일 1.0에서도 약한 아이덴티티/스타일 강도입니다. 랭크 32를 시도하세요.
- 오버피팅 / LoRA 블리드: 관련 없는 프롬프트에 피사체가 나타남. DOP를 활성화하고 정규화 데이터셋을 추가하세요.
- 캡션이 너무 짧음: 프롬프트 준수가 무너짐. 캡션을 확장하세요 (무엇, 어디서, 카메라, 모션, 무드; 관련 있으면 오디오 큐/트랜스크립트도).
- 증류 샘플링 혼란: 25+ 스텝이나 CFG>1로 증류 체크포인트를 샘플링하는 경우, 의도대로 테스트하고 있지 않습니다. 증류 미리보기에는 8 스텝, CFG=1을 사용하세요.
- VRAM OOM: 먼저 프레임을 줄이고 (121 → 81 → 49), 그다음 해상도를 줄이고 (768 → 512), 그다음 오프로드/양자화/캐싱을 활성화하세요.
8. LTX-2 LoRA 학습: 빠른 FAQ
이미지만으로 LTX-2 LoRA를 훈련할 수 있나요?
예, 이미지 전용 데이터셋을 사용하고 프레임 수를 1로 설정하세요. 아이덴티티와 스타일에는 훌륭합니다. 모션 학습에는 적합하지 않습니다.
LoRA 훈련에 dev vs 증류 체크포인트?
LTX-2 LoRA 학습에는 ltx-2-19b-dev로 시작하세요; bf16에서 유연/훈련 가능하다고 명시적으로 설명되어 있습니다. 증류 체크포인트는 주로 빠른 추론용 (8 스텝, CFG=1)입니다.
어떤 랭크를 사용해야 하나요?
32에서 시작하세요. "실제로 학습함"을 위해 많은 초기 LTX-2 트레이너들이 여기에 도달하고 있습니다.
샘플이 끊기거나 일관성이 없는 이유는?
보통 다음의 조합입니다: VRAM에 비해 클립이 너무 길어서 (공격적인 오프로드 강제), 모션/카메라를 설명하지 않는 캡션, 또는 체크포인트에 맞지 않는 샘플링 설정 (특히 증류를 dev처럼 샘플링). 프레임을 줄이고, 캡션을 조이고, 샘플링하는 체크포인트에 guidance/스텝을 맞추세요.
9. 더 알아보기: 다른 AI Toolkit LoRA 훈련 가이드
모델 패밀리 간 워크플로우, 데이터셋, 파라미터 트레이드오프를 비교하고 싶다면 이 가이드들이 좋은 참조점입니다:
Ready to start training?

