LTX-2 ComfyUI: 실시간 텍스트, 이미지, 깊이 및 포즈에서 비디오로 동기화된 오디오와 함께
이 올인원 LTX-2 ComfyUI 워크플로우를 통해 오디오가 포함된 짧은 비디오를 몇 초 만에 생성하고 반복할 수 있습니다. 텍스트에서 비디오로(T2V), 이미지에서 비디오로(I2V), 깊이에서 비디오로, 포즈에서 비디오로, 캐니에서 비디오로의 경로가 함께 제공되어 프롬프트, 정지 이미지 또는 구조화된 가이드를 시작으로 동일한 창의적 루프를 유지할 수 있습니다.
LTX-2의 저지연 AV 파이프라인 및 멀티-GPU 시퀀스 병렬성을 기반으로 구축된 이 그래프는 빠른 피드백을 강조합니다. 모션, 카메라, 외관 및 사운드를 한 번 설명한 후 너비, 높이, 프레임 수 또는 LoRAs를 제어하여 결과를 재배선 없이 정제할 수 있습니다.
참고: LTX-2 워크플로우 호환성 관련 참고 사항 — LTX-2에는 5개의 워크플로우가 포함되어 있습니다: 텍스트에서 비디오로 및 이미지에서 비디오로는 모든 기계 유형에서 실행되며, 깊이에서 비디오로, 캐니에서 비디오로, 포즈에서 비디오로는 2X-Large 기계 이상이 필요합니다; 작은 기계에서 이러한 ControlNet 워크플로우를 실행하면 오류가 발생할 수 있습니다.
LTX-2 ComfyUI 워크플로우의 주요 모델
- LTX-2 19B (dev FP8) 체크포인트. 다중 모달 조건화에서 비디오 프레임과 동기화된 오디오를 생성하는 핵심 오디오-비주얼 생성 모델입니다. Lightricks/LTX-2
- LTX-2 19B Distilled 체크포인트. 빠른 초안이나 캐니 제어 실행에 유용한 가벼운 변형입니다. Lightricks/LTX-2
- Gemma 3 12B IT 텍스트 인코더. 워크플로우의 프롬프트 인코더에서 사용하는 기본 텍스트 이해 백본입니다. Comfy-Org/ltx-2 split files
- LTX-2 Spatial Upscaler x2. 중간 그래프에서 공간 세부 사항을 두 배로 늘려 더 깨끗한 출력을 제공하는 잠재 업샘플러입니다. Lightricks/LTX-2
- LTX-2 Audio VAE. 오디오 잠재를 인코딩 및 디코딩하여 사운드를 비디오와 함께 생성하고 믹싱할 수 있습니다. 위의 LTX-2 릴리스에 포함되어 있습니다.
- Lotus Depth D v1‑1. 깊이 기반 비디오 생성 전 이미지에서 강력한 깊이 맵을 파생하기 위해 사용되는 깊이 UNet입니다. Comfy‑Org/lotus
- SD VAE (MSE, EMA pruned). 깊이 전처리기 브랜치에서 사용되는 VAE입니다. stabilityai/sd-vae-ft-mse-original
- LTX‑2를 위한 Control LoRAs. 모션 및 구조를 조정하는 선택적 플러그‑앤‑플레이 LoRAs:
LTX-2 ComfyUI 워크플로우 사용 방법
그래프에는 독립적으로 실행할 수 있는 다섯 가지 경로가 포함되어 있습니다. 모든 경로는 동일한 내보내기 경로를 공유하고 동일한 프롬프트-조건화 논리를 사용하므로 하나를 배우면 다른 것들도 익숙하게 느껴집니다.
T2V: 프롬프트에서 비디오 및 오디오 생성
T2V 경로는 CLIP Text Encode (Prompt) (#3)와 CLIP Text Encode (Prompt) (#4)의 선택적 네거티브로 시작합니다. LTXVConditioning (#22)은 텍스트와 선택한 프레임 속도를 모델에 바인딩합니다. EmptyLTXVLatentVideo (#43) 및 LTX LTXV Empty Latent Audio (#26)는 비디오 및 오디오 잠재를 생성하여 LTX LTXV Concat AV Latent (#28)에서 융합됩니다. 디노이징 루프는 LTXVScheduler (#9) 및 SamplerCustomAdvanced (#41)를 통해 실행되며, 이후 VAE Decode (#12) 및 LTX LTXV Audio VAE Decode (#14)가 프레임 및 오디오를 생성합니다. Video Combine 🎥🅥🅗🅢 (#15)은 동기화된 사운드를 가진 H.264 MP4를 저장합니다.
I2V: 정지 이미지에 애니메이션 추가
LoadImage (#98)로 정지 이미지를 로드하고 ResizeImageMaskNode (#99)로 크기를 조정합니다. T2V 서브그래프 내에서 LTX LTXV Img To Video Inplace는 첫 번째 프레임을 잠재 시퀀스에 주입하여 모션이 순수한 노이즈가 아닌 정지 이미지에서부터 시작되도록 합니다. 모션, 카메라, 분위기에 초점을 맞춘 텍스트 프롬프트를 유지하세요; 내용은 이미지에서 나옵니다.
깊이에서 비디오로: 깊이 맵에서 구조 인식 모션
"Image to Depth Map (Lotus)" 전처리기를 사용하여 입력을 깊이 이미지로 변환하고 VAEDecode로 디코딩하며, 선택적으로 극성을 위해 반전할 수 있습니다. "Depth to Video (LTX 2.0)" 경로는 LTX LTXV Add Guide를 통해 깊이 가이드를 모델에 공급하여 애니메이션 중 글로벌 장면 구조를 존중하도록 합니다. 경로는 동일한 스케줄러, 샘플러 및 업스케일러 단계를 재사용하며, 타일 디코드로 이미지 및 믹싱된 오디오와 함께 내보내기를 종료합니다.
포즈에서 비디오로: 인간 포즈에서 모션 구동
VHS_LoadVideo (#198)로 클립을 가져오고; DWPreprocessor (#158)는 프레임 전반에서 인간 포즈를 신뢰성 있게 추정합니다. "Pose to Video (LTX 2.0)" 서브그래프는 프롬프트, 포즈 조건화 및 선택적인 포즈 제어 LoRA를 결합하여 팔다리, 방향 및 비트를 일관되게 유지하면서 스타일 및 배경이 텍스트에서 흐르도록 합니다. 이는 춤, 간단한 묘기 또는 바디 타이밍이 중요한 카메라 앞 발언 장면에 사용하세요.
캐니에서 비디오로: 가장자리 충실한 애니메이션 및 증류 속도 모드
Canny (#169)에 프레임을 공급하여 안정적인 가장자리 맵을 얻습니다. "Canny to Video (LTX 2.0)" 브랜치는 가장자리와 선택적 캐니 제어 LoRA를 수용하여 실루엣에 높은 충실도를 제공하며, "Canny to Video (LTX 2.0 Distilled)"는 빠른 증류 체크포인트를 제공하여 빠른 반복을 제공합니다. 두 변형 모두 첫 번째 프레임을 주입하고 이미지 강도를 선택할 수 있으며, CreateVideo 또는 VHS_VideoCombine을 통해 내보낼 수 있습니다.
비디오 설정 및 내보내기
Width (#175) 및 height (#173)로 너비와 높이를 설정하고, Frame Count (#176)로 총 프레임을 설정하며, Enable First Frame (#177)을 토글하여 초기 참조를 고정할 수 있습니다. 각 경로의 끝에서 VHS_VideoCombine 노드를 사용하여 crf, frame_rate, pix_fmt, 메타데이터 저장을 제어합니다. 증류된 캐니 경로를 선호할 때 직접 비디오 출력을 위한 전용 SaveVideo (#180)가 제공됩니다.
성능 및 다중 GPU
그래프는 LTXVSequenceParallelMultiGPUPatcher (#44)를 적용하여 torch_compile을 활성화하여 GPU 간 시퀀스를 분할하여 낮은 지연을 제공합니다. KSamplerSelect (#8)를 사용하여 Euler 및 그래디언트 추정 스타일을 포함한 샘플러를 선택할 수 있습니다; 더 작은 프레임 수와 낮은 단계는 빠른 반복을 줄여줍니다.
LTX-2 ComfyUI 워크플로우의 주요 노드
LTX Multimodal Guider(#17). 텍스트 조건화가 비디오와 오디오 브랜치를 어떻게 조정하는지를 조정합니다.cfg및modality를LTX Guider Parameters(#18 for VIDEO, #19 for AUDIO)에서 조정하여 충실도와 창의성의 균형을 맞춥니다; 프롬프트 준수를 더 엄격히 하려면cfg를 올리고, 특정 브랜치를 강조하려면modality_scale을 증가시킵니다.LTXVScheduler(#9). LTX‑2의 잠재 공간에 맞춘 시그마 스케줄을 구축합니다.steps를 사용하여 속도와 품질을 교환합니다; 프로토타이핑 시에는 단계를 줄여 지연을 줄이고, 최종 렌더링 시에는 단계를 증가시킵니다.SamplerCustomAdvanced(#41).RandomNoise,KSamplerSelect(#8)에서 선택한 샘플러, 스케줄러의 시그마, AV 잠재를 결합하는 디노이저입니다. 다른 모션 텍스처 및 컨버전스 동작을 위해 샘플러를 전환하세요.LTX LTXV Img To Video Inplace(I2V 브랜치에서, 예: #107). 이미지를 비디오 잠재에 주입하여 첫 프레임이 콘텐츠를 앵커링하면서 모델이 모션을 합성하도록 합니다. 첫 프레임이 얼마나 엄격히 보존될지 조정하려면strength를 조정하세요.LTX LTXV Add Guide(가이드 경로에서, 예: 깊이/포즈/캐니). 잠재 공간에 구조적 가이드(이미지, 포즈, 가장자리)를 직접 추가합니다. 가이드 충실도와 생성적 자유의 균형을 맞추기 위해strength를 사용하고, 시간적 앵커링이 필요할 때만 첫 프레임을 활성화하세요.Video Combine 🎥🅥🅗🅢(#15 및 형제 노드). 디코딩된 프레임과 생성된 오디오를 MP4로 패키징합니다. 미리보기의 경우crf를 올리고(더 많은 압축); 최종본의 경우crf를 낮추고, 조건화에서 설정한frame_rate가 일치하는지 확인합니다.LTXVSequenceParallelMultiGPUPatcher(#44). 컴파일 최적화와 함께 시퀀스 병렬 추론을 활성화합니다. 최적의 처리량을 위해 켜 두세요; 장치 배치를 디버깅할 때만 비활성화하세요.
선택적 추가 항목
- LTX-2 ComfyUI에 대한 프롬프트 팁
- 시간에 따른 핵심 작업을 설명하세요, 단지 정적인 외관이 아니라.
- 비디오에서 반드시 보아야 할 중요한 시각적 세부 사항을 지정하세요.
- 사운드트랙을 작성하세요: 분위기, 효과음, 음악 및 대화를 포함합니다.
- 크기 규칙 및 프레임 속도
- 너비와 높이는 32의 배수로 사용하세요 (예: 1280×720).
- 프레임 수는 8의 배수로 사용하세요 (이 템플릿에서 121은 좋은 길이입니다).
- 프레임 속도가 나타나는 곳에서 일관되게 유지하세요; 그래프에는 float 및 int 박스가 포함되어 있으며 일치해야 합니다.
- LoRA 가이드
- 카메라, 깊이, 포즈 및 캐니 LoRAs가 통합되어 있습니다; 카메라 움직임에 대해 강도 1로 시작한 후, 필요할 때만 두 번째 LoRA를 추가하세요. 공식 컬렉션은 Lightricks/LTX‑2에서 찾아보세요.
- 더 빠른 반복
- 프레임 수를 줄이고,
LTXVScheduler의 단계를 줄이며, 캐니 경로에 대해 증류된 체크포인트를 시도하세요. 모션이 작동하면 해상도와 단계를 확장하여 최종본을 만드세요.
- 프레임 수를 줄이고,
- 재현 가능성
Random Noise노드에서noise_seed를 잠궈 프롬프트, 크기 및 LoRAs를 조정하는 동안 반복 가능한 결과를 얻으세요.
감사의 글
이 워크플로우는 다음 작업 및 리소스를 구현하고 구축합니다. 우리는 Lightricks의 LTX-2 다중 모달 비디오 생성 모델 및 LTX-Video 연구 코드베이스, 그리고 Comfy Org의 ComfyUI LTX-2 파트너 노드/통합에 대한 기여와 유지보수에 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하시기 바랍니다.
리소스
- Comfy Org/LTX-2 ComfyUI에서 사용 가능!
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
- arXiv: 2501.00103
- Docs / Release Notes: LTX-2 Nowjson Available in ComfyUI!
참고: 참조된 모델, 데이터 세트 및 코드의 사용은 해당 작성자 및 유지 관리자가 제공한 해당 라이선스 및 조건에 따릅니다.
