LTX-2 ControlNet in ComfyUI | 깊이 제어된 비디오 워크플로우

ComfyUI LTX-2 ControlNet Workflow

LTX-2 ControlNet in ComfyUI | Depth-Controlled Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX-2 ControlNet Examples

LTX-2 ControlNet: 구조 안내, 오디오 동기화 비디오 생성 in ComfyUI#

LTX-2 ControlNet은 ComfyUI-LTXVideo 확장을 위한 제어 기반 ComfyUI 워크플로우로, 깊이, 캐니 엣지, 자세 안내를 통해 LTX-2 비디오 생성을 조종할 수 있으며, 오디오와 비주얼을 동기화 상태로 유지합니다. 통합된 오디오-비주얼 잠재 공간에서 실행되므로, 말하기, 폴리, 움직임이 함께 생성되어 첫 프레임부터 마지막 프레임까지 정렬된 상태로 유지됩니다.

텍스트-비디오, 이미지-비디오, 비디오-비디오에 맞춰 설계된 이 워크플로우는 IC LoRA 기반 ControlNet 조건화를 추가하여 정확한 레이아웃과 움직임 제어, 장면 연속성을 위한 첫 프레임 초기화, 날카로운 결과를 위한 잠재 업스케일링을 통한 이중 단계 파이프라인을 제공합니다. LTX-2 ControlNet은 완전 개방형, 빠른 반복 가능, 제작 지향적이며, 반복 가능한 고품질 출력을 필요로 하는 창작자를 위해 설계되었습니다.

Comfyui LTX-2 ControlNet 워크플로우의 주요 모델#

LTX-2 19B (dev FP8 및 distilled). 단일 잠재 공간에서 비디오와 오디오를 샘플링하는 데 사용되는 코어 오디오-비주얼 생성 모델. Model family
Gemma 3 12B IT 텍스트 인코더. LTX-2에서 사용하는 패키지 인코더를 통해 프롬프트와 네거티브에 대한 강력한 언어 이해를 제공합니다. Encoder file
LTX-2 Spatial Upscaler x2. 2단계에서 공간 세부 사항을 정제하는 데 사용되는 잠재 업스케일링 모델. Upscaler
LTX-2 Audio VAE. 생성된 소리를 프레임과 정렬 상태로 유지하는 특화된 오디오 디코더-인코더. LTX-2 체크포인트와 함께 포함. Checkpoints
IC LoRA 제어 가족 for LTX-2. ControlNet 스타일의 조건화 추가:
- Depth control LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- Canny control LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- Pose control LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- Distilled LoRA for quality/efficiency trade-offs: ltx-2-19b-distilled-lora-384
Lotus Depth D v1.1. 깊이 제어 경로에서 사용되는 깊이 추정기. Model
SD VAE FT MSE (Stability AI). 깊이 사전 계산 및 타일 디코딩에 사용되는 이미지 VAE. VAE
ComfyUI-LTXVideo 확장. LTX-2 샘플러, AV 잠재, 오디오 VAE, 및 전체적으로 사용되는 안내 노드를 제공합니다. Repository

Comfyui LTX-2 ControlNet 워크플로우 사용법#

상위 수준에서 LTX-2 ControlNet은 프롬프트와 선택적 참조를 가져와 ControlNet 스타일의 안내와 함께 오디오-비주얼 잠재를 구축하고 첫 번째 패스를 샘플링한 후 선명한 비디오와 동기화된 오디오를 위해 잠재를 업스케일합니다. 세 가지 안내 경로(깊이, 캐니, 자세) 중 하나를 선택하거나 독립적으로 사용한 후, 길이와 크기를 설정하고 내보내기 전에 확인하십시오.

이미지/비디오 전처리
- 이미지-비디오 또는 비디오-비디오를 수행 중이라면 로더를 사용하여 참조 미디어를 가져오세요. VHS_LoadVideo (#196, #197, #198)는 분석을 위해 프레임을 분할하고, LoadImage (#189)는 정지 이미지를 처리합니다. 그룹은 다운스트림 가이드가 일관된 프레임 크기를 볼 수 있도록 편리한 스케일링을 제공합니다.
- "첫 프레임" 이미지는 장면 초기화를 위해 앞으로 전달될 수 있으며, 생성 그룹에서 나중에 활성화할 수 있습니다.
이미지 깊이 전처리
- 깊이 안내를 위해 "Image to Depth Map (Lotus)" 서브그래프는 입력을 Lotus Depth를 사용하여 정규화된 깊이 맵으로 변환합니다. 이는 LTX-2가 따를 수 있는 단일 프레임 또는 다중 프레임 깊이 표현을 준비합니다.
- 경로에는 선택적 크기 조정 및 강도 제어가 포함되어 있어 가이드가 작은 아티팩트에 과적합되지 않고 넓은 구조를 인코딩할 수 있습니다.
비디오 포즈 전처리
- 자세 안내를 위해 DWPreprocessor (#158)는 입력 비디오에서 전체 몸체 키포인트를 감지하고 안정적인 조건화를 위해 크기를 조정합니다. 이는 골격과 팔다리 방향을 강조하는 깨끗한 포즈 이미지 시퀀스를 생성합니다.
- 미리보기 노드를 통해 생성 전에 감지 및 종횡비가 올바르게 보이는지 빠르게 확인할 수 있습니다.
캐니에서 비디오로
- 이 제어 경로는 Canny (#169)을 사용하여 윤곽선을 추출한 다음 제어 이미지 시퀀스와 함께 AV 잠재를 구축합니다. 참조에서 실루엣, 주요 윤곽선, 또는 타이포그래피 윤곽을 보존하고 싶을 때 사용하십시오.
- 첫 프레임 이미지 입력이 일관된 초기화를 위해 제공되며, 특정 스틸과 일치하는 개시 프레임을 원할 때만 활성화하십시오.
깊이에서 비디오로
- 이 경로는 제어 이미지로 Lotus 깊이 맵을 사용합니다. 깊이 제어는 카메라 기하학, 대규모 레이아웃, 피사체 거리 강제를 이상적으로 수행하며, 생성기가 텍스처와 조명을 선택할 수 있도록 합니다.
- 초기 구성을 잠그기 위해 첫 프레임을 제공할 수 있으며, 깊이 단서를 통해 안내되는 움직임을 따라가게 합니다.
자세에서 비디오로
- 자세 경로는 전처리기에서 렌더링된 키포인트를 사용하여 신체 방향 및 움직임 타이밍을 조종합니다. 캐릭터 블로킹, 손 들어올리기 타이밍, 워크 사이클에 특히 효과적입니다.
- 다른 모드와 마찬가지로, 연속성을 위해 선택적 첫 프레임 조건화와 프롬프트 타이밍을 결합할 수 있습니다.
비디오 설정 및 길이
- "비디오 설정" 및 "비디오 길이" 그룹에서 작업할 너비, 높이, 프레임 수를 설정하십시오. 워크플로우는 LTX-2의 잠재 그리드 및 스트라이드에 대해 호환 가능한 가장 가까운 크기로 자동 조정하여 안전하게 반복할 수 있도록 합니다.
- 노드 간의 대상 프레임 속도를 일관되게 유지하십시오; 조건화 노드와 최종 믹스는 매끄러운 오디오-비주얼 동기화를 위해 이를 존중합니다.
생성, 업스케일링, 내보내기
- 샘플링 중에 LTXVAddGuide는 선택한 제어 이미지와 긍정/부정 조건화를 통합하며, SamplerCustomAdvanced는 비디오 및 오디오 잠재에 대한 LTXVScheduler에서 스케줄을 실행합니다. 선택적 첫 프레임은 활성화된 경우 LTXVImgToVideoInplace로 주입됩니다.
- 두 번째 단계는 LTXVLatentUpsampler로 x2 잠재 업스케일러를 사용하여 세부 사항을 정제합니다. 최종 디코드는 프레임을 위한 타일된 VAEDecodeTiled와 오디오를 위한 LTXVAudioVAEDecode로 발생하며, 선택된 브랜치에 따라 VHS_VideoCombine 또는 CreateVideo로 비디오를 작성합니다.

Comfyui LTX-2 ControlNet 워크플로우의 주요 노드#

LTXVAddGuide (#132)
- 텍스트 조건화 및 IC LoRA 제어를 AV 잠재에 병합하여 LTX-2 ControlNet 안내의 핵심 역할을 합니다. 경로에 맞는 제어 LoRA를 선택하고, 사용 가능한 경우 모델이 가이드를 얼마나 엄격히 따르는지를 조정하는 image_strength만 조정하십시오. 참조 구현 및 노드 동작은 LTXVideo 확장에서 제공됩니다. Docs/Code
LTXVImgToVideoInplace (#149, #155)
- 일관된 장면 초기화를 위해 AV 잠재에 첫 프레임 이미지를 주입합니다. 첫 프레임에 대한 충실함과 진화의 자유를 균형 있게 유지하려면 strength를 사용하십시오; 더 많은 움직임을 위해 낮게, 더 엄격한 앵커를 위해 높게 유지하십시오. 순전히 텍스트 또는 제어 기반의 시작을 원할 때는 바이패스하십시오. Docs/Code
LTXVScheduler (#95)
- 통합 잠재에 대한 노이즈 제거 궤적을 구동하여 오디오와 비디오가 함께 수렴하게 합니다. 복잡한 장면과 세밀한 디테일을 위해 단계를 늘리고, 초안 및 빠른 반복을 위해 줄이십시오. 스케줄 설정은 안내 강도와 상호 작용하므로, 안내가 강할 때 극단적인 값을 피하십시오. Docs/Code
LTXVLatentUpsampler (#112)
- LTX-2 x2 공간 업스케일러로 두 번째 단계의 잠재 업스케일링을 수행하여 VRAM 증가를 최소화하면서 선명도를 개선합니다. 반응성을 유지하기 위해 기본 해상도를 늘리기보다는 첫 번째 패스 후에 사용하십시오. Upscaler model
DWPreprocessor (#158)
- 자세 제어 경로를 위한 깨끗한 인간 자세 키포인트를 생성합니다. 미리보기로 감지를 확인하십시오; 손이나 작은 팔다리가 시끄러우면 전처리 전에 입력을 적당한 최대 차원으로 스케일하십시오. ControlNet 보조 스위트에서 제공됩니다. Repo
VHS_VideoCombine / CreateVideo (#195, #106)
- 선택한 프레임 속도와 픽셀 포맷으로 MP4에 디코딩된 프레임과 오디오를 묶습니다. 오디오 디코드가 미리보기에서 정렬된 상태로 보이는지 확인한 후에만 사용하십시오. Video Helper Suite에서 제공됩니다. Repo

선택적 추가 기능#

LTX-2 ControlNet에 대한 프롬프트
- 정적인 속성뿐만 아니라 시간에 따른 행동을 설명하십시오.
- 필요한 사운드 큐나 대화를 포함하여 오디오가 비트에 맞춰 생성되도록 합니다.
- 반복적으로 보이는 아티팩트를 억제하기 위해 간결한 부정적 프롬프트를 사용하십시오.
크기 및 길이
- 너비/높이의 형태로 32k + 1의 이미지 크기를 사용하십시오; 그래프가 자동으로 수정하지만 정확한 값이 반복 속도를 높입니다.
- 8k + 1의 형태로 된 프레임 수는 스케줄링에 가장 안정적입니다.
첫 프레임 일관성
- 잠긴 개시 구성이 필요할 때만 첫 프레임을 활성화하십시오; 중간 image_strength와 짝지어 지나치게 제한하지 않도록 합니다.
VRAM 및 처리량
- 워크플로우에는 멀티-GPU 또는 메모리 제약이 있는 설정을 위한 LTXVideo 패처의 시퀀스 병렬 및 토치 컴파일 옵션이 포함되어 있습니다. 긴 클립의 경우 켜고, 노드 동작을 디버그할 때는 끄십시오. Extension

감사의 말#

이 워크플로우는 다음 작품 및 리소스를 구현하고 빌드합니다. ComfyUI-LTXVideo에 대한 기여와 유지보수를 해주신 Lightricks에게 진심으로 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 레포지토리를 참조하시기 바랍니다.

리소스#

ComfyUI-LTXVideo GitHub Repository: https://github.com/Lightricks/ComfyUI-LTXVideo
- GitHub: Lightricks/ComfyUI-LTXVideo

참고: 참조된 모델, 데이터셋 및 코드의 사용은 저자 및 유지보수자가 제공한 해당 라이센스 및 조건에 따릅니다.

Want More ComfyUI Workflows?

Pyramid Flow | 비디오 생성

텍스트-비디오 및 이미지-비디오 모드 포함.

CogvideoX Fun | Video-to-Video Model

CogVideoX Fun: 고품질 비디오 생성을 위한 고급 비디오-투-비디오 모델.

EchoMimic | 오디오 기반 초상화 애니메이션

제공된 오디오와 동기화된 현실적인 말하는 머리와 신체 제스처를 생성합니다.

Mochi 1 | Genmo 텍스트-비디오

Genmo Mochi 1 모델을 사용한 텍스트-비디오 데모

Mochi Edit UnSampling | 비디오-투-비디오

Mochi Edit: 텍스트 기반 프롬프트 및 업샘플링을 사용하여 비디오 수정.

Flux & 10 In-Context LoRA 모델

이미지 생성을 위한 Flux 및 10개의 다재다능한 In-Context LoRA 모델을 발견하십시오.

Hunyuan3D-2 | 최첨단 3D 에셋 생성기

최첨단 AI 기술을 통해 이미지에서 정밀한 텍스처가 있는 3D 에셋을 생성합니다.

Era3D | ComfyUI 3D Pack

멀티뷰 이미지부터 상세한 메쉬까지 3D 콘텐츠 생성.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

LTX-2 ControlNet | 정밀 비디오 생성기