LTX 2.3 IC-LoRA: ComfyUI에서의 모션 트랙 비디오 생성
이 워크플로우는 LTX 2.3 IC-LoRA 시스템을 ComfyUI에 도입하여 프롬프트나 추가 LoRAs를 통해 스타일링을 자유롭게 하면서 모션 및 장면 구조를 안내할 수 있습니다. LTX-2.3 비디오 생성기를 깊이, 포즈, 에지와 같은 참조 신호에 조건화하여 모션 전송, 카메라 고정, 예측 가능한 구성을 가능하게 합니다.
비디오 간, 모션 리타겟팅, 제어된 AI 애니메이션 작업을 하는 창작자들은 LTX 2.3 IC-LoRA가 모션 제어와 시각적 스타일을 분리하는 것을 알게 될 것입니다. 텍스트와 스타일 LoRAs로 외형을 조정하고 구조적 안내로 움직임을 조정하며, 모든 것이 단일 ComfyUI 그래프 내에서 이루어집니다.
Comfyui LTX 2.3 IC-LoRA 워크플로우의 주요 모델
- LTX-2.3 by Lightricks. 일관된 시퀀스를 생성하고 구조 및 모션 제어를 위한 조건화를 지원하는 고충실도 잠재 비디오 확산 변환기. Hugging Face: Lightricks/LTX-2.3
- LTX 2.3 IC-LoRA 유니온 제어 가중치. LTX-2.3에 구조화된 안내 신호를 주입하기 위해 설계된 인컨텍스트 LoRA 가중치. 워크플로우의 모델 체인과 함께 제공되며 생성 전에 로드됩니다.
- LTX-2.3 VAEs for video and audio. LTX-2.3과 쌍을 이루어 샘플링 중 사용되는 비디오 및 오디오 특성을 압축하고 재구성하는 잠재 인코더/디코더. 그래프에 사전 구성되어 있으며 양자화된 빌드를 사용할 때 전환 가능합니다. 분할 패키지의 예시는 여기에서 확인할 수 있습니다: Hugging Face: unsloth/LTX-2.3-GGUF
- Depth Anything V2. 생성 중 카메라 움직임을 고정하거나 장면 레이아웃을 유지하기 위해 사용되는 견고한 단안 깊이 추정. Hugging Face: LiheYoung/Depth-Anything-V2
- DWPose. 키포인트를 통해 캐릭터 모션을 리타겟팅하거나 보존하는 데 사용되는 경량 다중 인물 포즈 추정기. Hugging Face: yzd-v/DWPose
Comfyui LTX 2.3 IC-LoRA 워크플로우 사용법
그래프는 명확한 그룹으로 구성되어 있습니다. 프롬프트와 참조 비디오를 준비하고 하나 이상의 구조적 안내를 선택한 후 생성 및 내보냅니다.
프롬프트 설정
CLIP Text Encode (Positive Prompt) (#2483)와 CLIP Text Encode (Negative Prompt) (#2612)를 사용하여 시각적 스타일을 설명하고 원치 않는 특성을 제외하십시오. 텍스트 인코더는 모델 그룹에 로드되고 LTXVConditioning (#1241)으로 라우팅되며, 이는 작업 프레임 속도를 수신하여 조건이 클립 타이밍과 일치하도록 합니다. LTX 2.3 IC-LoRA가 모션 및 구조를 처리하므로 외형에 집중하여 프롬프트를 유지하십시오.
전처리
참조 클립을 VHS_LoadVideo (#5182)에 로드하거나 전달합니다. 프레임은 ImageResizeKJv2 (#5080)에서 크기가 조정되어 안내 추출기인 DepthAnythingV2Preprocessor (#5064) 깊이, DWPreprocessor (#4986) 포즈, CannyEdgePreprocessor (#4991) 에지로 입력됩니다. 다운스트림 리사이즈 노드는 안내 맵이 모델 친화적인 배수와 일치하도록 보장하고 GetImageSize (#5029)는 파이프라인의 나머지 부분을 위해 너비, 높이 및 프레임 수를 기록합니다. 결과 안내 이미지 시퀀스는 IC-LoRA가 소비할 수 있도록 Set_video_controlnet (#5100)에서 저장됩니다.
모델 로드
기본 모델과 LoRAs는 이 그룹에서 조립됩니다. CheckpointLoaderSimple (#3940)은 LTX-2.3을 로드하고; LoraLoaderModelOnly (#4922)는 품질과 속도를 위해 증류된 LTX LoRA를 적용하며; LTXICLoRALoaderModelOnly (#5011)는 LTX 2.3 IC-LoRA 가중치를 추가하고 필요한 잠재 다운스케일 팩터를 게시합니다. 비디오 및 오디오 용 VAEs가 로드되고, Boolean - Use GGUF? (#5158)는 호환 가능한 텍스트 인코더 및 VAEs와 함께 양자화된 GGUF 빌드를 GGUFLoaderKJ (#5150)를 통해 VRAM이 제한된 경우 전환할 수 있습니다.
이미지 로드 (t2v일 경우 bypass=True로 설정)
고정 참조 또는 첫 번째 프레임으로 구성을 고정하려면 LoadImage (#2004)를 사용하십시오. ImageResizeKJv2 (#5076)로 크기가 조정되고 빠른 검사를 위해 미리보기됩니다. boolean bypass_i2v는 이미지가 전혀 사용되는지를 제어하며; LTX 2.3 IC-LoRA로 순수 텍스트-비디오를 위해 True로 설정하십시오.
생성
EmptyLTXVLatentVideo (#3059)는 잠재 캔버스를 생성합니다. 이미지 고정이 활성화된 경우 LTXVImgToVideoConditionOnly (#3159)는 스타일을 굽지 않고 이미지에서 구조 정보만 주입합니다. 핵심 단계는 LTXAddVideoICLoRAGuide (#5012)에서 발생하며, 선택한 안내 시퀀스를 IC-LoRA 로더의 잠재 다운스케일 팩터를 사용하여 모델에 부착합니다. 오디오 조건도 LTXVEmptyLatentAudio (#3980) 또는 사용자 정의 오디오 경로를 통해 잠재로 흐릅니다. CFGGuider (#4828), KSamplerSelect (#4831), ManualSigmas (#5025), SamplerCustomAdvanced (#4829)는 프롬프트와 LTX 2.3 IC-LoRA 제어를 모두 존중하며 최종 잠재 비디오를 합성하기 위해 노이즈 제거를 수행합니다.
디코드
LTXVSeparateAVLatent (#4845)는 생성된 오디오 및 비디오 잠재를 디코딩을 위해 분리합니다. LTXVCropGuides (#5013)는 필요 시 정렬 및 자르기를 수행한 후 VAEDecodeTiled (#4851)는 프레임을 효율적으로 재구성합니다. VHS_VideoCombine (#5070)는 참조 클립의 오디오를 기본적으로 사용하여 프레임을 MP4로 결합합니다. 모델에서 디코딩된 오디오 잠재를 따로 시청하려면 LTXVAudioVAEDecode (#4848)를 사용하여 디코딩할 수도 있습니다.
참조 비디오 준비
이 헬퍼 영역은 참조 프레임 파이프라인을 보여줍니다. VHS_VideoInfoLoaded (#5073)는 fps와 지속 시간을 추출하여 조건 노드와 수출자에게 전파하여 타이밍을 동기화 상태로 유지합니다. 작은 결합 노드는 소스 시퀀스의 빠른 시각적 미리보기를 제공하여 확인 검사를 돕습니다.
사용자 정의 오디오
오디오 인식 생성을 원한다면 참조 오디오는 LTXVAudioVAEEncode (#5146)로 인코딩되고 간단한 마스크가 SetLatentNoiseMask (#5148)에서 적용됩니다. Switch - Custom Audio? (#5149)라는 스위치는 빈 오디오 잠재 또는 인코딩된 오디오 잠재 중에서 선택하여 LTXVConcatAVLatent (#4528)에서 연결합니다. 최종 수출은 여전히 참조 오디오를 기본적으로 사용합니다; 모델에서 디코딩된 오디오를 선호한다면 LTXVAudioVAEDecode 출력을 수출자의 오디오 입력으로 연결하십시오.
LTX 공식 시그마 설정
스케줄 노드 ManualSigmas (#5025)는 LTX-2.3에 맞춰 조정된 간결한 시그마 프로파일을 정의하며, SigmasPreview (#5142)는 시간이 지남에 따라 노이즈 할당에 대해 이해할 수 있도록 시각화합니다. 이를 통해 LTX 2.3 IC-LoRA의 특성상 시간적 안정성을 유지하면서 속도와 세부 사항을 교환할 수 있습니다.
Comfyui LTX 2.3 IC-LoRA 워크플로우의 주요 노드
LTXICLoRALoaderModelOnly(#5011). LTX 2.3 IC-LoRA 가중치를 로드하고 안내 인젝터에 필요한 잠재 다운스케일 팩터를 출력합니다. 추가 스타일 LoRAs를 추가하려면 이 로더 앞에 배치하여 모션 안내가 우세하도록 하십시오.LTXAddVideoICLoRAGuide(#5012). 깊이, 포즈, 또는 에지 시퀀스가 인컨텍스트 안내로 모델에 들어가는 지점입니다. 프롬프트 및 스타일 LoRAs로부터의 스타일 자유와 엄격한 구조적 준수 사이의 균형을 맞추기 위해 강도를 조정하십시오.LTXVImgToVideoConditionOnly(#3159). 고정 이미지를 통해 구성 및 대략적인 구조만 전송하는 선택적 이미지-비디오 조건을 제공합니다. i2v와 순수 텍스트-비디오 전환 시bypass토글을 사용하십시오.CFGGuider(#4828). 모델이 프롬프트를 LTX 2.3 IC-LoRA 안내에 상대적으로 얼마나 강하게 따르는지를 제어합니다. 스타일 충실도가 가장 중요할 때 안내를 증가시키고, 최소한의 드리프트로 모션 및 기하학을 보존하기 위해 감소시키십시오.SamplerCustomAdvanced(#4829)와ManualSigmas(#5025). LTX-2.3에 대해 좋은 시간적 일관성을 제공하는 컴팩트 스케줄 및 다단계 샘플러 페어링. 스케줄을 수정하는 경우, 부드럽게 감소하도록 유지하고 긴 렌더링 전에 짧은 클립을 테스트하십시오.
선택적 추가 기능
- 올바른 안내를 선택하십시오. 카메라와 레이아웃을 잠그려면 깊이를 사용하고, 캐릭터 모션을 위해 포즈를 사용하며, 단단한 객체나 깨끗한 실루엣을 위해 에지를 사용하십시오. 다른 측면을 설명하는 경우 두 가지 안내를 혼합할 수 있습니다.
- 샘플러 친화적인 크기를 유지하십시오. 전처리기는 이미 모델 친화적인 배수로 크기를 조정합니다; 소스를 대상 종횡비에 가깝게 유지하여 패딩을 최소화하십시오.
- 모션을 깨지 않으면서 스타일링하십시오. IC-LoRA 로더 앞에 가벼운 스타일 LoRA를 추가하고 가중치를 적당히 유지하여 LTX 2.3 IC-LoRA가 기하학과 타이밍을 유지할 수 있도록 하십시오.
- 낮은 VRAM 모드. Use GGUF를 토글하여 GPU가 제한된 경우 GGUF 패키지에서 양자화된 증류 모델 및 일치하는 텍스트 인코더/VAEs를 실행하십시오. Hugging Face: unsloth/LTX-2.3-GGUF
- 안정적인 타이밍. 참조 비디오에서 읽은 프레임 속도는 조건화 및 수출자에 주입되어 모션 및 오디오가 정렬 상태를 유지합니다. fps를 재정의하려면 조건화 및 내보내기 전반에 걸쳐 일관되게 수행하십시오.
감사
이 워크플로우는 다음 작업과 리소스를 구현하고 구축합니다. 우리는 LTX 2.3 IC-LoRA Source의 @Benji’s AI Playground에 소스 자료 및 안내를 제공해 주신 것에 대해 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.
리소스
- LTX 2.3 IC-LoRA Source
- Docs / Release Notes: YouTube @Benji’s AI Playground
참고: 참조된 모델, 데이터세트, 코드의 사용은 저자 및 유지 관리자가 제공한 해당 라이선스 및 조건에 따릅니다.
