LTX 2.3 ID-LoRA in ComfyUI | Identity-Controlled Video Creator

ComfyUI LTX 2.3 ID-LoRA Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 ID-LoRA Examples

ComfyUI를 위한 LTX 2.3 ID-LoRA 말하는 비디오 워크플로우#

이 워크플로우는 단일 얼굴 이미지, 짧은 음성 클립, 프롬프트를 완전히 동기화된 말하는 비디오로 변환합니다. LTX-2.3에 기반하여 오디오와 비주얼을 하나의 확산 과정에서 융합하고, 참조 이미지의 인물이 모든 프레임에서 일관되게 유지되도록 In-Context LoRA 정체성 어댑터를 추가합니다. LTX 2.3 ID-LoRA는 아바타, 가상 호스트, 립싱크, 유사성, 프롬프트 제어가 한 번에 정렬되어야 하는 모든 시나리오에 이상적입니다.

세 가지를 제공합니다: 참조 이미지, 한두 문장의 오디오, 외모와 성능을 설명하는 텍스트 프롬프트. LTX 2.3 ID-LoRA 경로는 정체성을 처리하는 반면, 경량 오디오 전처리기는 더 강한 입술 신호를 위해 음성 명료성을 향상시킵니다. 결과는 정체성을 보존하면서 동기화된 음성을 가진 일관된 비디오로, 주제별 훈련이 필요하지 않습니다.

Comfyui LTX 2.3 ID-LoRA 워크플로우의 주요 모델#

Lightricks LTX-2.3 22B 기본 체크포인트. 텍스트, 이미지, 오디오 조건에서 동기화된 프레임과 소리를 생성하는 오디오-비디오 공동 기반 모델입니다. 이 ComfyUI 파이프라인에서 사용되는 핵심 생성기입니다. 모델 카드
LTX-2.3 증류 LoRA 384. 기본 모델에 증류 지침을 적용하여 품질을 희생하지 않고 샘플링을 안정화하고 가속화하는 공식 LoRA 어댑터입니다. 이 워크플로우에서 두 번째 단계 모델로 플러그인됩니다. LTX-2.3 페이지의 체크포인트 테이블을 참조하세요. 모델 카드
LTX-2.3 공간 업스케일러 x2. 디코딩 전에 공간 세부 사항을 높이기 위해 샘플러 서브그래프 내에서 사용되는 잠재 공간 업스케일러로, 최종 비디오에서 얼굴과 가장자리 충실도를 향상시킵니다. 모델 카드
LTX-2.3 용 Gemma 3 12B Instruct 텍스트 인코더. 스타일, 장면 및 성능을 구동하는 텍스트 조건을 제공합니다. 이 워크플로우는 ComfyUI에 패키지된 Gemma 3 인코더를 사용합니다. Comfy-Org 텍스트 인코더
비디오 및 오디오용 LTX-2.3 VAE. 모델이 생성한 시각적 및 음향 잠재를 이미지와 파형으로 디코딩하는 목적별 VAE입니다. 호환 bf16 빌드는 그래프에서 참조됩니다. 예제 소스: 비디오 VAE · 오디오 VAE
Mel-Band RoFormer 음성 분리용. 모델이 음절과 입 모양을 더 신뢰할 수 있도록 참조 오디오에서 깨끗한 음성을 추출하는 선택적 전처리기입니다. 논문 · ComfyUI 노드
LTX 2.3 ID-LoRA (IC-LoRA). 참조 이미지의 얼굴을 향해 생성기를 편향시키면서 프롬프트 및 음성 신호를 존중하는 말하는 비디오 사용을 위해 훈련된 In-context 정체성 LoRA입니다. Lightricks는 LTX-2.3의 모델 페이지에서 LoRA 및 IC-LoRA 사용을 문서화합니다. 모델 카드

Comfyui LTX 2.3 ID-LoRA 워크플로우 사용 방법#

전체 흐름. 파이프라인은 텍스트 인코더와 VAE와 함께 LTX-2.3 기본을 로드하고, 이미지를 준비하고 오디오를 준비한 다음, 텍스트, 얼굴 참조, 음성 트랙을 결합하여 동기화된 프레임과 음성을 생성하는 두 단계 LTX 샘플러를 실행합니다. ID-LoRA가 없는 병렬 샘플러가 빠른 비교를 위해 포함되어 있습니다. 최종 프레임과 오디오가 MP4로 결합됩니다.

모델
- 그래프는 CheckpointLoaderSimple (#5493)로 기본 체크포인트를 로드하고, LTXAVTextEncoderLoader (#5494)로 Gemma 기반 텍스트 인코더를, 비디오 VAELoader (#5651) 및 오디오 VAELoaderKJ (#5649)를 전용 VAE로 로드합니다. 그런 다음 두 어댑터를 적용합니다: 공식 증류 LoRA는 2단계 모델을 형성하고, LTX 2.3 ID-LoRA는 LoraLoaderModelOnly (#5573)를 통해 정체성 조건을 설정합니다.
- 이 단계는 생성기가 프롬프트를 이해하고, 올바른 디코딩 스택을 가지고 있으며, 효율성 가이드와 정체성 편향으로 준비되도록 합니다.
- 일반적으로 여기에서 체크포인트 또는 LoRA를 교체하는 것 외에는 수정하지 않습니다.
비디오 설정
- 출력 차원, 프레임 속도, 단계 및 길이를 제어합니다. Width (#5284), Height (#5286), 및 Frame Rate (#5289)는 초에서 총 프레임을 계산하는 작은 유틸리티로 피드되어 오디오와 비디오의 타이밍을 일관되게 유지합니다.
- 설정은 한 번 저장되고 모든 다운스트림 노드에 의해 읽어져 두 샘플러와 멀티플렉서가 정렬되도록 합니다.
- 다른 비율, 부드러움 또는 지속 시간을 원할 때 먼저 이 값을 조정하십시오.
이미지 참조 로드
- Load Image (Input) (#5525)를 통해 단일 명확한 얼굴 이미지를 제공합니다. 선택한 출력에 맞게 ImageResizeKJv2 (#5280)로 이미지가 조정됩니다.
- 이 전처리된 이미지는 LTX 2.3 ID-LoRA 단계에서 정체성의 앵커가 되어 유사성과 샷 구성을 안내합니다.
- 최상의 결과를 위해 잘 조명된 정면 사진을 사용하고 모션 블러가 최소화된 이미지를 사용하세요.
오디오 전처리
- Reference Audio (Input) (#5652)를 사용하여 짧은 WAV 또는 MP3를 삽입합니다. 필요한 경우 클립이 잘리고 MelBandRoFormerSampler (#5473)에 전달되어 음성을 분리합니다.
- 깨끗한 음성은 모델이 정확한 입술 움직임과 말하는 리듬을 위한 음소와 타이밍을 추론하는 데 도움이 됩니다.
- 오디오가 이미 음성만 있는 경우 분리를 건너뛰고 직접 피드할 수 있습니다.
ID LoRA와 함께 LTX 샘플링
- 이것이 주요 경로입니다. 샘플러 서브그래프 (Samplers (#5278))는 Enhanced Prompt (Positive) (#5174)에서 긍정적인 프롬프트와 부정적인 리스트, 얼굴 참조, 음성 트랙을 LTX-2.3의 AV 잠재 파이프라인을 통해 혼합합니다.
- LTXVReferenceAudio는 움직임을 음성과 정렬하고, LTXVImgToVideoInplace는 얼굴 이미지를 잠재에 앵커로 주입합니다. LTX 2.3 ID-LoRA 어댑터는 생성기를 주제의 정체성을 향해 조종합니다.
- 이 단계는 디코딩 전에 세부 사항을 높이기 위한 내부 잠재 업스케일러를 포함합니다. 프레임과 동기화된 오디오 스트림을 출력합니다.
ID LoRA 없이 LTX 샘플링
- 동일한 조건을 실행하지만 ID-LoRA 어댑터 없이 실행되는 미러드 샘플러 (Samplers (#5643))입니다. A/B 검사를 위해 또는 참조 정체성에서 더 많은 자유를 원할 때 사용하세요.
- 그 외 모든 것은 동일하게 유지되므로, 눈에 띄는 차이는 정체성 조건에만 기인합니다.
- 이 경로는 빠른 초안이나 창의적인 출발점에 유용할 수 있습니다.
비디오 결합 및 출력
- Video Combine (Output) (#5218)으로 프레임과 생성된 오디오를 MP4로 결합합니다. 프레임 속도는 전역 설정에서 가져오므로, 움직임과 립싱크가 샘플러의 타이밍과 일치합니다.
- 보조 Video Combine (#5645)은 ID-LoRA 없는 분기를 미리 봅니다. 비교를 위해 유용합니다.
- 워크플로우는 긴 세션에서 VRAM을 안정적으로 유지하기 위해 실행 간 캐시를 청소합니다.

Comfyui LTX 2.3 ID-LoRA 워크플로우의 주요 노드#

LoraLoaderModelOnly (#5573)
- 얼굴 정체성을 보존하는 LTX 2.3 ID-LoRA를 로드합니다. 더 많은 창의적 변화를 원하면 가중치를 줄이고, 유사성을 더 강하게 잠그려면 증가시킵니다. 프롬프트 강도와 신중하게 짝지어 정체성과 스타일이 경쟁하지 않도록 하세요. 참조: LTX-2.3 LoRA 사용법은 모델 페이지에서 확인하세요. 모델 카드
LTXVReferenceAudio (#5589)
- 참조 오디오를 음절 타이밍, 억양 및 입 모양을 위한 조건으로 변환합니다. 깨끗한 음성을 피드하여 최상의 정렬을 얻으세요. 펌핑 소리나 비트가 맞지 않는 발음이 들리면, 강도를 높이기보다는 클립을 짧게 하거나 단순화하세요.
LTXVImgToVideoInplace (#5245, 나중에 사용됨)
- 얼굴 이미지를 잠재 비디오 스트림에 공간적 우선으로 주입합니다. 이미지 강도 제어는 사진에 대한 충실도와 움직임 자유도를 균형 잡습니다. 강한 정체성과 자연스러운 움직임을 위해 이미지 강도를 중간으로 유지하고 ID-LoRA에 유사성을 맡기세요.
LTXVConditioning (#5621)
- LTX 샘플러를 위한 텍스트 조건과 타이밍 신호를 패키지합니다. 프레임 속도 입력이 출력 프레임 속도와 일치하도록 하여 모션 필드와 음소 타이밍이 일관성을 유지합니다.
VHS_VideoCombine (#5218)
- 프레임과 오디오를 최종 파일로 결합합니다. 오디오가 프레임보다 약간 길면, 여기에서 트리밍을 활성화하여 검은 꼬리가 이어지지 않게 하세요. 플랫폼 호환성을 위해 기본 H.264 설정을 유지하세요. 노드 참조: ComfyUI-VideoHelperSuite
MelBandRoFormerSampler (#5473)
- Mel-band 변환기를 사용하여 음악에서 음성을 분리하여 생성기가 음성에 잠기도록 합니다. 시빌런트가 번지거나 파열음이 튀면, 동일한 가족의 다른 모델 파일을 시도하거나 입력 음량을 줄이세요. 배경 읽기: arXiv

선택적 추가 기능#

LTX-2.3의 가장 안정적인 생성을 위해 너비와 높이를 32로 나누어 떨어지게 하고, Lightricks에서 문서화한 대로 8n + 1의 프레임 수를 선택하세요. 모델 카드
참조 이미지를 프롬프트와 일치시키세요. 실외 조명을 설명하면서 실내 사진을 제공하면, 정체성은 유지될 수 있지만 색상과 음영이 프롬프트와 싸울 수 있습니다.
자연스러운 속도로 오디오를 2에서 8초 제공하세요. 과도하게 압축되거나 잔향이 있는 클립은 음성 분리 후에도 립싱크 충실도를 감소시킵니다.
얼굴이 흐려지면, 이미지 강도를 약간 낮추고 LTX 2.3 ID-LoRA에 더 의존하세요. 얼굴이 너무 많이 떠돌면, 반대로 하세요.
긴 테이크의 경우 동일한 시드와 전역 설정을 공유하는 세그먼트로 생성하고, 필요한 경우 비디오 편집에서 클립을 결합하세요.

참조 및 유용한 저장소#

LTX-2.3 오픈 가중치 및 노트: Hugging Face 모델 페이지
LTX 비디오용 공식 ComfyUI 노드: Lightricks/ComfyUI-LTXVideo
LTX-2 코드베이스 및 논문: Lightricks/LTX-Video · arXiv
ComfyUI의 LTX용 Gemma 3 12B IT 인코더: Comfy-Org/ltx-2 텍스트 인코더
Mel-Band RoFormer 배경: arXiv

감사의 말#

이 워크플로우는 다음 작업 및 리소스를 구현하고 구축합니다. 우리는 LTX 2.3 ID-LoRA Source의 기여와 유지 관리에 대해 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하세요.

리소스#

LTX 2.3 ID-LoRA Source
- 문서 / 릴리스 노트: YouTube @Benji’s AI Playground

참고: 참조된 모델, 데이터 세트 및 코드의 사용은 해당 작성자 및 유지 관리자가 제공하는 라이선스 및 조건을 따릅니다.

Want More ComfyUI Workflows?

InfiniteTalk | 립싱크 아바타 생성기

사진 + 음성 = 몇 분 만에 완벽하게 동기화된 말하는 아바타

DreamID-Omni | 사진을 대화 비디오로 만드는 도구

사진을 몇 초 만에 초현실적인 대화 비디오로 변환합니다.

EchoMimic | 오디오 기반 초상화 애니메이션

제공된 오디오와 동기화된 현실적인 말하는 머리와 신체 제스처를 생성합니다.

Hallo2 | 립싱크 초상화 애니메이션

오디오 기반의 립싱크를 통한 4K 초상화 애니메이션.

LatentSync| 립싱크 모델

고급 오디오 기반 립싱크 기술.

SAM 3D ComfyUI | Object & Body Animation

정지 이미지에서 실감 나는 3D 움직임과 애니메이션을 즉시 만드세요.

ComfyUI PhotoMakerV2 | 현실적인 사진 만들기

텍스트 프롬프트에서 정체성을 유지하면서 현실적인 개인화된 사진 생성

일관된 캐릭터 생성기

여러 각도에서 감정, 조명, 환경을 완벽하게 제어하여 일관된 고해상도 캐릭터 디자인을 만드세요.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

LTX 2.3 ID-LoRA | 말하는 아바타 생성기