LTX 2.3 Sulphur T2V 워크플로우: 프롬프트-투-시네마와 미세표정, 분위기, 가이드된 카메라#
LTX 2.3 Sulphur T2V 워크플로우는 잘 작성된 프롬프트를 믿을 수 있는 미세표정, 분위기 있는 장면 세부 사항, 그리고 스토리 중심의 움직임을 강조하는 시네마틱 클립으로 변환합니다. 이 워크플로우는 정제된 LTX 2.3 생성 패스와 Sulphur 스타일 가이드, 선택적 카메라 제어 가이드, 그리고 안정적인 타일 해독 경로를 결합하여 신뢰할 수 있는 텍스트-투-비디오 결과를 제공합니다.
이 ComfyUI 설정은 근거 있는 연기 비트와 제어 가능한 카메라 움직임을 원하는 창작자들을 위해 설계되었습니다. 순수 텍스트-투-비디오를 실행하거나 정지 이미지에서 시작하여 안정적인 첫 번째 패스 잠재를 깨끗한 편집자 친화적 시퀀스로 디코딩하고 편집하기 쉬운 자리 표시자 오디오 트랙을 추가할 수 있습니다.
Comfyui LTX 2.3 Sulphur T2V 워크플로우의 주요 모델#
- Lightricks LTX‑2.3 22B FP8 체크포인트. 생성 및 디코딩을 지원하는 기본 텍스트-투-비디오 모델입니다. 모델 저장소
- LTX‑2.3 정제된 LoRA. 품질을 유지하면서도 더 빠르고 낮은 단계의 샘플링과 안정적인 움직임을 가능하게 하는 정제된 어댑터입니다. 모델 패밀리
- LTX‑2.3 공간 업스케일러 x2. 실험을 위해 그래프에 포함되어 있으며, 기본 내보내기 경로는 이 설정에서 더 깨끗한 결과를 위해 안정적인 첫 번째 패스 디코드를 사용합니다. Upscaler
- LTX‑2 19B LoRA 카메라 제어 돌리 왼쪽. 장면이 필요할 때 안정적인 돌리-인 움직임과 부드러운 시차를 위한 선택적 가이드입니다. LoRA
- LTX 텍스트 인코더 (Gemma 3 12B 변형). 프롬프트와 비트 노트를 해석하는 토크나이저 및 임베딩 모델입니다. 텍스트 인코더
- LTX 오디오 VAE. 결과 비디오가 NLE에서 깔끔하게 로드되도록 무음 오디오 스트림을 패킹합니다. 모델 저장소
- Sulphur LoRA (번들). 표현력이 있으면서도 절제된 미세표정과 시네마틱 색상 조화를 위해 큐레이션된 스타일 및 연기 비트 어댑터입니다.
Comfyui LTX 2.3 Sulphur T2V 워크플로우 사용 방법#
이 워크플로우는 안정적인 첫 번째 패스 텍스트-투-비디오 경로로 기본 설정됩니다. 일관된 비디오 잠재를 생성하고 비디오와 오디오 레인을 분리한 다음 타일형 VAE 디코딩으로 첫 번째 패스 비디오 잠재를 디코드한 후 프레임과 무음 오디오를 편집할 준비가 된 비디오 파일로 패키징합니다. 잠재 업스케일 및 정제 노드는 고급 실험을 위해 그래프에 남아 있지만 기본 출력은 안정성을 위해 해당 분기를 우회합니다.
모델#
모델 그룹은 LTX‑2.3 FP8 체크포인트, LTX 텍스트 인코더, 오디오 VAE, 그리고 전체에 걸쳐 사용되는 어댑터를 로드합니다. 정제 및 Sulphur LoRA는 기본 모델에 적용되어 장면이 귀하의 비트와 얼굴 의도에 밀접하게 맞춰지도록 합니다. 돌리 움직임을 원한다면 제공된 LoraLoader 노드에서 카메라 제어 LoRA를 활성화하세요. 기본 경로는 CFGGuider (#42)를 통해 주 샘플러를 공급하며, 정제 분기는 수동 실험을 위해 사용 가능합니다.
프롬프트#
Prompt 필드 (#29)에 짧은 비트 라인과 간단한 카메라 노트로 장면을 작성하세요. 긍정 텍스트는 CLIPTextEncode (#30)에 의해 인코딩되며, CLIPTextEncode (#41)의 큐레이션된 부정 목록은 CGI 광택, 아티팩트, 지터 및 강한 깜박임을 억제합니다. 연기 지침은 눈, 어깨, 숨에 특정하게 간결하게 유지하여 이 워크플로우가 조정된 미세표정을 해제합니다. "느린 핸드헬드 돌리-인" 및 "부드러운 시차"와 같은 카메라 언어는 스케줄러 및 선택적 카메라 LoRA에 잘 매핑됩니다.
비디오 설정#
비디오 설정 그룹 (#40, #25, #26, #27)에서 출력 Width, Height, Frame Rate, 및 Length를 선택하세요. 내부적으로 워크플로우는 생성 패스의 시간적 일관성을 개선하기 위해 절반 해상도 잠재를 도출한 후 안정적인 잠재를 직접 디코딩합니다. Switch to Text to Video? (#28)를 사용하여 순수 T2V를 실행하거나 비활성화하여 Image Preprocess 경로를 통해 시작 정지를 공급하여 제어된 I2V를 수행하세요. 치수는 빠르고 타일 친화적인 디코딩을 위해 일반적인 배수로 유지해야 합니다.
빈 잠재#
EmptyLTXVLatentVideo (#21)는 설정에 따라 빈 비디오 잠재를 생성하고, LTXVEmptyLatentAudio (#33)는 컨테이너 멀티플렉스가 편집자 친화적이 되도록 일치하는 오디오 잠재를 생성합니다. 이미지에서 시작하려는 경우 LTXVImgToVideoInplace (#22)를 사용하여 제어 가능한 strength로 잠재 타임라인에 주입할 수 있습니다. bypass가 켜져 있으면 노드는 순수 텍스트 기반 초기화를 제공합니다.
저해상도 생성#
오디오 및 비디오 잠재는 LTXVConcatAVLatent (#32)에 의해 병합되고 LTXVScheduler (#47)에 의해 타이밍이 조정되어 부드러운 움직임과 카메라 이동을 위한 비디오 인식 시그마 스케줄을 설정합니다. CFGGuider (#42)는 긍정적 및 부정적 조건을 모델 스택과 결합하고, SamplerCustomAdvanced (#9)는 주 생성 패스를 실행합니다. 그런 다음 LTXVSeparateAVLatent (#35)가 클립을 다시 비디오 및 오디오 잠재로 분할합니다. 기본 출력은 타일형 디코딩을 위해 이 안정적인 비디오 잠재를 사용합니다.
선택적 잠재 업스케일#
LTXVLatentUpsampler (#13)는 LatentUpscaleModelLoader (#39)에서 LTX x2 공간 업스케일러를 적용하여 시간적 구조를 유지하면서 질감과 가장자리를 향상시킵니다. LTXVImgToVideoInplace (#14)는 기존 오디오 레인과 함께 업스케일된 비디오 잠재를 다시 래핑합니다. 이 분기는 고해상도 정제를 실험하려는 경우 사용할 수 있지만, 기본 최종 출력에는 연결되어 있지 않습니다.
선택적 정제#
정제 분기는 CFGGuider (#8) 및 SamplerCustomAdvanced (#36)를 사용하여 짧고 수동적인 시그마 스케줄을 사용합니다. 고해상도 경로를 테스트하려는 고급 사용자를 위해 유용하지만, 기본 워크플로우 출력은 제공된 RunComfy 설정에서 깨끗한 결과를 제공하는 안정적인 첫 번째 패스 타일형 디코드를 우회합니다.
출력#
VAEDecodeTiled (#43)는 LTXVSeparateAVLatent (#35)에서 안정적인 비디오 잠재를 디코딩하고, LTXVAudioVAEDecode (#23)는 편집자들이 좋아하는 무음 트랙을 생성합니다. CreateVideo (#38)는 선택한 fps로 시퀀스를 조립하고, SaveVideo (#45)는 디스크에 저장합니다. 안정적인 움직임, 깨끗한 그라디언트, 제어된 카메라 흐름을 가진 공유 준비가 된 비디오를 얻을 수 있습니다.
Comfyui LTX 2.3 Sulphur T2V 워크플로우의 주요 노드#
LTXVScheduler (#47)#
첫 번째 패스를 위한 비디오 인식 시그마 시퀀스를 조정합니다. 이동이 프레임 간에 얼마나 강하게 축적되는지를 제어하는 시프트 컨트롤은 카메라 이동과 빠른 주제 움직임을 강조하며, 낮은 값은 더 안정적인 프레이밍을 선호합니다. 카메라 제어 LoRA를 활성화하면, 과장된 드리프트를 피하기 위해 적당한 시프트가 가장 잘 어울립니다.
LTXVCropGuides (#10)#
텍스트에서 크롭 인식 조건 채널을 생성하여 특히 얼굴과 같은 중요한 영역이 높은 충실도로 해결되도록 합니다. 전역 샘플러를 과도하게 조정하지 않고 미세표정과 눈 세부 사항을 안내하는 데 사용하세요. 클로즈업이 부드럽게 보인다면 연기 비트를 조이고 크롭 가이드가 세밀한 조정을 하도록 하세요.
LTXVImgToVideoInplace (#22, #14)#
정지 이미지를 시간적으로 일관된 잠재로 변환하거나 업스케일된 잠재를 선택적으로 정제하기 위해 다시 래핑합니다. strength 컨트롤은 타임라인 전체에서 소스 이미지가 얼마나 유지되는지를 설정합니다. 낮은 값은 생성적 적응을 더 허용하고, 높은 값은 프레이밍과 정체성을 고정합니다. bypass를 토글하여 I2V와 순수 T2V 간에 깨끗하게 전환하세요.
LTXVLatentUpsampler (#13)#
잠재 내에서 LTX x2 공간 업스케일러를 적용하여 텍스처와 가장자리를 들어 올려 선택적 정제 실험을 합니다. 기본 내보내기 경로는 이 노드에 의존하지 않으므로, 주 출력 체인을 변경하지 않고 안정적인 첫 번째 패스 출력과 정제 분기를 비교할 수 있습니다.
CFGGuider (#42, #8) 및 KSamplerSelect (#17, #6)#
이 쌍은 모델이 텍스트를 얼마나 엄격하게 따르는지와 얼마나 공격적으로 샘플링하는지를 정의합니다. 비디오 현실성을 위해 가이던스를 보수적으로 유지하세요. 가이던스를 높이면 프롬프트 준수가 증가할 수 있지만 움직임을 경직시키거나 깜박임을 추가할 수 있습니다. 기본 내보내기는 안정적인 움직임을 위한 주 샘플러에 의존하며, 보조 샘플러는 선택적 정제 테스트를 위해 예약되어 있습니다.
선택적 추가 기능#
- 플롯이 아닌 의도와 바디 랭귀지를 설명하는 3~6개의 비트를 작성하세요. 미세표정은 "눈이 부드러워진다" 또는 "어깨가 풀린다"와 같은 특정 큐에서 나타납니다.
- 카메라 언어는 간결하게 유지하세요: 하나의 움직임 동사와 주체, 예를 들어 "그녀의 얼굴에 느린 돌리-인" 또는 "주차된 차들로부터 부드러운 시차".
- 정적인 프레이밍을 원한다면 카메라 제어 LoRA를 비활성화하고 스케줄러 시프트를 약간 줄이세요. 더 많은 이동을 원한다면 LoRA를 활성화하고 시프트를 적당히 높이세요.
- 예측 가능한 타일링 및 디코드를 위해 32의 깨끗한 배수인 너비와 높이를 사용하세요.
- 재현성을 위해
RandomNoise(#2, #1)에서 시드를 잠그세요. 변형을 탐색할 때는 하나의 시드만 변경하세요. - 부정적 프롬프트는 이미 CGI 아티팩트와 깜박임을 억제합니다. 초점을 유지하고 긍정적 텍스트가 스타일과 의도를 전달하도록 하세요.
감사의 글#
이 워크플로우는 다음 작업 및 리소스를 구현하고 구축합니다. 우리는 워크플로우 참조에 대한 RunningHub, LTX 2.3 모델, 정제된 LoRA 및 공간 업스케일러, 카메라 제어 LoRA, LTX 텍스트 인코더에 대한 기여 및 유지보수에 대해 Lightricks 및 Comfy-Org에 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.
리소스#
- RunningHub/워크플로우 참조
- 문서 / 릴리스 노트: Post
- Lightricks/LTX-2.3-fp8
- Hugging Face: Lightricks/LTX-2.3-fp8
- Lightricks/LTX-2.3
- Hugging Face: Lightricks/LTX-2.3
- Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
- Hugging Face: Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 저자 및 유지보수자가 제공하는 각각의 라이선스 및 조건에 따릅니다.



