ComfyUI의 LongCat 아바타: 단일 이미지에서 말하는 아바타 비디오로
ComfyUI의 LongCat 아바타는 단일 참조 이미지를 정체성 안정적이고 오디오 기반의 아바타 비디오로 변환합니다. kijai의 WanVideo 래퍼를 기반으로, 얼굴의 일관성, 부드러운 움직임의 연속성, 자연스러운 립 싱크에 중점을 둡니다. 캐릭터 이미지 하나와 오디오 트랙을 제공하면 워크플로우가 시간적으로 일관된 퍼포먼스를 렌더링하여 말하는 머리 클립, 스타일화된 캐릭터 퍼포먼스, 빠른 아바타 모션 테스트에 적합합니다.
빠른 반복을 원하는 창작자들은 ComfyUI의 LongCat 아바타를 실용적이고 신뢰할 수 있는 것으로 발견할 것입니다. 워크플로우는 LongCat의 정체성 보존 모델과 창을 이용한 생성 스킴을 사용하여 시퀀스를 확장하면서 표현을 안정적으로 유지합니다. 출력은 소스 오디오와 함께 비디오로 조합되어 간단한 검토나 출판이 가능합니다.
참고: 2XL 이상의 기계에서는 WanVideo Model Loader 노드에서 주의 백엔드를 "sdpa"로 설정하십시오. 기본 segeattn 백엔드는 고급 GPU에서 호환성 문제를 일으킬 수 있습니다.
Comfyui LongCat 아바타의 주요 모델
- WanVideo용 LongCat-Avatar 모델. ComfyUI에 적응된 정체성 중심의 이미지-비디오 생성으로, 프레임 간 강력한 캐릭터 보존을 제공합니다. 체크포인트 및 노트를 위해 kijai의 WanVideo Comfy 릴리스를 참조하십시오. Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA. 샘플링 중 얼굴 구조와 정체성 특징을 강화하여 모션 하에서 안정성을 개선하는 증류된 LoRA. WanVideo Comfy 자산과 함께 제공됩니다. Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE. 참조 프레임을 잠재 변수로 인코딩하고 생성된 샘플을 이미지로 디코딩하는 비디오 VAE. Hugging Face: Kijai/WanVideo_comfy
- UM-T5 텍스트 인코더. 정체성을 유지하면서 장면 설명과 스타일을 유도하는 텍스트 프롬프트를 해석하는 데 WanVideo에서 사용됩니다. Hugging Face: google/umt5-xxl
- Wav2Vec 2.0 음성 표현. MultiTalk 임베딩을 통해 입술과 턱 움직임을 유도하는 강력한 음성 특징을 제공합니다. 배경 논문: wav2vec 2.0. arXiv 및 호환 가능한 모델 변형: Hugging Face: TencentGameMate/chinese-wav2vec2-base
- MelBandRoFormer 보컬 분리기. 립싱크 모듈이 더 깨끗한 음성 신호를 받을 수 있도록 하는 선택적 보컬-음악 분리. Hugging Face: Kijai/MelBandRoFormer_comfy
Comfyui LongCat 아바타 워크플로우 사용 방법
워크플로우는 세 가지 주요 단계로 구성됩니다: 모델 및 설정, 오디오에서 모션 큐, 창 확장과 함께 참조 이미지에서 비디오로. 오디오 기반 모션에 맞춰 고정된 속도로 렌더링한 다음, 창을 매끄러운 클립으로 연결합니다.
- 모델
WanVideoModelLoader(#122)는 LongCat-Avatar 체크포인트와 LongCat distill LoRA를 로드하며,WanVideoVAELoader(#129)는 비디오 VAE를 제공합니다.WanVideoSchedulerv2(#325)는 확산 중에 사용되는 샘플러 일정을 준비합니다. 이러한 구성 요소는 충실도, 정체성 보존, 일반적인 외관을 정의합니다. 설정 후 모든 후속 샘플링 단계의 백본으로 작용합니다.
- 오디오
LoadAudio(#125)로 음성 트랙을 로드하고, 필요에 따라TrimAudioDuration(#317)으로 트림하며,MelBandRoFormerSampler(#302)로 보컬을 분리하여 배경 소음을 줄입니다.MultiTalkWav2VecEmbeds(#194)는 정리된 음성을 입술 움직임과 미세한 머리 역학을 유도하는 임베딩으로 변환합니다. 유효한 프레임 수는 오디오 지속 시간에서 파생되므로, 긴 오디오는 더 긴 시퀀스로 이어집니다. 오디오 스트림은 나중에 비디오 결합 단계에서 이미지와 다중화됩니다.
- 입력 이미지
LoadImage(#284)로 캐릭터 이미지를 추가합니다.ImageResizeKJv2(#281)는 모델에 맞게 크기를 조정하고,WanVideoEncode(#312)는 모든 프레임에서 정체성을 고정하는ref_latent로 변환합니다. 이 잠재 변수는 ComfyUI 파이프라인의 LongCat 아바타가 오디오와 프롬프트에서 시간 가변적인 모션을 주입하면서 재사용하는 고정 참조입니다.
- 창 확장 1
WanVideoLongCatAvatarExtendEmbeds(#345)는ref_latent와 오디오 임베딩을 융합하여 첫 번째 창의 이미지 임베딩을 생성합니다.WanVideoSamplerv2(#324)는 잠재 변수를 단편 클립으로 디노이즈합니다.WanVideoDecode(#313)는 미리보기 이미지와VHS_VideoCombine(#320)으로 첫 번째 비디오 내보내기를 위해 이를 이미지로 변환합니다. 창 크기와 중첩은 내부적으로 추적되어 다음 창이 보이지 않는 솔기를 정렬할 수 있습니다.
- 창 확장 2
- 두 번째 확장 그룹은 시퀀스를 계속하기 위해 동일한 아이디어를 반복합니다.
WanVideoLongCatAvatarExtendEmbeds(#346, #461)는 이전 잠재 변수에 조건화된 임베딩을 계산하여 현재 중첩에 의해 프레임을 구성합니다.WanVideoSamplerv2(#327, #456)는 다음 조각을 생성하며, 이는 디코딩되고ImageBatchExtendWithOverlap(#341, #460)과 병합되어 연속성을 유지합니다. 더 긴 결과를 위해 추가 창 단계를 반복할 수 있으며, 각 단계는VHS_VideoCombine(#386, #453)으로 내보낼 수 있습니다.
- 두 번째 확장 그룹은 시퀀스를 계속하기 위해 동일한 아이디어를 반복합니다.
Comfyui LongCat 아바타의 주요 노드
WanVideoModelLoader(#122)- LongCat-Avatar 체크포인트를 로드하고 LongCat distill LoRA를 부착하여 정체성 충실도와 모션 동작을 정의합니다. 더 큰 인스턴스를 실행하는 경우, 권장하는 WanVideo 래퍼의 주의 구현을 전환하여 더 나은 처리량을 얻으십시오. 참조용 저장소: github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds(#194)- 입술, 턱 및 미세한 머리 움직임을 안내하는 음성 기반 임베딩을 생성합니다. 더 강한 발음을 위해 음성 영향을 증가시키고, 오디오가 매우 명확할 때 더 긴밀한 동기화를 위해 추가 패스를 고려하십시오. 배경 모델 정보: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds(#346)- ComfyUI의 LongCat 아바타의 핵심으로, 시간 경과에 따라 이미지 임베딩을 확장하면서 참조 잠재 변수에 고정됩니다. 창 길이와 중첩을 조정하여 긴 클립에서 매끄러움, 실행 시간, 안정성을 균형 있게 유지하십시오.
WanVideoSamplerv2(#327)- 모델, 스케줄러, 텍스트 가이드, 이미지 임베딩을 사용하여 확산 프로세스를 실행합니다. 프롬프트 준수와 변동성을 거래하기 위해 가이드 강도를 조정하십시오; 작은 변화가 정체성 강직성과 모션에 눈에 띄는 영향을 미칠 수 있습니다.
VHS_VideoCombine(#320)- 렌더링된 프레임을 원본 오디오와 함께 mp4로 병합하여 쉽게 볼 수 있습니다. 시각적 요소가 오디오와 정확히 끝나거나 최신 창만 내보내고 싶을 때 내장된 트리밍 옵션을 사용하십시오.
선택적 추가 기능
- 계획된 모든 확장 창을 커버할 수 있도록 오디오 지속 시간이 충분한지 확인하십시오. 시퀀스 중간에 음성이 부족하지 않도록 하십시오.
- 긴 클립의 경우, 창 크기를 적당히 늘리고 일부 중첩을 유지하여 전환을 매끄럽게 만드십시오; 중첩이 너무 적으면 팝이 발생할 수 있고, 너무 많으면 렌더링 속도가 느려질 수 있습니다.
- 파이프라인은 고정된 프레임 속도로 작동하며, 이는 내보내기 중 립싱크를 유지합니다.
- 큰 기계 유형을 사용하는 경우, 모델 로더에서 메모리 효율적인 옵션으로 주의 구현을 설정하여 더 나은 속도를 얻으십시오.
- 호환되지 않는 모델 형식을 혼합하지 마십시오; 주 모델과 모든 음성 구성 요소를 WanVideo Comfy 릴리스에서 제공하는 일치하는 패밀리로 유지하십시오. 유용한 모델 허브: Kijai/WanVideo_comfy 및 GGUF 변형 city96/Wan2.1-I2V-14B-480P-gguf.
감사의 글
이 워크플로우는 다음 작품 및 리소스를 구현하고 확장합니다. 우리는 ComfyUI-WanVideoWrapper (LongCatAvatar 워크플로우)를 위한 Kijai와, 참조된 YouTube 비디오의 제작자인 @Benji’s AI Playground에게 그들의 기여와 유지보수에 감사드립니다. 권위 있는 세부 정보는 아래에 링크된 원본 문서 및 저장소를 참조하십시오.
리소스
- YouTube/비디오 튜토리얼
- 문서 / 릴리스 노트: Benji’s AI Playground YouTube 비디오
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- 문서 / 릴리스 노트: LongCatAvatar_testing_wip.json (branch longcat_avatar)
참고: 참조된 모델, 데이터셋 및 코드는 작성자와 유지보수자가 제공한 해당 라이선스 및 약관에 따라 사용됩니다.
