ComfyUI에서의 SCAIL 포즈 안내 캐릭터 애니메이션
이 작업 흐름은 SCAIL을 ComfyUI로 가져와 포즈 안내, 참조 기반 캐릭터 애니메이션을 제공합니다. 단일 참조 이미지와 추출된 인간 포즈를 결합하여 SCAIL은 주제의 정체성, 신체 구조 및 프레임 전반의 일관된 움직임을 유지하면서 스타일을 프롬프트로 제어할 수 있습니다. 모션 전이를 위한 입력 비디오 또는 안무를 위한 이미지와 렌더링된 포즈를 지원한 후, 다중 프레임 비디오를 출력하며, 선택적으로 오디오 패스스루를 제공합니다.
이 SCAIL 작업 흐름을 사용하여 댄스 및 액션 모션 전이, 스타일화된 캐릭터 애니메이션 및 일관된 다중 샷 시퀀스를 생성하세요. 시간적 안정성과 정확한 포즈가 중요한 곳에서 활용하세요. 내부적으로 WanVideo를 통해 확산-변환기 비디오 생성이 실행되며, CLIP 비전을 통해 정체성을 증강하고, NLF 및 ViTPose/DWPose 포즈 신호를 사용하여 구조를 구동하며, 효율적인 장기 시퀀스 샘플링을 위해 연결됩니다.
참고: 호환성 제한으로 인해 2XL 머신은 현재 ComfyUI 작업 흐름과 함께 사용할 수 없습니다.
ComfyUI SCAIL 작업 흐름의 주요 모델
- SCAIL: 전체 컨텍스트 포즈 주입과 3D 일관성 포즈 표현을 통한 스튜디오급 캐릭터 애니메이션; 이 작업 흐름의 정체성 보존과 포즈 충실도의 핵심입니다. GitHub, arXiv
- Wan 2.x 이미지-비디오 백본: SCAIL-조건부 생성의 샘플러 백본으로 사용되는 대형 비디오 확산 모델; 고품질 I2V 및 애니메이션 작업을 지원합니다. 예시: Wan-AI/Wan2.1-I2V-14B-480P, Wan-AI/Wan2.2-Animate-14B
- UMT5-XXL 텍스트 인코더: 프롬프트를 조건 임베딩으로 변환하기 위해 Wan 파이프라인에서 사용하는 다국어 T5 변형. Hugging Face
- CLIP ViT-H/14 비전 인코더: 비디오 합성 중 정체성을 고정하기 위해 강력한 참조 이미지 특징을 추출합니다. GitHub
- ViTPose (Whole-Body): SCAIL의 정렬 및 드로잉 유틸리티에서 사용되는 신체, 손, 얼굴에 대한 밀집된 키포인트를 제공하는 고품질 2D 인간 포즈 추정기. GitHub
- DWPose: 얼굴/손 세부사항 및 포즈 정렬을 위한 전체 신체 키포인트 형식 및 모델. GitHub
- NLF (Neural Localizer Fields): SCAIL 3D 인식 포즈 이미지로 렌더링되는 연속적인 인간 포즈/형태 단서를 예측하여 강력한 구조적 제어를 제공합니다. GitHub
- YOLOv10: 포즈 사전 처리 체인에서 사람 위치를 찾기 위해 사용되는 빠른 감지기. GitHub
ComfyUI SCAIL 작업 흐름 사용 방법
전체 흐름: 참조 이미지와 선택적 드라이빙 비디오를 로드합니다; 포즈를 추출하고 렌더링합니다; CLIP 비전으로 참조를 인코딩합니다; SCAIL 참조 및 SCAIL 포즈 임베딩을 추가합니다; 텍스트 조건을 조합합니다; WanVideo로 프레임을 샘플링합니다; 비디오를 디코딩하고 내보냅니다. 그래프에는 공용 "Set_" 변수가 포함되어 있어 너비, 높이, CFG 및 프레임 수가 자동으로 전파됩니다.
-
입력 및 크기 조정
- 모션 전이를 위한 참조 캐릭터 이미지 또는 비디오를 로드합니다. 작업 흐름은 참조를 생성 크기로 조정하고 대상 치수가 32로 나눌 수 있도록 보장합니다. 비디오를 로드하면 오디오는 최종 내보내기에 대한 패스스루로 사용할 수 있습니다.
- 너비, 높이, 프레임 수를 한 번 설정하면 값이 샘플러, 디코더 및 내보내기에 공유 getter 및 setter를 통해 공급됩니다. 참조와 출력 간의 종횡비를 일관되게 유지하여 왜곡 아티팩트를 최소화하세요.
-
포즈 추출 (그룹: 포즈 추출)
- 입력 비디오 프레임 또는 이미지는 분석을 위해 크기가 조정되고 NLF 포즈 예측기와 ViTPose 감지기로 공급됩니다. ViTPose 출력은 선택적 얼굴/손 세부사항을 위해 DWPose 형식으로 변환되고 전역 포즈를 참조 주제로 정렬합니다.
- 렌더링된 SCAIL 포즈 이미지는 효율성을 위해 내부적으로 생성 해상도의 절반에서 생성된 후 깊이 단서와 가림을 유지하며 대상 크기로 구성됩니다. 얼굴/손 드로잉은 정렬을 사용하면서 전환할 수 있으며, 정렬을 비활성화하려면 DWPose를 분리하세요.
-
참조 정체성 인코딩
- 참조 이미지는 CLIP ViT-H/14로 인코딩되고 WanVideo 이미지 임베딩으로 변환됩니다. 이러한 임베딩은 색상, 질감 및 지역 구조를 포착하여 SCAIL이 도전적인 움직임을 통해 캐릭터를 일관되게 유지할 수 있도록 합니다.
- 긴 또는 스타일화된 샷에서 정체성이 드리프트하면 깨끗하고 정면을 유지하고 무거운 크롭을 피하세요; 이는 다운스트림에서 사용되는 CLIP 신호를 강화합니다.
-
SCAIL 포즈 조건
- SCAIL 포즈 렌더링은 추가 이미지 임베딩으로 주입됩니다. 이들은 프레임 전반에 걸쳐 사지 배치, 깊이 순서 및 실루엣 안정성을 강화하는 강력한 구조적 안내로 작용합니다.
- 이 단계에서 드라이빙 소스를 교체할 수 있습니다: 모션 전이를 위한 비디오에서 추출된 포즈를 사용하거나 드라이버 없이 시퀀스를 안무하기 위해 사전 렌더링된 SCAIL 포즈 이미지를 피드하세요.
-
텍스트 프롬프트 조건
- 프롬프트는 스타일, 의상, 조명 및 환경을 편향하는 텍스트 임베딩으로 인코딩됩니다. 참조 이미지를 보완하는 간결한 설명자를 사용하세요; 부정적 텍스트는 과포화, 아티팩트 또는 혼란을 줄일 수 있습니다.
- SCAIL 제어 하에 출력이 참조 모양을 밀접하게 따르길 원할 때 프롬프트는 선택 사항입니다.
-
샘플링 및 스케줄링
- WanVideo 샘플러는 모델, 스케줄러, 이미지 임베드(참조 + SCAIL 포즈), 텍스트 임베드 및 CFG 안내와 함께 확산-변환기를 실행합니다. 컨텍스트 옵션 노드는 메모리 친화적 생성을 위해 긴 시퀀스를 윈도우할 수 있으며 시간적 연속성을 유지합니다.
- 깜박임이나 부드러운 가장자리가 발생하면 더 느린 스케줄러나 약간 더 강한 CFG를 고려하세요; 모션이 과도하게 제한된 것처럼 느껴지면 전반적인 안내를 줄여 SCAIL 구조와 외관 신호가 자연스럽게 균형을 이루도록 하세요.
-
디코딩 및 내보내기
- Wan VAE를 사용하여 잠재 변수를 프레임으로 디코딩하고, 선택한 프레임 속도와 파일 이름 접두사로 비디오를 작성합니다. 작업 흐름은 A/B 슬라이스를 위한 비주얼을 연결하고 연결되면 오디오를 통과시킬 수 있습니다.
- 출력을 검사하세요; 빠른 회전 중 팔이나 다리가 잘리면 포즈 추출 품질이나 정렬 입력을 다시 확인한 후 동일한 시드로 제처리하여 제어된 반복을 수행하세요.
ComfyUI SCAIL 작업 흐름의 주요 노드
-
WanVideoAddSCAILReferenceEmbeds (#350)
- 참조 이미지에서 이미지 임베딩 스트림으로 정체성과 외관 조건을 추가합니다. 캐릭터의 얼굴이나 옷이 드리프트할 때 그 영향을 증가시키세요; 모델이 큰 신체 회전이나 극적인 조명에 적응하지 않으려 할 때 그 영향을 줄이세요.
-
WanVideoAddSCAILPoseEmbeds (#324)
- 렌더링된 SCAIL 포즈 이미지를 구조적 안내로 주입합니다. 사지 배치 및 실루엣 안정성을 위해 그 영향을 높이세요; 모션이 너무 경직되어 보이거나 스타일 프롬프트가 포즈를 약간 구부리기를 원할 때 그 영향을 줄이세요.
-
RenderNLFPoses (#362)
- 연속적인 NLF 예측을 SCAIL 스타일 포즈 이미지로 렌더링하고, 선택적으로 DWPose 얼굴/손을 오버레이하고 포즈-참조 정렬을 수행합니다. 내부 포즈 렌더링을 목표 해상도의 절반으로 유지하여 SCAIL의 디자인과 일치시키고 앨리어싱을 피하세요; 정렬을 제거하려면 DWPose를 분리하세요.
-
WanVideoSamplerv2 (#348)
- 모델, 이미지/텍스트 임베드, 스케줄러, 추가 인수 및
cfg로 주요 확산 샘플링을 구동합니다. 시간적 흔들림이 보이면 더 안정적인 스케줄러나 더 많은 단계를 사용하세요; 세부사항이 참조를 초과하면 cfg를 낮춰 SCAIL의 정체성 신호가 이끌도록 하세요.
-
WanVideoSchedulerv2 (#349)
- 디노이징 스케줄 행동을 제어합니다. 세부사항과 안정성을 균형 있게 하는 스케줄을 선택하세요; 느린 스케줄은 종종 스윕 모션 및 긴 시퀀스를 위해 시간적 일관성을 향상시킵니다.
-
WanVideoClipVisionEncode (#327)
- ViT-H/14로 참조 이미지를 인코딩하고 CLIP 이미지 임베딩을 정체성을 위해 출력합니다. 고품질의 잘 조명된 참조를 사용하세요; 정면이나 3/4 뷰는 얼굴과 머리카락을 더 잘 고정합니다.
선택적 추가 사항
- 치수는 32로 나눌 수 있어야 합니다. 참조 및 출력 종횡비를 일치시켜 왜곡을 피하세요.
- SCAIL은 생성 해상도의 절반에서 포즈 렌더링을 기대합니다; 이 작업 흐름은 자동으로 계산하므로 수동으로 관리할 필요가 없습니다.
- 정확한 손과 표정을 위해 DWPose를 연결하여 얼굴/손 단서를 활성화하세요; 정렬만 비활성화하려면 DWPose 링크를 분리하지만 렌더링된 포즈 이미지는 유지하세요.
- 긴 시퀀스: 컨텍스트 옵션 노드를 사용하여 메모리 효율성을 위해 생성을 윈도우로 만들면서 부드러운 전환을 위해 겹침을 유지하세요.
- ComfyUI에 대한 SCAIL 미리보기 가중치를 사용하는 경우, 필요할 때 커뮤니티 배포에서 가져오세요. 예제 미리보기 팩: Kijai/WanVideo_comfy SCAIL 및 Kijai/WanVideo_comfy_fp8_scaled SCAIL.
감사의 글
이 작업 흐름은 다음의 작업과 리소스를 구현하고 구축합니다. 우리는 Ai Verse Z.ai (zai-org)의 SCAIL (공식 구현) 및 teal024의 SCAIL 프로젝트 페이지에 대한 기여와 유지 관리를 진심으로 감사드립니다. 권위 있는 세부정보는 아래 링크된 원본 문서 및 저장소를 참조하십시오.
리소스
- zai-org/SCAIL
- teal024/SCAIL 프로젝트 페이지
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 저자 및 유지 관리자가 제공한 라이선스 및 조건에 따릅니다.