Capybara ComfyUI 워크플로우 v0.1: 이미지와 비디오를 위한 하나의 통합 템플릿
Capybara ComfyUI 워크플로우는 ComfyUI에서 텍스트-이미지, 지시 기반 이미지 편집, 이미지-비디오 및 프롬프트 기반 비디오 편집을 포함하는 4-in-1 템플릿 번들입니다. Capybara v0.1 확산 모델과 하나의 통합 파이프라인을 중심으로 구축되어 이미지와 비디오 작업 간의 일관된 동작과 예측 가능한 결과를 제공합니다.
이 Capybara ComfyUI 워크플로우는 프롬프트 기반 편집, 빠른 반복 및 신뢰할 수 있는 화면 비율 프리셋이 필요한 창작자에게 이상적입니다. 각 경로는 동일한 모델 스택과 프롬프팅 전략을 재사용하여, 작업 간 색상 과학, 구성 및 스타일을 일관되게 유지합니다.
Comfyui Capybara ComfyUI 워크플로우의 주요 모델
- Capybara v0.1 (diffusion UNet). 이미지와 비디오 동작을 통합하는 핵심 생성기로, 모든 네 가지 템플릿에서 콘텐츠의 구성과 스타일을 조정합니다. 프로젝트 저장소 및 모델 카드에서 자세한 내용을 참조하세요: xgen-universe/Capybara (GitHub) 및 xgen-universe/Capybara (Hugging Face).
- Qwen2.5‑VL‑7B 텍스트 인코더. 프롬프트 및 편집 지침에 대한 강력한, 지시 친화적인 언어 이해를 제공하여 작성한 내용과 생성된 결과 간의 정렬을 개선합니다. Qwen/Qwen2.5-VL-7B를 참조하세요.
- ByT5‑small 텍스트 인코더. 프롬프트 내에서 강력한 토큰화 및 텍스트 처리를 돕는 바이트 수준 인코더로, 주요 언어 모델을 보완합니다. google/byt5-small를 참조하세요.
- HunyuanVideo 1.5 VAE. 이미지 및 비디오 분기 간의 잠재 디코딩/인코딩을 처리하여 둘 다 동일한 재구성 특성을 공유하도록 합니다. Tencent/HunyuanVideo (GitHub) 및 Comfy-Org/HunyuanVideo_1.5_repackaged에서 재패키지된 자산을 참조하세요.
- SigCLIP Vision (patch14, 384). 편집 중 구조와 정체성을 유지하는 데 도움이 되는 이미지 기능을 제공합니다. Comfy-Org/sigclip_vision_384를 참조하세요.
Comfyui Capybara ComfyUI 워크플로우 사용법
워크플로우는 독립적으로 실행할 수 있는 네 가지 그룹으로 구성되어 있습니다. 각 그룹은 동일한 Capybara 모델 스택과 프롬프트 전략을 공유하여 스타일과 충실도가 이미지와 비디오 간에 유지됩니다. 내장된 크기 및 비율 패널을 사용하여 생성 전에 합리적인 해상도 프리셋을 선택하세요.
- 이미지 편집
LoadImage(#80)로 소스 정지를 로드한 다음Image Edit (Capybara v0.1)(#103)을 엽니다. “대상과 의상을 유지하고, 실내 장면을 햇빛이 비치는 초원으로 교체하세요”와 같은 지시 스타일 프롬프트를 작성하세요. “워터마크, 텍스트, 저품질”과 같은 아티팩트를 억제하려면 부정적 프롬프트를 사용하세요.- 편집기는 CLIP Vision을 사용하여 대상을 고정하고 Capybara가 나머지 장면에 지시를 적용합니다. 이는 정체성 손실 없이 빠른 배경 교체나 전반적인 외관 조정에 적합합니다.
- 출력은
SaveImage(#102)로 저장됩니다. 특정 비율이 필요한 경우 노드에 노출된 너비/높이 컨트롤을 포함된 프리셋 중 하나로 설정하세요.
- 텍스트에서 이미지로
Text to Image (Capybara v0.1)서브그래프 (#143)를 열고 설명 프롬프트를 작성하세요. 이 분기는 다른 경로와 동일한 언어 인코더와 스케줄러를 사용하여 깨끗한 정지 이미지를 생성하므로 편집 및 비디오의 외관과 일치합니다.- 품질 관리를 위해 짧은 부정적 프롬프트를 추가하세요. 정사각형, 16:9, 9:16 또는 4:3 출력을 원할 경우 실행 전에 크기 패널에서 일치하는 프리셋을 선택하세요.
- 이미지는 검토를 위해 저장되며, 이미지-비디오 또는 편집 경로의 시작점으로 재사용되어 시각적 연속성을 유지할 수 있습니다.
- 이미지에서 비디오로
LoadImage(#131)로 참조 정지를 로드한 다음 생성기 서브그래프 (#130)를 실행하세요. 입력을 애니메이션화하면서 구성과 정체성을 존중하는 모션 인식 프롬프트(예: “느린 돌리 포워드, 따뜻한 영화 등급”)를 작성하세요.- 내부적으로는
HunyuanVideo15ImageToVideo(#115)가 정지 및 프롬프트를 짧은 잠재 프레임 시퀀스로 변환하여 Capybara가 세밀하게 다듬습니다. 포함된 길이 제어를 사용하여 클립 길이를 선택하세요. - 프레임은 기본 영화 프레임 속도로
VHS_VideoCombine(#144)로 MP4로 인코딩됩니다. 아트 디렉션된 키프레임에서 빠르게 소셜 준비 모션이 필요할 때 이를 사용하세요.
- 비디오 편집
VHS_LoadVideo(#146)로 클립을 가져온 다음 편집 서브그래프 (#136)를 엽니다. “바다 배경을 초원으로 변경하고, 말과 움직임을 유지하세요”와 같은 지시를 작성하세요.- 편집 경로는 CLIP Vision을 프롬프트와 융합하여 주제가 안정적으로 유지되면서 장면, 조명 또는 날씨가 시간에 따라 적응하도록 합니다. 부정적 프롬프트는 깜박임이나 원치 않는 오버레이를 억제하는 데 도움이 됩니다.
- 결과는
VHS_VideoCombine(#145)로 MP4로 컴파일됩니다. 원본과 일치하는 해상도 프리셋을 선택하여 왜곡을 피하세요.
Comfyui Capybara ComfyUI 워크플로우의 주요 노드
Image Edit (Capybara v0.1)(#103)- 비전 기능을 사용하여 구조를 보존하면서 텍스트 편집을 전역적으로 적용하는 컴팩트한 지시 기반 편집기입니다.
text프롬프트를 조정하여 변경해야 할 것과 유지해야 할 것을 설명한 다음,steps를 사용하여 품질/매끄러움을 조정하고cfg를 사용하여 프롬프트 강도를 소스 이미지에 맞춰 균형을 맞추세요. 더 많은 세부 사항을 위해steps를 증가시키고, 보통의cfg값은 편집을 충실하게 유지합니다.
- 비전 기능을 사용하여 구조를 보존하면서 텍스트 편집을 전역적으로 적용하는 컴팩트한 지시 기반 편집기입니다.
HunyuanVideo15ImageToVideo(#115)- 정지에서 모션으로의 다리이자 프롬프트 기반 비디오 편집의 엔진입니다. 프롬프트 및 제공된 경우 시작 이미지를 조건으로 짧은 잠재 시퀀스를 생성합니다.
length로 지속 시간을 조정하고,width/height를 프리셋에 맞춰 조정하세요. 더 큰 크기는 세부 사항과 렌더링 시간을 증가시킵니다. 이 노드는 이미지-비디오 및 비디오 편집 그룹의 중추로, HunyuanVideo 디자인을 활용하여 안정적인 시간적 생성을 제공하고 Capybara가 디노이징을 처리합니다.
- 정지에서 모션으로의 다리이자 프롬프트 기반 비디오 편집의 엔진입니다. 프롬프트 및 제공된 경우 시작 이미지를 조건으로 짧은 잠재 시퀀스를 생성합니다.
VHS_VideoCombine(#145)- 생성된 프레임을 MP4로 변환하는 최종화 도구입니다.
frame_rate로 모션 속도를 제어하고,crf로 품질과 파일 크기를 거래하세요. 낮은crf는 더 높은 품질을 제공하지만 파일 크기를 증가시킵니다. 프로젝트 전반에 걸쳐 일관성을 유지하여 Capybara ComfyUI 워크플로우 출력이 균일한 외관을 갖도록 하세요.
- 생성된 프레임을 MP4로 변환하는 최종화 도구입니다.
Capybara ComfyUI 워크플로우의 선택적 추가 기능
- 480p, 720p, 1024, 1080p에서 16:9, 9:16, 1:1 또는 4:3을 잠그기 위해 크기 및 비율 프리셋을 사용하세요. 프리셋을 유지하면 샘플러와 VAE가 안정적으로 유지되고 가장자리 아티팩트가 줄어듭니다.
- 품질을 향상시키기 위해 샘플러 패널에서 확산
steps를 증가시키세요. 렌더링 시간이 길어지지만 세밀한 질감과 깨끗한 가장자리가 눈에 띄게 향상됩니다. - 편집에서 대상을 안정적으로 유지하려면 프롬프트에 명시적으로 유지해야 할 것을 작성하고(예: “캐릭터와 의상을 변경하지 마세요”), 나머지 문장에 장면 변경을 추진하세요.
- 부정적 프롬프트는 정리 팀입니다. “흐림, 워터마크, 텍스트”와 같은 일반적인 항목은 이미지와 비디오 모두에서 오버레이 및 압축 유사 아티팩트를 제거하는 데 도움이 됩니다.
- 비디오의 경우 의도한 프레임 속도에 맞춰 클립 길이를 선택하세요. 기본값은 짧은 소셜 클립에 맞춰져 있으며, 더 긴 시퀀스는 약간 더 높은
steps로 시간적 일관성을 얻습니다.
이 Capybara ComfyUI 워크플로우는 설정 마찰을 최소화하도록 설계되었습니다: 하나의 모델 스택, 네 가지 창의적 작업, 일관된 제어. 텍스트-이미지로 시작하여 외관 개발을 하고, 이미지 편집으로 세밀하게 조정하고, 이미지-비디오로 키프레임을 애니메이션화한 다음, 프롬프트 기반 비디오 편집으로 최종 브리프에 맞추세요.
감사의 글
이 워크플로우는 다음 작업 및 리소스를 구현하고 구축합니다. Capybara 모델 및 프로젝트에 대해 XGen Universe에, Capybara v0.1 확산 모델 자산, HunyuanVideo 1.5 VAE, Qwen2.5-VL-7B 텍스트 인코더 패키징에 대해 Comfy-Org에, Capybara 워크플로우 템플릿(Text to Image, Image Edit, Image to Video, Video Edit)에 대해 Comfy.org에 기여와 유지 관리에 대해 감사드립니다. 권위 있는 세부 사항은 아래 링크된 원본 문서 및 저장소를 참조하세요.
리소스
- XGen Universe/Capybara 프로젝트
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Capybara 템플릿 - 텍스트에서 이미지로
- 문서 / 릴리스 노트: Capybara 템플릿 - 텍스트에서 이미지로
- Comfy.org/Capybara 템플릿 - 이미지 편집
- 문서 / 릴리스 노트: Capybara 템플릿 - 이미지 편집
- Comfy.org/Capybara 템플릿 - 이미지에서 비디오로
- 문서 / 릴리스 노트: Capybara 템플릿 - 이미지에서 비디오로
- Comfy.org/Capybara 템플릿 - 비디오 편집
- 문서 / 릴리스 노트: Capybara 템플릿 - 비디오 편집
주의: 참조된 모델, 데이터세트, 코드의 사용은 저자 및 유지 관리자가 제공하는 해당 라이센스 및 조건에 따릅니다.


