Capybara ComfyUI Workflow v0.1: um modelo unificado para imagens e vídeos
Capybara ComfyUI Workflow é um pacote de modelos 4-em-1 que abrange texto-para-imagem, edição de imagem baseada em instruções, imagem-para-vídeo e edição de vídeo baseada em prompt no ComfyUI. Ele é construído em torno do modelo de difusão Capybara v0.1 e um único pipeline unificado para que você possa alternar entre tarefas de imagem e vídeo com comportamento consistente e resultados previsíveis.
Este Capybara ComfyUI Workflow é ideal para criadores que precisam de edições guiadas por prompt, iteração rápida e predefinições de proporção de aspecto confiáveis. Cada caminho reutiliza a mesma pilha de modelos e estratégia de prompt, o que mantém a ciência das cores, composição e estilo coerentes entre as tarefas.
Modelos chave no Comfyui Capybara ComfyUI Workflow
- Capybara v0.1 (UNet de difusão). O gerador central que unifica o comportamento de imagem e vídeo; ele orienta como o conteúdo é composto e estilizado em todos os quatro modelos. Veja o repositório do projeto e o cartão do modelo para detalhes: xgen-universe/Capybara (GitHub) e xgen-universe/Capybara (Hugging Face).
- Qwen2.5-VL-7B codificador de texto. Fornece forte compreensão de linguagem amigável a instruções para prompts e diretrizes de edição, melhorando o alinhamento entre o que você escreve e o que é gerado. Veja Qwen/Qwen2.5-VL-7B.
- ByT5-small codificador de texto. Um codificador em nível de byte que ajuda na tokenização robusta e manuseio de texto dentro de prompts, complementando o modelo de linguagem primário. Veja google/byt5-small.
- HunyuanVideo 1.5 VAE. Lida com a decodificação/codificação latente entre os ramos de imagem e vídeo para que ambos compartilhem as mesmas características de reconstrução. Veja Tencent/HunyuanVideo (GitHub) e os ativos repacotados em Comfy-Org/HunyuanVideo_1.5_repackaged.
- SigCLIP Vision (patch14, 384). Fornece recursos de imagem que ajudam a preservar a estrutura e a identidade durante as edições e ao transformar imagens em vídeos. Veja Comfy-Org/sigclip_vision_384.
Como usar o Comfyui Capybara ComfyUI Workflow
O fluxo de trabalho está organizado em quatro grupos que você pode executar de forma independente. Cada grupo compartilha a mesma pilha de modelos Capybara e estratégia de prompt, para que o estilo e a fidelidade sejam mantidos entre imagens e vídeos. Use os painéis de Tamanho e Proporção integrados para escolher entre predefinições de resolução sensatas antes de gerar.
- Edição de Imagem
- Carregue uma imagem de origem com
LoadImage(#80), depois abraImage Edit (Capybara v0.1)(#103). Escreva prompts no estilo de instrução, como "Mantenha o sujeito e a roupa; substitua a cena interna por um campo ensolarado". Use o prompt negativo para suprimir artefatos como "marca d'água, texto, baixa qualidade". - O editor usa a visão CLIP para ancorar o sujeito e o layout enquanto o Capybara aplica sua instrução ao restante da cena. Isso é ótimo para trocas rápidas de fundo ou ajustes globais de aparência sem perder a identidade.
- A saída é salva por
SaveImage(#102). Se precisar de uma proporção específica, defina os controles de largura/altura expostos no nó para uma das predefinições incluídas.
- Carregue uma imagem de origem com
- Texto para Imagem
- Abra o subgrafo
Text to Image (Capybara v0.1)(#143) e escreva um prompt descritivo. Este ramo gera uma imagem estática limpa usando os mesmos codificadores de linguagem e agendador que os outros caminhos, então ele combina com a aparência de suas edições e vídeos. - Adicione um prompt negativo curto para controle de qualidade. Se quiser uma saída quadrada, 16:9, 9:16 ou 4:3, escolha a predefinição correspondente no painel de Tamanho antes de executar.
- As imagens são salvas para revisão e podem ser reutilizadas como pontos de partida nos caminhos de imagem para vídeo ou edição para manter a continuidade visual.
- Abra o subgrafo
- Imagem para Vídeo
- Carregue uma imagem de referência com
LoadImage(#131), depois execute o subgrafo do gerador (#130). Escreva um prompt consciente de movimento (por exemplo, "movimento lento para frente, graduação cinematográfica quente") para animar a entrada enquanto respeita sua composição e identidade. - Sob o capô,
HunyuanVideo15ImageToVideo(#115) transforma a imagem estática e seu prompt em uma sequência curta de quadros latentes que o Capybara refina. Use o controle de comprimento incluído para escolher a duração do clipe. - Os quadros são codificados para MP4 com
VHS_VideoCombine(#144) em uma taxa de quadros cinematográfica padrão. Use isso quando quiser movimento rápido e pronto para redes sociais a partir de um quadro-chave dirigido por arte.
- Carregue uma imagem de referência com
- Edição de Vídeo
- Importe um clipe com
VHS_LoadVideo(#146), depois abra o subgrafo de edição (#136). Escreva uma instrução como "Mude o fundo do oceano para prado; mantenha o cavalo e o movimento". - O caminho de edição funde a visão CLIP com seu prompt para que os sujeitos permaneçam estáveis enquanto cenas, iluminação ou clima se adaptam ao longo do tempo. Prompts negativos ajudam a suprimir cintilação ou sobreposições indesejadas.
- O resultado é compilado com
VHS_VideoCombine(#145) para MP4. Escolha uma predefinição de resolução que corresponda à sua fonte para evitar esticamento.
- Importe um clipe com
Nós chave no Comfyui Capybara ComfyUI Workflow
Image Edit (Capybara v0.1)(#103)- Um editor compacto baseado em instruções que preserva a estrutura usando recursos de visão enquanto aplica sua edição de texto globalmente. Ajuste o prompt de
textpara descrever o que deve mudar e o que deve permanecer, depois usestepspara qualidade/suavidade ecfgpara equilibrar a força do prompt contra a imagem de origem. Aumentestepspara mais detalhes; valores moderados decfggeralmente mantêm as edições fiéis.
- Um editor compacto baseado em instruções que preserva a estrutura usando recursos de visão enquanto aplica sua edição de texto globalmente. Ajuste o prompt de
HunyuanVideo15ImageToVideo(#115)- A ponte de imagens estáticas para movimento e o motor por trás das edições de vídeo baseadas em prompt. Cria uma sequência latente curta condicionada ao seu prompt e, quando fornecido, uma imagem inicial. Ajuste
lengthpara duração ewidth/heightpara corresponder a uma predefinição; tamanhos maiores aumentam o detalhe e o tempo de renderização. Este nó é a espinha dorsal dos grupos de Imagem para Vídeo e Edição de Vídeo, aproveitando o design do HunyuanVideo para geração temporal estável enquanto o Capybara lida com a remoção de ruído.
- A ponte de imagens estáticas para movimento e o motor por trás das edições de vídeo baseadas em prompt. Cria uma sequência latente curta condicionada ao seu prompt e, quando fornecido, uma imagem inicial. Ajuste
VHS_VideoCombine(#145)- O finalizador que transforma quadros gerados em um MP4. Use
frame_ratepara controlar a cadência do movimento ecrfpara trocar qualidade por tamanho de arquivo. Umcrfmais baixo resulta em maior qualidade, mas arquivos maiores; mantenha-o consistente em todos os projetos para que suas saídas do Capybara ComfyUI Workflow tenham uma aparência uniforme.
- O finalizador que transforma quadros gerados em um MP4. Use
Extras opcionais para o Capybara ComfyUI Workflow
- Use as predefinições de Tamanho e Proporção para travar em 16:9, 9:16, 1:1 ou 4:3 em 480p, 720p, 1024 ou 1080p. Manter-se na predefinição ajuda o sampler e o VAE a permanecerem estáveis e reduz artefatos de borda.
- Para um aumento de qualidade, aumente os
stepsde difusão nos painéis do Sampler. A renderização leva mais tempo, mas texturas finas e bordas limpas melhoram visivelmente. - Mantenha seu sujeito estável nas edições escrevendo prompts que explicitamente digam o que manter (por exemplo, "mantenha os personagens e fantasias inalterados") e empurre as mudanças de cena para o resto da frase.
- Prompts negativos são sua equipe de limpeza. Entradas comuns como "borrado, marca d'água, texto" ajudam a remover sobreposições e artefatos semelhantes a compressão tanto em imagens quanto em vídeos.
- Para vídeos, escolha o comprimento do clipe para corresponder à sua taxa de quadros pretendida. Os padrões são ajustados para clipes sociais curtos; sequências mais longas se beneficiam de
stepsligeiramente mais altos para consistência temporal.
Este Capybara ComfyUI Workflow é projetado para minimizar o atrito de configuração: uma pilha de modelos, quatro tarefas criativas e controles consistentes. Comece com texto-para-imagem para desenvolvimento de aparência, use a edição de imagem para refinar, anime o quadro-chave com imagem-para-vídeo, depois finalize com edição de vídeo baseada em prompt para corresponder ao briefing final.
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos ao XGen Universe pelo modelo e projeto Capybara, Comfy-Org pelos ativos do modelo de difusão Capybara v0.1, HunyuanVideo 1.5 VAE e a embalagem do codificador de texto Qwen2.5-VL-7B, e Comfy.org pelos modelos de fluxo de trabalho do Capybara (Texto para Imagem, Edição de Imagem, Imagem para Vídeo e Edição de Vídeo) por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.
Recursos
- Projeto XGen Universe/Capybara
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Modelo Comfy.org/Capybara - Texto para Imagem
- Documentação / Notas de Lançamento: Modelo Capybara - Texto para Imagem
- Modelo Comfy.org/Capybara - Edição de Imagem
- Documentação / Notas de Lançamento: Modelo Capybara - Edição de Imagem
- Modelo Comfy.org/Capybara - Imagem para Vídeo
- Documentação / Notas de Lançamento: Modelo Capybara - Imagem para Vídeo
- Modelo Comfy.org/Capybara - Edição de Vídeo
- Documentação / Notas de Lançamento: Modelo Capybara - Edição de Vídeo
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
