Capybara ComfyUI Workflow v0.1 | Gerador de Imagens e Vídeos 4-em-1

Capybara ComfyUI Workflow Workflow

Capybara ComfyUI Workflow v0.1 | 4-in-1 Image and Video Generator

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

Capybara ComfyUI Workflow Examples

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_01.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_02.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_03.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_04.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_05.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_06.webp

Capybara ComfyUI Workflow v0.1: um modelo unificado para imagens e vídeos#

Capybara ComfyUI Workflow é um pacote de modelos 4-em-1 que abrange texto-para-imagem, edição de imagem baseada em instruções, imagem-para-vídeo e edição de vídeo baseada em prompt no ComfyUI. Ele é construído em torno do modelo de difusão Capybara v0.1 e um único pipeline unificado para que você possa alternar entre tarefas de imagem e vídeo com comportamento consistente e resultados previsíveis.

Este Capybara ComfyUI Workflow é ideal para criadores que precisam de edições guiadas por prompt, iteração rápida e predefinições de proporção de aspecto confiáveis. Cada caminho reutiliza a mesma pilha de modelos e estratégia de prompt, o que mantém a ciência das cores, composição e estilo coerentes entre as tarefas.

Modelos chave no Comfyui Capybara ComfyUI Workflow#

Capybara v0.1 (UNet de difusão). O gerador central que unifica o comportamento de imagem e vídeo; ele orienta como o conteúdo é composto e estilizado em todos os quatro modelos. Veja o repositório do projeto e o cartão do modelo para detalhes: xgen-universe/Capybara (GitHub) e xgen-universe/Capybara (Hugging Face).
Qwen2.5-VL-7B codificador de texto. Fornece forte compreensão de linguagem amigável a instruções para prompts e diretrizes de edição, melhorando o alinhamento entre o que você escreve e o que é gerado. Veja Qwen/Qwen2.5-VL-7B.
ByT5-small codificador de texto. Um codificador em nível de byte que ajuda na tokenização robusta e manuseio de texto dentro de prompts, complementando o modelo de linguagem primário. Veja google/byt5-small.
HunyuanVideo 1.5 VAE. Lida com a decodificação/codificação latente entre os ramos de imagem e vídeo para que ambos compartilhem as mesmas características de reconstrução. Veja Tencent/HunyuanVideo (GitHub) e os ativos repacotados em Comfy-Org/HunyuanVideo_1.5_repackaged.
SigCLIP Vision (patch14, 384). Fornece recursos de imagem que ajudam a preservar a estrutura e a identidade durante as edições e ao transformar imagens em vídeos. Veja Comfy-Org/sigclip_vision_384.

Como usar o Comfyui Capybara ComfyUI Workflow#

O fluxo de trabalho está organizado em quatro grupos que você pode executar de forma independente. Cada grupo compartilha a mesma pilha de modelos Capybara e estratégia de prompt, para que o estilo e a fidelidade sejam mantidos entre imagens e vídeos. Use os painéis de Tamanho e Proporção integrados para escolher entre predefinições de resolução sensatas antes de gerar.

Edição de Imagem
- Carregue uma imagem de origem com LoadImage (#80), depois abra Image Edit (Capybara v0.1) (#103). Escreva prompts no estilo de instrução, como "Mantenha o sujeito e a roupa; substitua a cena interna por um campo ensolarado". Use o prompt negativo para suprimir artefatos como "marca d'água, texto, baixa qualidade".
- O editor usa a visão CLIP para ancorar o sujeito e o layout enquanto o Capybara aplica sua instrução ao restante da cena. Isso é ótimo para trocas rápidas de fundo ou ajustes globais de aparência sem perder a identidade.
- A saída é salva por SaveImage (#102). Se precisar de uma proporção específica, defina os controles de largura/altura expostos no nó para uma das predefinições incluídas.
Texto para Imagem
- Abra o subgrafo Text to Image (Capybara v0.1) (#143) e escreva um prompt descritivo. Este ramo gera uma imagem estática limpa usando os mesmos codificadores de linguagem e agendador que os outros caminhos, então ele combina com a aparência de suas edições e vídeos.
- Adicione um prompt negativo curto para controle de qualidade. Se quiser uma saída quadrada, 16:9, 9:16 ou 4:3, escolha a predefinição correspondente no painel de Tamanho antes de executar.
- As imagens são salvas para revisão e podem ser reutilizadas como pontos de partida nos caminhos de imagem para vídeo ou edição para manter a continuidade visual.
Imagem para Vídeo
- Carregue uma imagem de referência com LoadImage (#131), depois execute o subgrafo do gerador (#130). Escreva um prompt consciente de movimento (por exemplo, "movimento lento para frente, graduação cinematográfica quente") para animar a entrada enquanto respeita sua composição e identidade.
- Sob o capô, HunyuanVideo15ImageToVideo (#115) transforma a imagem estática e seu prompt em uma sequência curta de quadros latentes que o Capybara refina. Use o controle de comprimento incluído para escolher a duração do clipe.
- Os quadros são codificados para MP4 com VHS_VideoCombine (#144) em uma taxa de quadros cinematográfica padrão. Use isso quando quiser movimento rápido e pronto para redes sociais a partir de um quadro-chave dirigido por arte.
Edição de Vídeo
- Importe um clipe com VHS_LoadVideo (#146), depois abra o subgrafo de edição (#136). Escreva uma instrução como "Mude o fundo do oceano para prado; mantenha o cavalo e o movimento".
- O caminho de edição funde a visão CLIP com seu prompt para que os sujeitos permaneçam estáveis enquanto cenas, iluminação ou clima se adaptam ao longo do tempo. Prompts negativos ajudam a suprimir cintilação ou sobreposições indesejadas.
- O resultado é compilado com VHS_VideoCombine (#145) para MP4. Escolha uma predefinição de resolução que corresponda à sua fonte para evitar esticamento.

Nós chave no Comfyui Capybara ComfyUI Workflow#

Image Edit (Capybara v0.1) (#103)
- Um editor compacto baseado em instruções que preserva a estrutura usando recursos de visão enquanto aplica sua edição de texto globalmente. Ajuste o prompt de text para descrever o que deve mudar e o que deve permanecer, depois use steps para qualidade/suavidade e cfg para equilibrar a força do prompt contra a imagem de origem. Aumente steps para mais detalhes; valores moderados de cfg geralmente mantêm as edições fiéis.
HunyuanVideo15ImageToVideo (#115)
- A ponte de imagens estáticas para movimento e o motor por trás das edições de vídeo baseadas em prompt. Cria uma sequência latente curta condicionada ao seu prompt e, quando fornecido, uma imagem inicial. Ajuste length para duração e width/height para corresponder a uma predefinição; tamanhos maiores aumentam o detalhe e o tempo de renderização. Este nó é a espinha dorsal dos grupos de Imagem para Vídeo e Edição de Vídeo, aproveitando o design do HunyuanVideo para geração temporal estável enquanto o Capybara lida com a remoção de ruído.
VHS_VideoCombine (#145)
- O finalizador que transforma quadros gerados em um MP4. Use frame_rate para controlar a cadência do movimento e crf para trocar qualidade por tamanho de arquivo. Um crf mais baixo resulta em maior qualidade, mas arquivos maiores; mantenha-o consistente em todos os projetos para que suas saídas do Capybara ComfyUI Workflow tenham uma aparência uniforme.

Extras opcionais para o Capybara ComfyUI Workflow#

Use as predefinições de Tamanho e Proporção para travar em 16:9, 9:16, 1:1 ou 4:3 em 480p, 720p, 1024 ou 1080p. Manter-se na predefinição ajuda o sampler e o VAE a permanecerem estáveis e reduz artefatos de borda.
Para um aumento de qualidade, aumente os steps de difusão nos painéis do Sampler. A renderização leva mais tempo, mas texturas finas e bordas limpas melhoram visivelmente.
Mantenha seu sujeito estável nas edições escrevendo prompts que explicitamente digam o que manter (por exemplo, "mantenha os personagens e fantasias inalterados") e empurre as mudanças de cena para o resto da frase.
Prompts negativos são sua equipe de limpeza. Entradas comuns como "borrado, marca d'água, texto" ajudam a remover sobreposições e artefatos semelhantes a compressão tanto em imagens quanto em vídeos.
Para vídeos, escolha o comprimento do clipe para corresponder à sua taxa de quadros pretendida. Os padrões são ajustados para clipes sociais curtos; sequências mais longas se beneficiam de steps ligeiramente mais altos para consistência temporal.

Este Capybara ComfyUI Workflow é projetado para minimizar o atrito de configuração: uma pilha de modelos, quatro tarefas criativas e controles consistentes. Comece com texto-para-imagem para desenvolvimento de aparência, use a edição de imagem para refinar, anime o quadro-chave com imagem-para-vídeo, depois finalize com edição de vídeo baseada em prompt para corresponder ao briefing final.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos ao XGen Universe pelo modelo e projeto Capybara, Comfy-Org pelos ativos do modelo de difusão Capybara v0.1, HunyuanVideo 1.5 VAE e a embalagem do codificador de texto Qwen2.5-VL-7B, e Comfy.org pelos modelos de fluxo de trabalho do Capybara (Texto para Imagem, Edição de Imagem, Imagem para Vídeo e Edição de Vídeo) por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.

Recursos#

Projeto XGen Universe/Capybara
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
Modelo Comfy.org/Capybara - Texto para Imagem
- Documentação / Notas de Lançamento: Modelo Capybara - Texto para Imagem
Modelo Comfy.org/Capybara - Edição de Imagem
- Documentação / Notas de Lançamento: Modelo Capybara - Edição de Imagem
Modelo Comfy.org/Capybara - Imagem para Vídeo
- Documentação / Notas de Lançamento: Modelo Capybara - Imagem para Vídeo
Modelo Comfy.org/Capybara - Edição de Vídeo
- Documentação / Notas de Lançamento: Modelo Capybara - Edição de Vídeo

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 | Geração de Vídeo Revolucionária

Crie vídeos incríveis a partir de texto ou imagens com IA revolucionária rodando em CPUs comuns.

Pyramid Flow | Geração de Vídeo

Incluindo modos de texto-para-vídeo e imagem-para-vídeo.

Insira Qualquer Coisa | Edição de Imagem Baseada em Referência

Insira qualquer assunto em imagens com orientação de máscara ou texto.

Wan FusionX | T2V+I2V+VACE Completo

A solução de geração de vídeo mais poderosa até agora! Detalhe com qualidade de cinema, seu estúdio de cinema pessoal.

LTX 2.3 Movie Builder Workflow | Gerador de Filmes com IA

Transforme prompts em histórias cinematográficas completas com total controle criativo.

ToonCrafter | Interpolação Generativa de Desenhos Animados

O ToonCrafter pode gerar interpolação de desenhos animados entre duas imagens de desenho animado.

LTX 2.3 LoRA Inferência | AI Toolkit ComfyUI

Execute seu LTX 2.3 LoRA treinado pelo AI Toolkit no ComfyUI com comportamento compatível com o treinamento usando um único nó personalizado RunComfy RC.

VOID Video Inpainting ComfyUI | Remoção Inteligente de Objetos

Apague objetos de vídeos com restauração de cena suave e consistente.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Capybara ComfyUI Workflow | Criador Unificado de Imagem e Vídeo