Janus-Pro | Modelo de Texto-para-Imagem + Imagem-para-Texto

Os nós do Janus-Pro e seu fluxo de trabalho associado são totalmente desenvolvidos por CY-CHENYUE. Damos todo o crédito a CY-CHENYUE por este trabalho inovador. Na plataforma RunComfy, estamos simplesmente apresentando as contribuições de CY-CHENYUE para a comunidade. É importante notar que atualmente não há conexão formal ou parceria entre RunComfy e CY-CHENYUE. Apreciamos profundamente o trabalho de CY-CHENYUE!

ComfyUI Janus-Pro Workflow

JanusPro | Text-to-Image + Image-to-Text Model

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Janus-Pro Examples

januspro-text-to-image-image-to-text-model-1190-example_01.webp

januspro-text-to-image-image-to-text-model-1190-example_02.webp

januspro-text-to-image-image-to-text-model-1190-example_03.webp

januspro-text-to-image-image-to-text-model-1190-example_04.webp

januspro-text-to-image-image-to-text-model-1190-example_05.webp

januspro-text-to-image-image-to-text-model-1190-example_06.webp

januspro-text-to-image-image-to-text-model-1190-example_07.webp

januspro-text-to-image-image-to-text-model-1190-example_08.webp

januspro-text-to-image-image-to-text-model-1190-example_09.webp

januspro-text-to-image-image-to-text-model-1190-example_10.webp

Janus-Pro é uma estrutura autoregressiva de ponta que unifica a compreensão e geração multimodal, abordando limitações chave das abordagens anteriores. Ao desacoplar a codificação visual em caminhos separados enquanto mantém uma única arquitetura de transformador, Janus-Pro elimina conflitos entre percepção e síntese, aprimorando tanto a flexibilidade quanto o desempenho em IA multimodal. Com o Janus-Pro, os usuários podem alcançar um equilíbrio mais refinado entre compreensão visual e geração de conteúdo, tornando o Janus-Pro uma escolha superior para soluções de IA de próxima geração.

No núcleo do design do Janus-Pro está sua estratégia inovadora de codificação visual de duplo caminho, que permite que o Janus-Pro processe entradas visuais de forma mais eficaz sem sacrificar suas capacidades generativas. Ao contrário dos modelos unificados tradicionais que têm dificuldade em equilibrar compreensão e geração, o Janus-Pro otimiza ambas as tarefas atribuindo a elas caminhos de codificação dedicados, enquanto ainda aproveita um único e poderoso transformador para processamento. Esta abordagem permite que o Janus-Pro se adapte perfeitamente a diversas tarefas multimodais, desde síntese de imagens até geração guiada por texto, reforçando a capacidade do Janus-Pro de superar estruturas de IA existentes.

Um grande desafio em modelos multimodais unificados é manter alto desempenho em uma ampla gama de tarefas sem exigir arquiteturas específicas para tarefas. O Janus-Pro supera isso com sua estrutura simplificada, mas altamente adaptável, superando modelos unificados anteriores e até mesmo igualando ou superando o desempenho de soluções especializadas em tarefas específicas. Com sua simplicidade, flexibilidade e eficácia superior, o Janus-Pro representa um avanço significativo em IA multimodal. O Janus-Pro está estabelecendo um novo referencial para modelos unificados de próxima geração, provando que o Janus-Pro é o futuro da tecnologia de IA multimodal.

1.1 Como Usar o Fluxo de Trabalho do Janus-Pro?#

Você pode usar o fluxo de trabalho do Janus-Pro de 2 maneiras

Geração de Imagem Janus-Pro
Descrição de Imagem Janus-Pro (OCR, Legendas, Descrever...etc)

1.2 Geração de Imagem Janus-Pro#

O Amostrador de Geração de Imagem Janus permite que você insira prompts.
Você pode usar o modelo Janus-Pro-1B ou Janus-Pro-7B.
A geração de imagem Janus-Pro está atualmente restrita a uma proporção de 1:1 Quadrado (384*384 px).

Os modelos Janus-Pro serão baixados automaticamente em sua máquina runcomfy na nuvem ao executar pela primeira vez. Isso pode levar de 2 a 5 minutos quando em fila pela primeira vez. Links dos Modelos -

Janus-Pro-1B - https://huggingface.co/deepseek-ai/Janus-Pro-1B
Janus-Pro-7B - https://huggingface.co/deepseek-ai/Janus-Pro-7B

Os modelos serão baixados em: Comfyui/models/Janus-Pro

1.3 Descrição de Imagem Janus-Pro#

Clique e carregue uma imagem no Nó de Carregamento de Imagem para processamento Janus-Pro.
Você pode realizar: OCR, Legendas, Descrição Detalhada usando o Nó de Compreensão de Imagem Janus-Pro. Basta digitar sua solicitação na Caixa de Tipo fornecida no nó.

Exemplo de Pergunta: "Descreva esta imagem em detalhe, onde está localizada, o que está escrito nela... etc."

Janus-Pro estabelece um novo padrão para IA multimodal ao integrar perfeitamente compreensão e geração dentro de uma estrutura unificada. A inovadora codificação de duplo caminho do Janus-Pro melhora a flexibilidade, resolvendo conflitos que prejudicam modelos tradicionais. Ao superar arquiteturas unificadas anteriores e rivalizar com soluções específicas para tarefas, o Janus-Pro abre caminho para sistemas de IA mais eficientes e versáteis. Como uma estrutura poderosa e adaptável, o Janus-Pro está na vanguarda da inteligência multimodal de próxima geração, provando que o Janus-Pro é o futuro da IA multimodal.

Want More ComfyUI Workflows?

Stable Diffusion 3.5

Stable Diffusion 3.5 (SD3.5) para geração de imagens diversificada e de alta qualidade.

Stable Diffusion 3.5 vs FLUX.1

Compare Stable Diffusion 3.5 e FLUX.1 em um fluxo de trabalho ComfyUI.

ComfyUI PhotoMakerV2 | Criar Fotos Realistas

Crie fotos personalizadas realistas a partir de prompts de texto enquanto preserva a identidade

InstantID | Rosto para Adesivo

Utilize o Instant ID e o IPAdapter para criar adesivos de rosto incríveis e personalizáveis.

LongCat Avatar no ComfyUI | Animação de Avatar Consistente em Identidade

Transforma uma imagem em animação de avatar suave e consistente em identidade.

Wan2.1 Stand In | Criador de Vídeos com Personagens Consistentes

Mantém personagens consistentes em vídeos a partir de apenas uma imagem de referência.

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

FLUX.2 Klein 9B LoRA Inferência | AI Toolkit ComfyUI

Gere saídas FLUX.2 Klein 9B LoRA correspondentes ao treinamento no ComfyUI através dos nós de inferência alinhados ao pipeline do AI Toolkit.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Janus-Pro | Modelo T2I + I2T