Código open‑source de inferência AI Toolkit (Diffusers): pipeline de referência

Se você treina LoRAs com o Ostris AI Toolkit, provavelmente já passou por isso:

Os Samples/Previews de treino no AI Toolkit ficam ótimos.
A mesma LoRA parece diferente ao fazer inferência no ComfyUI, Diffusers ou em outro stack.

Na maioria dos casos, a LoRA não está “quebrada” — o que mudou foi o seu pipeline de inferência.

Pequenas diferenças somam rápido: variante exata do modelo base, semântica de scheduler/passos, padrões de VAE/CLIP, regras de “snapping” de resolução e até como a LoRA é aplicada (adapter vs merge/fuse e quirks por família).

Para tornar a inferência no estilo AI Toolkit mais reproduzível, auditável e fácil de depurar, a RunComfy publica como open source a implementação de referência que usamos para LoRAs do AI Toolkit, construída com Hugging Face Diffusers.

Repo no GitHub: runcomfy-com/ai-toolkit-inference

Para que serve este repo open source

Use este repo quando você quiser:

Reproduzir Samples/Previews do AI Toolkit fora do AI Toolkit (com a mesma lógica)
Depurar o “drift” entre preview e inferência inspecionando e controlando cada parte do pipeline
Construir seu próprio serviço de inferência (por exemplo, atrás de uma API) com Diffusers

Se o seu objetivo é apenas “rodar minha LoRA e bater com os Samples”, talvez você nem precise ler o código — a RunComfy também entrega o mesmo comportamento via inferência gerenciada (Playground/API) e workflows de ComfyUI.

O que tem dentro do repo

O projeto é desenhado para tornar o comportamento de preview do AI Toolkit auditável e reproduzível. Normalmente inclui:

Pipelines Diffusers específicos por modelo base (imagem, edit/control, vídeo — conforme a família)
YAML de treino do AI Toolkit → configurações de inferência (o YAML como “contrato”)
Carregamento e aplicação de LoRA (adapter vs merge/fuse; quirks de binding por família)
Regras de snapping de resolução para bater com Samples/Previews
Opcional: exemplo de servidor assíncrono (ex.: FastAPI) para rodar inferência atrás de uma API

Como isso se relaciona com o RunComfy Trainer Inference

A RunComfy usa a mesma ideia de preview‑matching:

Fixar a variante exata do modelo base
Alinhar os defaults de inferência da família
Manter o mesmo comportamento de pipeline que gerou os Samples/Previews do treino

Você pode usar esse pipeline alinhado de duas formas:

Playground / API (validação rápida + integração)
ComfyUI (um workflow por modelo base — carregue sua LoRA e gere resultados “preview‑matching”)

Guias:

Paridade Playground/API: AI Toolkit Inference: Get Results That Match Your Training Samples
Workflows preview‑match no ComfyUI: AI Toolkit Inference in ComfyUI: Get Results That Match Your Training Samples
Depurar drift: AI Toolkit Preview vs Inference Mismatch