Code open‑source d’inférence AI Toolkit (Diffusers) : pipeline de référence

Si vous entraînez des LoRAs avec Ostris AI Toolkit, vous avez probablement déjà rencontré ça :

Vos Samples/Previews d’entraînement dans AI Toolkit sont super.
La même LoRA donne un rendu différent en inférence dans ComfyUI, Diffusers ou un autre stack.

Dans la plupart des cas, la LoRA n’est pas « cassée » : c’est votre pipeline d’inférence qui n’est pas le même.

De petites différences s’additionnent vite : variante exacte du modèle de base, sémantique scheduler/steps, valeurs par défaut VAE/CLIP, règles de “snapping” de résolution, et même la façon d’appliquer la LoRA (adapter vs merge/fuse, quirks par famille).

Pour rendre l’inférence façon AI Toolkit plus reproductible, auditable et facile à déboguer, RunComfy publie en open source l’implémentation de référence que nous utilisons pour les LoRAs AI Toolkit, basée sur Hugging Face Diffusers.

Repo GitHub : runcomfy-com/ai-toolkit-inference

À quoi sert ce repo open source

Utilisez ce repo si vous voulez :

Reproduire les Samples/Previews AI Toolkit hors d’AI Toolkit (avec la même logique d’inférence)
Déboguer le drift “preview d’entraînement vs inférence” en inspectant/contrôlant chaque partie du pipeline
Construire votre propre service d’inférence (par exemple derrière une API) avec Diffusers

Si votre objectif est simplement « exécuter ma LoRA et retrouver le rendu des Samples », vous n’avez pas forcément besoin de lire le code : RunComfy propose aussi le même comportement via une inférence managée (Playground/API) et des workflows ComfyUI.

Contenu du repo

Le projet est conçu pour rendre le comportement de preview AI Toolkit auditable et reproductible. Il inclut généralement :

Pipelines Diffusers spécifiques au modèle de base (image, edit/control, vidéo — selon la famille)
YAML d’entraînement AI Toolkit → réglages d’inférence (le YAML comme “contrat”)
Chargement et application de LoRA (adapter vs merge/fuse ; particularités de binding par famille)
Règles de snapping de résolution pour matcher les Samples/Previews
Optionnel : exemple de serveur async (ex. FastAPI) pour servir l’inférence via une API

Lien avec RunComfy Trainer Inference

RunComfy applique la même idée de preview‑matching :

Verrouiller la variante exacte du modèle de base
Aligner les defaults d’inférence propres à la famille
Conserver le même comportement de pipeline que celui des Samples/Previews

Vous pouvez utiliser ce pipeline aligné de deux façons :

Playground / API (validation rapide + intégration)
ComfyUI (un workflow par modèle de base — chargez votre LoRA et générez des résultats “preview‑matching”)

Guides :

Parité Playground/API : AI Toolkit Inference: Get Results That Match Your Training Samples
Workflows ComfyUI preview‑match : AI Toolkit Inference in ComfyUI: Get Results That Match Your Training Samples
Débogage du drift : AI Toolkit Preview vs Inference Mismatch