Ce flux de travail applique Wan 2.1 Ditto pour restyliser toute vidéo d'entrée tout en préservant la structure et le mouvement de la scène. Il est conçu pour les éditeurs et créateurs qui souhaitent des looks cinématographiques, artistiques ou expérimentaux avec une forte cohérence temporelle. Vous chargez un clip, décrivez le look cible, et Wan 2.1 Ditto produit un rendu stylisé propre avec une comparaison côte à côte optionnelle pour une révision rapide.
Le graphique associe l'épine dorsale texte-à-vidéo Wan 2.1 avec le transfert de style de Ditto au niveau du modèle, de sorte que les changements se produisent de manière cohérente à travers les cadres plutôt que comme des filtres cadre par cadre. Les cas d'utilisation courants incluent les conversions en anime, l'art en pixel, la claymation, l'aquarelle, le steampunk, ou les éditions sim-à-réalité. Si vous générez déjà du contenu avec Wan, ce flux de travail Wan 2.1 Ditto s'intègre directement dans votre pipeline pour un styling vidéo fiable, sans scintillement.
Le flux de travail s'exécute en quatre étapes : charger les modèles, préparer la vidéo d'entrée, encoder le texte et les visuels, puis échantillonner et exporter. Les groupes fonctionnent en séquence pour produire à la fois un rendu stylisé et une comparaison côte à côte optionnelle.
Ce groupe prépare tout ce dont Wan 2.1 Ditto a besoin. L'épine dorsale de base est chargée avec WanVideoModelLoader (#130) et associée au WanVideoVAELoader (#60) et LoadWanVideoT5TextEncoder (#80). Le composant Ditto est sélectionné avec WanVideoVACEModelSelect (#128), qui pointe l'épine dorsale vers les poids de stylisation Ditto dédiés. Si vous avez besoin d'une transformation plus forte, vous pouvez attacher un LoRA avec WanVideoLoraSelect (#122). WanVideoBlockSwap (#68) est disponible pour la gestion de la mémoire afin que les modèles plus grands puissent fonctionner en douceur sur une VRAM limitée.
Chargez votre clip source avec VHS_LoadVideo (#101). Les cadres sont ensuite redimensionnés pour une géométrie cohérente en utilisant LayerUtility: ImageScaleByAspectRatio V2 (#76), qui préserve l'aspect tout en visant une résolution côté long contrôlée par une simple entrée entière JWInteger (#89). GetImageSizeAndCount (#65) lit les cadres préparés et transmet la largeur, la hauteur et le nombre de cadres aux nœuds en aval afin que Wan 2.1 Ditto échantillonne la taille spatiale et la durée correctes. Un petit assistant d'invite CR Text (#104) est inclus si vous préférez rédiger l'invite dans son propre champ. Le groupe intitulé "Limite de variation maximale" vous rappelle de garder la cible de pixels côté long dans une plage pratique pour des résultats cohérents et une utilisation stable de la mémoire.
Le conditionnement se fait sur deux voies parallèles. WanVideoTextEncode (#111) transforme votre invite en embeddings de texte qui définissent l'intention et le style. WanVideoVACEEncode (#126) encode la vidéo préparée en embeddings visuels qui préservent la structure et le mouvement pour l'édition. Un module de guidage optionnel WanVideoSLG (#129) contrôle comment le modèle équilibre le style et le contenu à travers la trajectoire de débruitage. WanVideoSampler (#119) fusionne ensuite l'épine dorsale Wan 2.1 avec Ditto, les embeddings de texte et les embeddings visuels pour générer des latents stylisés. Enfin, WanVideoDecode (#87) reconstruit les cadres à partir des latents pour produire la séquence stylisée avec la cohérence temporelle pour laquelle Wan 2.1 Ditto est connu.
L'exportation principale utilise VHS_VideoCombine (#95) pour enregistrer le rendu Wan 2.1 Ditto à votre cadence d'images sélectionnée. Pour une révision rapide, le graphique joint les cadres originaux et stylisés en utilisant ImageConcatMulti (#94), dimensionne la comparaison avec ImageScaleToTotalPixels (#133), et écrit un film côte à côte via VHS_VideoCombine (#100). Vous obtiendrez généralement deux vidéos dans le dossier de sortie : un rendu stylisé propre et un clip de comparaison qui aide les parties prenantes à approuver ou à itérer plus rapidement.
Vous pouvez commencer avec des invites courtes et claires et itérer. Exemples qui fonctionnent bien avec Wan 2.1 Ditto :
WanVideoVACEModelSelect (#128)
Choisissez quels poids Ditto utiliser pour la stylisation. Le modèle Ditto global par défaut est un choix équilibré pour la plupart des séquences. Si votre objectif est la conversion anime-à-réalité, sélectionnez la variante Ditto sim-à-réalité référencée dans la note du nœud. Changer les variantes de Ditto modifie le caractère du restylage sans toucher aux autres paramètres.
WanVideoVACEEncode (#126)
Construit le conditionnement visuel à partir de vos cadres d'entrée. Les contrôles clés sont width, height, et num_frames, qui doivent correspondre à la vidéo préparée pour de meilleurs résultats. Utilisez strength pour ajuster la manière dont le style de Ditto influence l'édition, et vace_start_percent et vace_end_percent pour limiter quand le conditionnement s'applique à travers la trajectoire de diffusion. Activez tiled_vae sur des résolutions très grandes pour réduire la pression sur la mémoire.
WanVideoTextEncode (#111)
Encode des invites positives et négatives via l'encodeur mT5-XXL pour guider le style et le contenu. Gardez les invites positives concises et descriptives, et utilisez les négatives pour supprimer les artefacts tels que le scintillement ou la sursaturation. Les options force_offload et device vous permettent d'échanger la vitesse contre la mémoire si vous utilisez de grands modèles.
WanVideoSampler (#119)
Exécute l'épine dorsale Wan 2.1 avec la stylisation Ditto pour générer les latents finaux. Les paramètres les plus impactants sont steps, cfg, scheduler, et seed. Utilisez denoise_strength lorsque vous souhaitez préserver davantage la structure originale, et gardez slg_args connecté pour équilibrer la fidélité du contenu contre la force du style. Augmenter les étapes ou le guidage peut améliorer le détail au détriment du temps.
ImageScaleByAspectRatio V2 (#76)
Définit une taille cible stable pour tous les cadres avant le conditionnement. Conduisez la cible côté long avec l'entier autonome pour pouvoir tester des aperçus petits et rapides puis augmenter la résolution pour les rendus finaux. Gardez l'échelle cohérente entre les itérations pour rendre les comparaisons A/B significatives.
VHS_LoadVideo (#101) et VHS_VideoCombine (#95, #100)
Ces nœuds gèrent le décodage et l'encodage. Faites correspondre les cadences d'images à la source lorsque vous vous souciez du timing. L'écrivain de comparaison est utile pendant l'exploration et peut être désactivé pour les exportations finales si vous ne souhaitez que le résultat stylisé.
WanVideoVACEModelSelect avant l'échantillonnage.Ce flux de travail Wan 2.1 Ditto rend la restylisation vidéo de haute qualité prévisible et rapide, avec des invites claires, un mouvement cohérent, et des sorties prêtes pour une révision ou une livraison immédiate.
Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement EzioBy pour Wan 2.1 Ditto Source pour leurs contributions et maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux référentiels d'origine liés ci-dessous.
Remarque : L'utilisation des modèles, ensembles de données, et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.