ComfyUI>Workflows>Wan 2.1 Ditto | Générateur de restylisation vidéo cinématographique

Wan 2.1 Ditto | Générateur de restylisation vidéo cinématographique

Workflow Name: RunComfy/Wan-2-1-Ditto

Workflow ID: 0000...1302

Ce flux de travail vous aide à transformer des vidéos existantes ou générées en nouveaux styles artistiques tout en maintenant un mouvement stable et une structure précise. Vous pouvez appliquer des effets visuels cinématographiques, picturaux ou abstraits directement dans votre pipeline vidéo. Il offre une forte cohérence temporelle pour des transitions fluides entre les cadres. Avec des commandes intuitives, il rationalise votre processus créatif et assure des résultats cohérents et de haute qualité. Parfait pour les éditeurs et les designers en quête de sorties vidéo raffinées et stylisées.

Flux de travail de restylisation vidéo Wan 2.1 Ditto pour ComfyUI

Ce flux de travail applique Wan 2.1 Ditto pour restyliser toute vidéo d'entrée tout en préservant la structure et le mouvement de la scène. Il est conçu pour les éditeurs et créateurs qui souhaitent des looks cinématographiques, artistiques ou expérimentaux avec une forte cohérence temporelle. Vous chargez un clip, décrivez le look cible, et Wan 2.1 Ditto produit un rendu stylisé propre avec une comparaison côte à côte optionnelle pour une révision rapide.

Le graphique associe l'épine dorsale texte-à-vidéo Wan 2.1 avec le transfert de style de Ditto au niveau du modèle, de sorte que les changements se produisent de manière cohérente à travers les cadres plutôt que comme des filtres cadre par cadre. Les cas d'utilisation courants incluent les conversions en anime, l'art en pixel, la claymation, l'aquarelle, le steampunk, ou les éditions sim-à-réalité. Si vous générez déjà du contenu avec Wan, ce flux de travail Wan 2.1 Ditto s'intègre directement dans votre pipeline pour un styling vidéo fiable, sans scintillement.

Modèles clés dans le flux de travail Comfyui Wan 2.1 Ditto

Modèle texte-à-vidéo Wan2.1-T2V-14B. Sert d'épine dorsale générative qui synthétise un mouvement temporellement cohérent donné le texte et le conditionnement visuel.
Wan 2.1 VAE. Encode et décode les latents vidéo afin que l'échantillonneur puisse travailler dans un espace compact puis reconstruire les cadres en pleine résolution de manière fiable.
Encodeur de texte mT5-XXL. Convertit les invites en riches embeddings linguistiques qui orientent le contenu et le style de la scène. Pour plus d'informations sur mT5, voir l'article de Xue et al. mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer.
Modèle de stylisation Ditto pour Wan 2.1. Fournit une restylisation robuste et globale avec une forte cohérence temporelle. L'approche Ditto et les fichiers de modèle sont documentés ici : EzioBy/Ditto.
LoRA optionnel pour Wan 2.1 14B. Ajoute des changements de style ou de comportement légers sans réentraîner le modèle de base, suivant la méthode LoRA décrite dans Hu et al., 2021.

Comment utiliser le flux de travail Comfyui Wan 2.1 Ditto

Le flux de travail s'exécute en quatre étapes : charger les modèles, préparer la vidéo d'entrée, encoder le texte et les visuels, puis échantillonner et exporter. Les groupes fonctionnent en séquence pour produire à la fois un rendu stylisé et une comparaison côte à côte optionnelle.

Modèles

Ce groupe prépare tout ce dont Wan 2.1 Ditto a besoin. L'épine dorsale de base est chargée avec WanVideoModelLoader (#130) et associée au WanVideoVAELoader (#60) et LoadWanVideoT5TextEncoder (#80). Le composant Ditto est sélectionné avec WanVideoVACEModelSelect (#128), qui pointe l'épine dorsale vers les poids de stylisation Ditto dédiés. Si vous avez besoin d'une transformation plus forte, vous pouvez attacher un LoRA avec WanVideoLoraSelect (#122). WanVideoBlockSwap (#68) est disponible pour la gestion de la mémoire afin que les modèles plus grands puissent fonctionner en douceur sur une VRAM limitée.

Paramètres d'entrée

Chargez votre clip source avec VHS_LoadVideo (#101). Les cadres sont ensuite redimensionnés pour une géométrie cohérente en utilisant LayerUtility: ImageScaleByAspectRatio V2 (#76), qui préserve l'aspect tout en visant une résolution côté long contrôlée par une simple entrée entière JWInteger (#89). GetImageSizeAndCount (#65) lit les cadres préparés et transmet la largeur, la hauteur et le nombre de cadres aux nœuds en aval afin que Wan 2.1 Ditto échantillonne la taille spatiale et la durée correctes. Un petit assistant d'invite CR Text (#104) est inclus si vous préférez rédiger l'invite dans son propre champ. Le groupe intitulé "Limite de variation maximale" vous rappelle de garder la cible de pixels côté long dans une plage pratique pour des résultats cohérents et une utilisation stable de la mémoire.

Échantillonnage

Le conditionnement se fait sur deux voies parallèles. WanVideoTextEncode (#111) transforme votre invite en embeddings de texte qui définissent l'intention et le style. WanVideoVACEEncode (#126) encode la vidéo préparée en embeddings visuels qui préservent la structure et le mouvement pour l'édition. Un module de guidage optionnel WanVideoSLG (#129) contrôle comment le modèle équilibre le style et le contenu à travers la trajectoire de débruitage. WanVideoSampler (#119) fusionne ensuite l'épine dorsale Wan 2.1 avec Ditto, les embeddings de texte et les embeddings visuels pour générer des latents stylisés. Enfin, WanVideoDecode (#87) reconstruit les cadres à partir des latents pour produire la séquence stylisée avec la cohérence temporelle pour laquelle Wan 2.1 Ditto est connu.

Sorties et comparaisons

L'exportation principale utilise VHS_VideoCombine (#95) pour enregistrer le rendu Wan 2.1 Ditto à votre cadence d'images sélectionnée. Pour une révision rapide, le graphique joint les cadres originaux et stylisés en utilisant ImageConcatMulti (#94), dimensionne la comparaison avec ImageScaleToTotalPixels (#133), et écrit un film côte à côte via VHS_VideoCombine (#100). Vous obtiendrez généralement deux vidéos dans le dossier de sortie : un rendu stylisé propre et un clip de comparaison qui aide les parties prenantes à approuver ou à itérer plus rapidement.

Idées d'invite

Vous pouvez commencer avec des invites courtes et claires et itérer. Exemples qui fonctionnent bien avec Wan 2.1 Ditto :

Faites-en un style anime japonais, vidéo en cel shading.
Faites-en une vidéo en Pixel Art.
Faites-en une vidéo en style esquisse au crayon.
Faites-en une vidéo en Claymation.
Faites-en une vidéo en style dessin à l'aquarelle.
Faites-en un style Steampunk avec des engrenages, tuyaux et détails en laiton.
Faites-en un style Cyberpunk avec des néons et des implants futuristes.
Faites-en une vidéo en style Ukiyo-e.
Faites-en une vidéo en style art de la Renaissance.
Faites-en un dessin par Van Gogh.
Transformez-le en style LEGO.
Transformez-le en style Ghibli.
Transformez-le en style Chibi 3D.
Transformez-le en style découpe de papier.

Nœuds clés dans le flux de travail Comfyui Wan 2.1 Ditto

WanVideoVACEModelSelect (#128)
Choisissez quels poids Ditto utiliser pour la stylisation. Le modèle Ditto global par défaut est un choix équilibré pour la plupart des séquences. Si votre objectif est la conversion anime-à-réalité, sélectionnez la variante Ditto sim-à-réalité référencée dans la note du nœud. Changer les variantes de Ditto modifie le caractère du restylage sans toucher aux autres paramètres.

WanVideoVACEEncode (#126)
Construit le conditionnement visuel à partir de vos cadres d'entrée. Les contrôles clés sont width, height, et num_frames, qui doivent correspondre à la vidéo préparée pour de meilleurs résultats. Utilisez strength pour ajuster la manière dont le style de Ditto influence l'édition, et vace_start_percent et vace_end_percent pour limiter quand le conditionnement s'applique à travers la trajectoire de diffusion. Activez tiled_vae sur des résolutions très grandes pour réduire la pression sur la mémoire.

WanVideoTextEncode (#111)
Encode des invites positives et négatives via l'encodeur mT5-XXL pour guider le style et le contenu. Gardez les invites positives concises et descriptives, et utilisez les négatives pour supprimer les artefacts tels que le scintillement ou la sursaturation. Les options force_offload et device vous permettent d'échanger la vitesse contre la mémoire si vous utilisez de grands modèles.

WanVideoSampler (#119)
Exécute l'épine dorsale Wan 2.1 avec la stylisation Ditto pour générer les latents finaux. Les paramètres les plus impactants sont steps, cfg, scheduler, et seed. Utilisez denoise_strength lorsque vous souhaitez préserver davantage la structure originale, et gardez slg_args connecté pour équilibrer la fidélité du contenu contre la force du style. Augmenter les étapes ou le guidage peut améliorer le détail au détriment du temps.

ImageScaleByAspectRatio V2 (#76)
Définit une taille cible stable pour tous les cadres avant le conditionnement. Conduisez la cible côté long avec l'entier autonome pour pouvoir tester des aperçus petits et rapides puis augmenter la résolution pour les rendus finaux. Gardez l'échelle cohérente entre les itérations pour rendre les comparaisons A/B significatives.

VHS_LoadVideo (#101) et VHS_VideoCombine (#95, #100)
Ces nœuds gèrent le décodage et l'encodage. Faites correspondre les cadences d'images à la source lorsque vous vous souciez du timing. L'écrivain de comparaison est utile pendant l'exploration et peut être désactivé pour les exportations finales si vous ne souhaitez que le résultat stylisé.

Extras optionnels

Pour les éditions anime-à-réalité, choisissez la variante Ditto sim-à-réalité dans WanVideoVACEModelSelect avant l'échantillonnage.
Commencez avec des invites courtes comme "Faites-en un style dessin à l'aquarelle" et affinez avec 1 ou 2 descripteurs. Les longues listes ont tendance à diluer la force du style.
Utilisez des invites négatives pour réduire le scintillement, les artefacts de compression et les reflets trop brillants lorsque vous poussez des looks forts.
Gardez votre résolution côté long cohérente à travers les itérations pour stabiliser les résultats et rendre les graines reproductibles.
Lorsque la VRAM est limitée, activez les options de déchargement de modèle et de mosaïquage, ou prévisualisez à une valeur plus petite côté long avant de rendre en pleine taille.

Ce flux de travail Wan 2.1 Ditto rend la restylisation vidéo de haute qualité prévisible et rapide, avec des invites claires, un mouvement cohérent, et des sorties prêtes pour une révision ou une livraison immédiate.

Remerciements

Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement EzioBy pour Wan 2.1 Ditto Source pour leurs contributions et maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux référentiels d'origine liés ci-dessous.

Ressources

EzioBy/Wan 2.1 Ditto Source
- GitHub: EzioBy/Ditto

Remarque : L'utilisation des modèles, ensembles de données, et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformation cohérente du style vidéo

Transformez le style de votre vidéo en appliquant la première image restylée à l'aide du flux de travail Wan 2.1 video restyle.

Wan 2.1 LoRA

Améliorez la génération vidéo Wan 2.1 avec des modèles LoRA pour un style et une personnalisation améliorés.

Wan 2.1 Control LoRA | Profondeur et Tuile

Améliorez la génération vidéo Wan 2.1 avec des LoRAs légers de profondeur et de tuiles pour une structure et des détails améliorés.

Wan 2.1 | Génération Vidéo Révolutionnaire

Créez des vidéos incroyables à partir de texte ou d'images avec une IA révolutionnaire fonctionnant sur des CPU quotidiens.

Wan FusionX | T2V+I2V+VACE Complet

La solution de génération vidéo la plus puissante à ce jour ! Détails de qualité cinéma, votre studio de film personnel.

Face to Many | 3D, Emoji, Pixel, Argile, Jouet, Jeu vidéo

utilise les modèles LoRA, ControlNet et InstantID pour des transformations avancées de face-à-plusieurs

Character AI Ovi | Générateur d'Avatar Parlant

Transforme n'importe quelle photo en avatars parlants réalistes avec émotion et voix.

SUPIR + Foolhardy Remacri | Outil de mise à l'échelle 8K pour images/vidéos

Mettez les images à l'échelle 8K avec le modèle SUPIR et Foolhardy Remacri 4x.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.