LTX 2.3 Sulphur 2 texte vers vidéo workflow pour l'animation de personnages cinématographiques#
Ce pipeline ComfyUI transforme les invites en langage naturel en vidéos courtes, cinématographiques, axées sur les personnages avec audio optionnel, construit autour des composants Lightricks LTX‑2.3 et Sulphur 2. Il met en scène la génération en basse résolution pour la planification du mouvement, augmente la séquence latente, puis affine en haute résolution avant de décoder en images et de multiplexage une piste audio synchronisée.
Le workflow LTX 2.3 Sulphur 2 texte vers vidéo est idéal pour des tests rapides d'animation de personnages, des concepts de mouvement de style D‑Human, et des expérimentations de texte vers vidéo polies. Il ne repose pas sur des entrées image‑vers‑vidéo ou des relais d'invite; tout commence par du texte, avec le conditionnement LTXV guidant à la fois les latents vidéo et audio de bout en bout.
Modèles clés dans Comfyui LTX 2.3 Sulphur 2 texte vers vidéo workflow#
- Lightricks LTX‑2.3. Générateur de texte‑vers‑vidéo de base utilisé pour la synthèse spatio-temporelle et les latents AV multimodaux. Voir le dépôt officiel du modèle pour les poids et les notes sur les capacités et les limitations. Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX‑2.3 FP8 point de contrôle. Variante économe en mémoire de LTX‑2.3 qui accélère l'inférence et permet des clips plus longs ou des résolutions plus élevées sur des GPU contraints. Hugging Face: Lightricks/LTX-2.3-fp8
- Modèle de base Sulphur 2. Fournit des priorités de style et des détails de personnage via LoRA dans ce workflow, aidant à obtenir des visages nets et une tonalité cinématographique. Hugging Face: SulphurAI/Sulphur-2-base
- LTX‑2.3 Spatial Upscaler x2 1.1. Upscaler d'espace latent qui augmente le détail spatial avant le passage de raffinement haute résolution. Hugging Face: Lightricks/LTX-2.3
- Encodeur de texte LTX (Gemma 3 12B IT emballé pour LTX). Fournit l'espace d'intégration de texte assorti au conditionnement LTX‑2.3 pour un suivi fidèle de l'invite. Hugging Face: Comfy-Org/ltx-2
- LTX Audio VAE. Décode le latent audio généré en parallèle avec la vidéo afin que le rendu final puisse inclure une bande sonore synchronisée. Hugging Face: Lightricks/LTX-2.3
Comment utiliser Comfyui LTX 2.3 Sulphur 2 texte vers vidéo workflow#
Logique générale Le pipeline fonctionne en trois actes : génération en basse résolution pour établir le mouvement et la composition, mise à l'échelle latente pour augmenter le détail spatial, et un passage de raffinement haute résolution qui produit également l'audio final. Les latents sont décodés en images et en formes d'onde, puis multiplexés dans un conteneur MP4 prêt pour la livraison.
Paramètres Vidéo Utilisez le groupe “Paramètres Vidéo” pour définir la largeur, la hauteur, la cadence et la durée. Le nombre d'images est calculé automatiquement à partir de votre durée et fps pour que le timing et la cadence restent cohérents. Ces valeurs déterminent l'allocation et le décodage des latents, alors définissez-les d'abord pour correspondre à votre rapport d'aspect cible et votre durée. Ajuster le fps ici informe également le conditionnement pour que la fluidité du mouvement et l'alignement audio utilisent la même horloge.
Invite Dans “Invite”, chargez l'encodeur de texte LTX avec LTXAVTextEncoderLoader (#316), puis écrivez votre description positive dans CLIPTextEncode (#303) et tout trait indésirable dans CLIPTextEncode (#312). Le nœud LTXVConditioning (#304) fusionne les conditionnements positif et négatif et ajoute la cadence choisie pour que l'orientation temporelle corresponde à votre fps. Traitez l'invite positive comme un brief de tournage : sujet, caméra, éclairage, ambiance et indications de style. Gardez la liste négative centrée sur les artefacts que vous voyez régulièrement et que vous souhaitez supprimer.
Modèle Le groupe “Modèle” charge le point de contrôle principal via CheckpointLoaderSimple (#315) et applique un Sulphur 2 LoRA avec LoraLoaderModelOnly (#285) pour infuser texture cinématographique et fidélité des personnages. C'est ici que vous pouvez échanger des points de contrôle ou des LoRAs pour changer l'apparence générale et les priorités de mouvement. La sortie du modèle est acheminée vers les guides initial et de raffinement pour que le style et l'identité soient cohérents à travers les passages. Associer LTX‑2.3 avec Sulphur 2 produit un contraste percutant et des visages détaillés qui se lisent bien en mouvement.
Conversion de nombre Les expressions utilitaires convertissent votre fps et vos secondes en nombre entier d'images utilisé en aval. Cela maintient les chronologies audio et vidéo alignées sans mathématiques manuelles. Si vous modifiez le fps ou la durée plus tard, le graphe met à jour automatiquement les nœuds dépendants.
Latent Vide “Latent Vide” crée des conteneurs alignés pour la génération : EmptyLTXVLatentVideo (#295) définit la taille spatiale et la longueur du latent vidéo, LTXVEmptyLatentAudio (#305) alloue le latent audio à la même cadence, et LTXVConcatAVLatent (#321) les fusionne en un seul latent AV. Partir de latents vides garantit que le passage de diffusion reflète pleinement votre invite et votre conditionnement plutôt que tout contenu préexistant.
Générer Basse Résolution La première étape d'échantillonnage établit le mouvement et la composition à moindre coût. CFGGuider (#313), KSamplerSelect (#291), et ManualSigmas (#306) régissent à quel point l'invite dirige la génération et le calendrier global du bruit. SamplerCustomAdvanced (#283) débruite ensuite le latent AV en un clip cohérent. Le résultat est divisé par LTXVSeparateAVLatent (#307), et LTXVCropGuides (#284) affine l'attention spatiale pour que le cadrage du sujet que vous souhaitez soit préservé lors de la mise à l'échelle ultérieure.
Mise à l'échelle Latente LTXVLatentUpsampler (#287) utilise l'upscaler x2 LTX‑2.3 pour augmenter le détail spatial tout en restant dans l'espace latent pour la rapidité et la stabilité. Alimenter le latent vidéo mis à l'échelle améliore la texture et la lisibilité avant le raffinement haute résolution. Cela préserve le mouvement que vous avez aimé du premier passage tout en ouvrant une marge de manœuvre pour des bords plus nets et des matériaux plus riches.
Générer Haute Résolution Le latent vidéo mis à l'échelle est rejoint avec le latent audio dans LTXVConcatAVLatent (#278) et guidé à nouveau pour la qualité finale. CFGGuider (#282), KSamplerSelect (#280), et ManualSigmas (#281) donnent le dernier mot sur la force de l'invite, le détail et la cohérence temporelle, avec SamplerCustomAdvanced (#308) produisant le latent AV raffiné. LTXVSeparateAVLatent (#309) remet la vidéo à VAEDecodeTiled (#314) pour un décodage des images respectueux de la mémoire et l'audio à LTXVAudioVAEDecode (#297) pour la reconstruction de la forme d'onde. CreateVideo (#310) multiplexe les images et l'audio à votre fps cible, et SaveVideo (#75) écrit un fichier MP4/H.264.
Prétraitement d'Image Cette zone achemine les modèles VAE de base et d'upscaler pour que le carrelage et la mise à l'échelle latente fonctionnent dans votre budget VRAM. Si vous ressentez une pression sur la mémoire, privilégiez les poids FP8 LTX‑2.3 et gardez le décodage en carrelage activé pour maintenir le débit et la qualité.
Nœuds clés dans Comfyui LTX 2.3 Sulphur 2 texte vers vidéo workflow#
LTXVConditioning (#304) Fusionne les conditionnements de texte positifs et négatifs et attache la cadence de travail pour que l'orientation temporelle corresponde à votre rendu. Un langage de scène fort et spécifique améliore la structure du plan ; des négatifs concis réduisent les artefacts. Voir la carte du modèle LTX‑2.3 pour les notes de conditionnement. Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) Dirige doucement la composition pour garder le sujet principal cadré comme prévu. Utilisez-le pour protéger la taille du visage, le placement de l'horizon, ou un sujet centré avant la mise à l'échelle et le raffinement. Il est particulièrement utile pour les plans de style dialogue et les gros plans moyens.
CFGGuider (#313, #282) Contrôle à quel point l'invite influence agressivement la trajectoire de diffusion dans les deux passages. Utilisez le premier guide pour verrouiller le mouvement et la mise en scène, puis le second pour ajouter de la netteté sans s'écarter du plan établi.
ManualSigmas (#306, #281) Définit le calendrier du bruit. Mettre plus de bruit au début encourage une exploration du mouvement plus large ; un calendrier plus doux renforce la cohérence temporelle. Gardez les calendriers basse résolution et haute résolution complémentaires plutôt qu'identiques.
LTXVLatentUpsampler (#287) Effectue une mise à l'échelle latente x2 en utilisant l'upscaler officiel LTX pour gagner en détail avant l'échantillonneur de raffinement. Passer à une autre variante d'upscaler LTX‑2.3 peut légèrement changer la netteté et le grain. Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) Décode des clips longs ou larges en tuiles gérables pour éviter les pics de VRAM. Si vous changez la taille spatiale ou la longueur du clip, ajustez le carrelage pour équilibrer la marge de manœuvre mémoire et la vitesse de décodage.
LoraLoaderModelOnly (#285) Applique le Sulphur 2 LoRA au chemin de modèle de base pour que la fidélité des personnages et les indications de style se transfèrent dans les deux étapes d'échantillonnage. Utilisez ceci pour changer rapidement d'apparence tout en gardant la même base LTX‑2.3. Hugging Face: SulphurAI/Sulphur-2-base
Extras optionnels#
- Contrôle des graines : définissez des valeurs fixes dans les deux nœuds
RandomNoisepour que les prises soient reproductibles ; changez une graine pour explorer des alternatives. - Invitation : rédigez les invitations comme des directives de plan (sujet, caméra, éclairage, ambiance). Gardez la liste négative concise et courte.
- Performance : si la VRAM est limitée, préférez les poids FP8 LTX‑2.3 et gardez le décodage en carrelage activé.
- Sortie : le graphe écrit MP4/H.264; changez le conteneur ou le codec dans
SaveVideosi vous avez besoin de workflows proxy ProRes.
Ce workflow LTX 2.3 Sulphur 2 texte vers vidéo offre un chemin clair et de bout en bout de l'invite à la vidéo polie avec audio synchronisé, conçu pour une itération rapide sur l'animation de personnages cinématographiques.
Remerciements#
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement RunningHub pour le Workflow de Base Sulphur2 pour la Production Vidéo, SulphurAI pour le modèle de base Sulphur-2, Lightricks pour les modèles LTX-2.3 et LTX-2.3-fp8, et Comfy-Org pour l'encodeur de texte LTX-2 pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.
Ressources#
- RunningHub/Sulphur2 Basic Workflow for Video Production
- Docs / Notes de version: Sulphur2 Basic Workflow for Video Production
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.


