ComfyUI MOSS TTS Workflow

Хотите запустить этот рабочий процесс?

Полностью функциональные рабочие процессы
Нет недостающих узлов или моделей
Не требуется ручная настройка
Отличается потрясающей визуализацией

ComfyUI MOSS TTS Examples

ComfyUI MOSS TTS: преобразование текста в речь, клонирование голоса, SFX и диалоги в одном рабочем процессе#

Этот рабочий процесс ComfyUI MOSS TTS преобразует текст в яркую речь 24 кГц с использованием семейства OpenMOSS MOSS-TTS. Он охватывает быстрое синтезирование одного говорящего, клонирование голоса zero-shot из короткого эталонного клипа, описательный дизайн голоса, процедурные звуковые эффекты и многоголосые диалоги с опциональными эталонными записями для каждого говорящего.

Основан на официальной стеке узлов MOSS-TTS и семейства моделей, он балансирует скорость и качество. Локальный путь 1.7B — это практичный быстрый путь на одном GPU, в то время как более крупные модели Delay 8B обменивают скорость на более широкие возможности и выразительность. Если вам нужны повторно используемые подсказки, клонированные голоса или диалоги внутри ComfyUI, этот рабочий процесс ComfyUI MOSS TTS создан для вас.

Ключевые модели в рабочем процессе Comfyui ComfyUI MOSS TTS#

OpenMOSS MOSS-TTS Local 1.7B. Дружественный к одному GPU текстово-речевой трансформер, который обеспечивает быструю, естественную речь 24 кГц для повседневной производственной работы. Карточка модели: MOSS-TTS-Local-Transformer.
OpenMOSS MOSS-TTS Delay 8B. Более крупная линейка моделей, которая делает акцент на качество, сходство говорящих и просодию за счет скорости и памяти. Карточка модели: MOSS-TTS.
MOSS Audio Tokenizer. Изученный кодек, который связывает формы волн и дискретные токены для моделей MOSS-TTS, обеспечивая высококачественное декодирование. Карточка модели: MOSS-Audio-Tokenizer.

Для деталей реализации и обновлений смотрите официальные репозитории: OpenMOSS/MOSS-TTS и стек узлов, поддерживающий этот рабочий процесс richservo/comfyui-moss-tts.

Как использовать рабочий процесс Comfyui ComfyUI MOSS TTS#

Этот граф организован в пять независимых групп. Выберите группу, которая соответствует вашей цели, запустите её, затем прослушайте аудио прямо на полотне. Вы можете запускать несколько групп параллельно для предварительного прослушивания различных подходов.

Основной TTS#

Группа Основной TTS преобразует обычный текст в речь с помощью локального быстрого пути 1.7B. Загрузите модель в MossTTSModelLoader (#1), передайте ваш текст в MossTTSGenerate (#2), затем прослушайте в PreviewAudio (#3). Генератор основывается на вашей подсказке, чтобы формировать произношение и просодию, поэтому пишите естественно с пунктуацией для ритма. Оставьте семя фиксированным, когда хотите повторяемость, или рандомизируйте его при исследовании вариантов подачи.

Клонирование голоса#

Группа Клонирование голоса выполняет клонирование голоса zero-shot из короткого эталонного аудиоклипа. Импортируйте чистый образец голоса с помощью LoadAudio (#4), подключите его к MossTTSGenerate (#6), управляемому MossTTSModelLoader (#5), и предоставьте целевой текст. Модель извлекает тембр и стиль говорящего из эталона и воспроизводит ваш новый сценарий в этом голосе. Используйте нейтральное содержимое и минимальный фоновый шум в эталоне для улучшения сходства и держите продолжительность умеренной для быстрейшего выполнения.

Дизайн голоса#

Дизайн голоса создает новый голос из описания на естественном языке, а не из примерного клипа. MossTTSVoiceDesign (#9) использует текстовое описание, например, "Теплый, глубокий мужской голос с легким британским акцентом", в сочетании с вашим сценарием, чтобы синтезировать речь 24 кГц. Узел работает на выделенном пути генератора голоса, загруженном через MossTTSModelLoader (#8). Это идеально, когда вы хотите согласованную, воспроизводимую персону без использования реальных записей. Уточняйте описания характеристиками, такими как возраст, тембр, акцент и энергия, чтобы управлять звуком.

Звуковые эффекты#

Звуковые эффекты генерируют несвязные аудио из текстовых подсказок, полезные для звуковых дорожек, переходов или фоновых слоев. С MossTTSSoundEffect (#12) и его модельным трубопроводом из MossTTSModelLoader (#11) подсказки, такие как "Сильный дождь на жестяной крыше с отдалённым громом", создают насыщенные, циклические текстуры. Используйте краткие существительные и действия для определения сцены, затем добавьте несколько прилагательных, чтобы задать интенсивность или дистанцию. Предварительно прослушайте в PreviewAudio (#13) и быстро итерайте, чтобы подогнать под ваш микс.

Многоголосый диалог#

Группа Многоголосый диалог воспроизводит прописанные разговоры с опциональными эталонными клипами для каждого говорящего. Напишите ваш сценарий, используя теги говорящих в скобках, например, [S1] Привет. и [S2] Привет!, затем передайте его в MossTTSDialogue (#15) под модельным трубопроводом из MossTTSModelLoader (#14). Вы можете подключить эталонные аудиовходы для S1 и S2, чтобы клонировать конкретные голоса для каждой роли, или оставить их пустыми, чтобы модель выбрала различных говорящих только из контекста текста. Этот путь хорошо подходит для вызовов-ответов, повествования с репликами персонажей или макетов голосового интерфейса.

Ключевые узлы в рабочем процессе Comfyui ComfyUI MOSS TTS#

`MossTTSModelLoader` (#1)#

Загружает выбранное семейство моделей OpenMOSS и собирает внутренний TTS трубопровод. Выберите вариант Local 1.7B для быстрой итерации на одном GPU или переключитесь на более крупную модель Delay 8B, когда вы придаёте приоритет выразительности и сходству. Держите один загрузчик на семейство задач, чтобы каждая нисходящая ветвь оставалась автономной.

`MossTTSGenerate` (#2)#

Основной синтезатор одного говорящего, который потребляет ваш текстовый запрос и опциональные эталонные аудиозаписи для создания речи 24 кГц. Предоставьте чистый, хорошо пунктуированный текст для более чёткого ритма и подключите короткий голосовой клип, когда вам нужно клонирование zero-shot. Переключайте семена между фиксированным и случайным, чтобы сбалансировать воспроизводимость и исследование.

`MossTTSVoiceDesign` (#9)#

Генерирует новый голос из описательной подсказки вместе с текстом для озвучивания. Сосредоточьтесь на описании тембра, возраста, акцента и энергии, чтобы управлять идентичностью, оставаясь кратким. Это сильный выбор, когда лицензирование или использование реального голоса нецелесообразно.

`MossTTSSoundEffect` (#12)#

Синтезирует невербальное аудио из короткого текстового описания. Пишите компактные подсказки, которые закрепляют источник, действие и пространство, затем итерайте, чтобы соответствовать сцене. Отлично подходит для атмосферы и одноразовых эффектов внутри того же графа ComfyUI MOSS TTS, который вы используете для диалогов.

`MossTTSDialogue` (#15)#

Анализирует теги говорящих в скобках и воспроизводит многократные разговоры в виде одного аудиовыхода. Используйте [S1], [S2] и так далее, чтобы отметить каждую реплику, и опционально подключите эталонные клипы для каждого говорящего, чтобы сохранить идентичность на протяжении всех реплик. Держите реплики краткими для наиболее надёжных переходов между говорящими.

Дополнительные возможности#

Начните с модели Local 1.7B для быстрых черновиков, затем переключитесь на контрольную точку Delay 8B, когда вам нужно большее сходство или более богатая просодия.
Для клонирования zero-shot используйте чистый голосовой клип продолжительностью 5–15 с минимальным реверберацией и шумом для улучшения передачи тембра.
В диалоге держите теги говорящих консистентными и без пунктуации, как [S1], чтобы избежать ошибок разбора.
Создавайте подсказки для дизайна голоса с 3–6 характеристиками, такими как тембр, возраст, акцент, стиль и энергия, для предсказуемых результатов.
Используйте пунктуацию и разрывы строк в вашем тексте, чтобы контролировать паузы и ритм в выходах ComfyUI MOSS TTS.
Добавьте узел SaveAudio после любого предпросмотра, если хотите автоматический экспорт файлов для пакетного рендеринга.

Ссылки: OpenMOSS/MOSS-TTS • MOSS-TTS-Local-Transformer • MOSS-TTS • MOSS-Audio-Tokenizer • comfyui-moss-tts

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем richservo за пользовательские узлы ComfyUI MOSS-TTS, OpenMOSS за репозиторий MOSS-TTS и OpenMOSS-Team за модели MOSS-TTS (Delay 8B и Local 1.7B) и MOSS Audio Tokenizer за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведённым ниже.

Ресурсы#

richservo/comfyui-moss-tts
- GitHub: richservo/comfyui-moss-tts
OpenMOSS/MOSS-TTS
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-TTS (Delay 8B)
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-TTS-Local-Transformer (Local 1.7B)
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS-Local-Transformer
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-Audio-Tokenizer
- Hugging Face: OpenMOSS-Team/MOSS-Audio-Tokenizer
- arXiv: 2602.10934

Примечание: Использование упомянутых моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | Генератор выразительного голоса

Создавайте реалистичную речь с эмоциями, стилями и клонированными голосами быстро.

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

ACE-Step 1.5XL Base текст в музыку | AI Sound Generator

Мгновенно превращает ваш текст в музыку, созданную ИИ.

ACE-Step 1.5XL Turbo comfyui workflow | Генератор текста в музыку

Преобразует ваш текст в потрясающую музыку быстро и четко.

Blender to ComfyUI AI Renderer 2.0 | Создатель видео с движением

Быстро превращайте рендеры Blender в насыщенные, кинематографические анимации, управляемые AI.

Portrait Master | Текст в Портрет

Используйте Portrait Master для большего контроля над созданием портретов, не полагаясь на сложные подсказки.

Hunyuan Video | Image-Prompt to Video

Преобразуйте изображение и текстовый запрос в динамическое видео.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

ComfyUI MOSS TTS | Генератор голоса и речи на основе ИИ