ComfyUI>Рабочие процессы>ComfyUI MOSS TTS | Генератор голоса и речи на основе ИИ

ComfyUI MOSS TTS | Генератор голоса и речи на основе ИИ

Workflow Name: RunComfy/ComfyUI-MOSS-TTS
Workflow ID: 0000...1401
С помощью этого рабочего процесса вы можете создавать естественно звучащие голоса прямо из текста, используя технологию OpenMOSS. Это помогает вам разрабатывать уникальные голоса, генерировать диалоги с участием нескольких говорящих и точно настраивать эмоциональный тон речи. Идеально подходит для аудиодизайнеров или аниматоров, стремящихся к универсальным голосовым решениям. Поддерживает как быстрые локальные, так и расширенные крупные модели для сбалансированной производительности. Настраивайте тон, высоту и подачу без труда в рамках рабочего процесса вашего проекта.

ComfyUI MOSS TTS Workflow

ComfyUI MOSS TTS Workflow | Zero-Shot Voice Cloning & Speech
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI MOSS TTS Examples

ComfyUI MOSS TTS: преобразование текста в речь, клонирование голоса, SFX и диалоги в одном рабочем процессе#

Этот рабочий процесс ComfyUI MOSS TTS преобразует текст в яркую речь 24 кГц с использованием семейства OpenMOSS MOSS-TTS. Он охватывает быстрое синтезирование одного говорящего, клонирование голоса zero-shot из короткого эталонного клипа, описательный дизайн голоса, процедурные звуковые эффекты и многоголосые диалоги с опциональными эталонными записями для каждого говорящего.

Основан на официальной стеке узлов MOSS-TTS и семейства моделей, он балансирует скорость и качество. Локальный путь 1.7B — это практичный быстрый путь на одном GPU, в то время как более крупные модели Delay 8B обменивают скорость на более широкие возможности и выразительность. Если вам нужны повторно используемые подсказки, клонированные голоса или диалоги внутри ComfyUI, этот рабочий процесс ComfyUI MOSS TTS создан для вас.

Ключевые модели в рабочем процессе Comfyui ComfyUI MOSS TTS#

  • OpenMOSS MOSS-TTS Local 1.7B. Дружественный к одному GPU текстово-речевой трансформер, который обеспечивает быструю, естественную речь 24 кГц для повседневной производственной работы. Карточка модели: MOSS-TTS-Local-Transformer.
  • OpenMOSS MOSS-TTS Delay 8B. Более крупная линейка моделей, которая делает акцент на качество, сходство говорящих и просодию за счет скорости и памяти. Карточка модели: MOSS-TTS.
  • MOSS Audio Tokenizer. Изученный кодек, который связывает формы волн и дискретные токены для моделей MOSS-TTS, обеспечивая высококачественное декодирование. Карточка модели: MOSS-Audio-Tokenizer.

Для деталей реализации и обновлений смотрите официальные репозитории: OpenMOSS/MOSS-TTS и стек узлов, поддерживающий этот рабочий процесс richservo/comfyui-moss-tts.

Как использовать рабочий процесс Comfyui ComfyUI MOSS TTS#

Этот граф организован в пять независимых групп. Выберите группу, которая соответствует вашей цели, запустите её, затем прослушайте аудио прямо на полотне. Вы можете запускать несколько групп параллельно для предварительного прослушивания различных подходов.

Основной TTS#

Группа Основной TTS преобразует обычный текст в речь с помощью локального быстрого пути 1.7B. Загрузите модель в MossTTSModelLoader (#1), передайте ваш текст в MossTTSGenerate (#2), затем прослушайте в PreviewAudio (#3). Генератор основывается на вашей подсказке, чтобы формировать произношение и просодию, поэтому пишите естественно с пунктуацией для ритма. Оставьте семя фиксированным, когда хотите повторяемость, или рандомизируйте его при исследовании вариантов подачи.

Клонирование голоса#

Группа Клонирование голоса выполняет клонирование голоса zero-shot из короткого эталонного аудиоклипа. Импортируйте чистый образец голоса с помощью LoadAudio (#4), подключите его к MossTTSGenerate (#6), управляемому MossTTSModelLoader (#5), и предоставьте целевой текст. Модель извлекает тембр и стиль говорящего из эталона и воспроизводит ваш новый сценарий в этом голосе. Используйте нейтральное содержимое и минимальный фоновый шум в эталоне для улучшения сходства и держите продолжительность умеренной для быстрейшего выполнения.

Дизайн голоса#

Дизайн голоса создает новый голос из описания на естественном языке, а не из примерного клипа. MossTTSVoiceDesign (#9) использует текстовое описание, например, "Теплый, глубокий мужской голос с легким британским акцентом", в сочетании с вашим сценарием, чтобы синтезировать речь 24 кГц. Узел работает на выделенном пути генератора голоса, загруженном через MossTTSModelLoader (#8). Это идеально, когда вы хотите согласованную, воспроизводимую персону без использования реальных записей. Уточняйте описания характеристиками, такими как возраст, тембр, акцент и энергия, чтобы управлять звуком.

Звуковые эффекты#

Звуковые эффекты генерируют несвязные аудио из текстовых подсказок, полезные для звуковых дорожек, переходов или фоновых слоев. С MossTTSSoundEffect (#12) и его модельным трубопроводом из MossTTSModelLoader (#11) подсказки, такие как "Сильный дождь на жестяной крыше с отдалённым громом", создают насыщенные, циклические текстуры. Используйте краткие существительные и действия для определения сцены, затем добавьте несколько прилагательных, чтобы задать интенсивность или дистанцию. Предварительно прослушайте в PreviewAudio (#13) и быстро итерайте, чтобы подогнать под ваш микс.

Многоголосый диалог#

Группа Многоголосый диалог воспроизводит прописанные разговоры с опциональными эталонными клипами для каждого говорящего. Напишите ваш сценарий, используя теги говорящих в скобках, например, [S1] Привет. и [S2] Привет!, затем передайте его в MossTTSDialogue (#15) под модельным трубопроводом из MossTTSModelLoader (#14). Вы можете подключить эталонные аудиовходы для S1 и S2, чтобы клонировать конкретные голоса для каждой роли, или оставить их пустыми, чтобы модель выбрала различных говорящих только из контекста текста. Этот путь хорошо подходит для вызовов-ответов, повествования с репликами персонажей или макетов голосового интерфейса.

Ключевые узлы в рабочем процессе Comfyui ComfyUI MOSS TTS#

MossTTSModelLoader (#1)#

Загружает выбранное семейство моделей OpenMOSS и собирает внутренний TTS трубопровод. Выберите вариант Local 1.7B для быстрой итерации на одном GPU или переключитесь на более крупную модель Delay 8B, когда вы придаёте приоритет выразительности и сходству. Держите один загрузчик на семейство задач, чтобы каждая нисходящая ветвь оставалась автономной.

MossTTSGenerate (#2)#

Основной синтезатор одного говорящего, который потребляет ваш текстовый запрос и опциональные эталонные аудиозаписи для создания речи 24 кГц. Предоставьте чистый, хорошо пунктуированный текст для более чёткого ритма и подключите короткий голосовой клип, когда вам нужно клонирование zero-shot. Переключайте семена между фиксированным и случайным, чтобы сбалансировать воспроизводимость и исследование.

MossTTSVoiceDesign (#9)#

Генерирует новый голос из описательной подсказки вместе с текстом для озвучивания. Сосредоточьтесь на описании тембра, возраста, акцента и энергии, чтобы управлять идентичностью, оставаясь кратким. Это сильный выбор, когда лицензирование или использование реального голоса нецелесообразно.

MossTTSSoundEffect (#12)#

Синтезирует невербальное аудио из короткого текстового описания. Пишите компактные подсказки, которые закрепляют источник, действие и пространство, затем итерайте, чтобы соответствовать сцене. Отлично подходит для атмосферы и одноразовых эффектов внутри того же графа ComfyUI MOSS TTS, который вы используете для диалогов.

MossTTSDialogue (#15)#

Анализирует теги говорящих в скобках и воспроизводит многократные разговоры в виде одного аудиовыхода. Используйте [S1], [S2] и так далее, чтобы отметить каждую реплику, и опционально подключите эталонные клипы для каждого говорящего, чтобы сохранить идентичность на протяжении всех реплик. Держите реплики краткими для наиболее надёжных переходов между говорящими.

Дополнительные возможности#

  • Начните с модели Local 1.7B для быстрых черновиков, затем переключитесь на контрольную точку Delay 8B, когда вам нужно большее сходство или более богатая просодия.
  • Для клонирования zero-shot используйте чистый голосовой клип продолжительностью 5–15 с минимальным реверберацией и шумом для улучшения передачи тембра.
  • В диалоге держите теги говорящих консистентными и без пунктуации, как [S1], чтобы избежать ошибок разбора.
  • Создавайте подсказки для дизайна голоса с 3–6 характеристиками, такими как тембр, возраст, акцент, стиль и энергия, для предсказуемых результатов.
  • Используйте пунктуацию и разрывы строк в вашем тексте, чтобы контролировать паузы и ритм в выходах ComfyUI MOSS TTS.
  • Добавьте узел SaveAudio после любого предпросмотра, если хотите автоматический экспорт файлов для пакетного рендеринга.

Ссылки: OpenMOSS/MOSS-TTSMOSS-TTS-Local-TransformerMOSS-TTSMOSS-Audio-Tokenizercomfyui-moss-tts

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем richservo за пользовательские узлы ComfyUI MOSS-TTS, OpenMOSS за репозиторий MOSS-TTS и OpenMOSS-Team за модели MOSS-TTS (Delay 8B и Local 1.7B) и MOSS Audio Tokenizer за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведённым ниже.

Ресурсы#

Примечание: Использование упомянутых моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.