logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Рабочие процессы>ComfyUI MOSS TTS | Генератор голоса и речи на основе ИИ

ComfyUI MOSS TTS | Генератор голоса и речи на основе ИИ

Workflow Name: RunComfy/ComfyUI-MOSS-TTS
Workflow ID: 0000...1401
С помощью этого рабочего процесса вы можете создавать естественно звучащие голоса прямо из текста, используя технологию OpenMOSS. Это помогает вам разрабатывать уникальные голоса, генерировать диалоги с участием нескольких говорящих и точно настраивать эмоциональный тон речи. Идеально подходит для аудиодизайнеров или аниматоров, стремящихся к универсальным голосовым решениям. Поддерживает как быстрые локальные, так и расширенные крупные модели для сбалансированной производительности. Настраивайте тон, высоту и подачу без труда в рамках рабочего процесса вашего проекта.

ComfyUI MOSS TTS: преобразование текста в речь, клонирование голоса, SFX и диалоги в одном рабочем процессе

Этот рабочий процесс ComfyUI MOSS TTS преобразует текст в яркую речь 24 кГц с использованием семейства OpenMOSS MOSS-TTS. Он охватывает быстрое синтезирование одного говорящего, клонирование голоса zero-shot из короткого эталонного клипа, описательный дизайн голоса, процедурные звуковые эффекты и многоголосые диалоги с опциональными эталонными записями для каждого говорящего.

Основан на официальной стеке узлов MOSS-TTS и семейства моделей, он балансирует скорость и качество. Локальный путь 1.7B — это практичный быстрый путь на одном GPU, в то время как более крупные модели Delay 8B обменивают скорость на более широкие возможности и выразительность. Если вам нужны повторно используемые подсказки, клонированные голоса или диалоги внутри ComfyUI, этот рабочий процесс ComfyUI MOSS TTS создан для вас.

Ключевые модели в рабочем процессе Comfyui ComfyUI MOSS TTS

  • OpenMOSS MOSS-TTS Local 1.7B. Дружественный к одному GPU текстово-речевой трансформер, который обеспечивает быструю, естественную речь 24 кГц для повседневной производственной работы. Карточка модели: MOSS-TTS-Local-Transformer.
  • OpenMOSS MOSS-TTS Delay 8B. Более крупная линейка моделей, которая делает акцент на качество, сходство говорящих и просодию за счет скорости и памяти. Карточка модели: MOSS-TTS.
  • MOSS Audio Tokenizer. Изученный кодек, который связывает формы волн и дискретные токены для моделей MOSS-TTS, обеспечивая высококачественное декодирование. Карточка модели: MOSS-Audio-Tokenizer.

Для деталей реализации и обновлений смотрите официальные репозитории: OpenMOSS/MOSS-TTS и стек узлов, поддерживающий этот рабочий процесс richservo/comfyui-moss-tts.

Как использовать рабочий процесс Comfyui ComfyUI MOSS TTS

Этот граф организован в пять независимых групп. Выберите группу, которая соответствует вашей цели, запустите её, затем прослушайте аудио прямо на полотне. Вы можете запускать несколько групп параллельно для предварительного прослушивания различных подходов.

Основной TTS

Группа Основной TTS преобразует обычный текст в речь с помощью локального быстрого пути 1.7B. Загрузите модель в MossTTSModelLoader (#1), передайте ваш текст в MossTTSGenerate (#2), затем прослушайте в PreviewAudio (#3). Генератор основывается на вашей подсказке, чтобы формировать произношение и просодию, поэтому пишите естественно с пунктуацией для ритма. Оставьте семя фиксированным, когда хотите повторяемость, или рандомизируйте его при исследовании вариантов подачи.

Клонирование голоса

Группа Клонирование голоса выполняет клонирование голоса zero-shot из короткого эталонного аудиоклипа. Импортируйте чистый образец голоса с помощью LoadAudio (#4), подключите его к MossTTSGenerate (#6), управляемому MossTTSModelLoader (#5), и предоставьте целевой текст. Модель извлекает тембр и стиль говорящего из эталона и воспроизводит ваш новый сценарий в этом голосе. Используйте нейтральное содержимое и минимальный фоновый шум в эталоне для улучшения сходства и держите продолжительность умеренной для быстрейшего выполнения.

Дизайн голоса

Дизайн голоса создает новый голос из описания на естественном языке, а не из примерного клипа. MossTTSVoiceDesign (#9) использует текстовое описание, например, "Теплый, глубокий мужской голос с легким британским акцентом", в сочетании с вашим сценарием, чтобы синтезировать речь 24 кГц. Узел работает на выделенном пути генератора голоса, загруженном через MossTTSModelLoader (#8). Это идеально, когда вы хотите согласованную, воспроизводимую персону без использования реальных записей. Уточняйте описания характеристиками, такими как возраст, тембр, акцент и энергия, чтобы управлять звуком.

Звуковые эффекты

Звуковые эффекты генерируют несвязные аудио из текстовых подсказок, полезные для звуковых дорожек, переходов или фоновых слоев. С MossTTSSoundEffect (#12) и его модельным трубопроводом из MossTTSModelLoader (#11) подсказки, такие как "Сильный дождь на жестяной крыше с отдалённым громом", создают насыщенные, циклические текстуры. Используйте краткие существительные и действия для определения сцены, затем добавьте несколько прилагательных, чтобы задать интенсивность или дистанцию. Предварительно прослушайте в PreviewAudio (#13) и быстро итерайте, чтобы подогнать под ваш микс.

Многоголосый диалог

Группа Многоголосый диалог воспроизводит прописанные разговоры с опциональными эталонными клипами для каждого говорящего. Напишите ваш сценарий, используя теги говорящих в скобках, например, [S1] Привет. и [S2] Привет!, затем передайте его в MossTTSDialogue (#15) под модельным трубопроводом из MossTTSModelLoader (#14). Вы можете подключить эталонные аудиовходы для S1 и S2, чтобы клонировать конкретные голоса для каждой роли, или оставить их пустыми, чтобы модель выбрала различных говорящих только из контекста текста. Этот путь хорошо подходит для вызовов-ответов, повествования с репликами персонажей или макетов голосового интерфейса.

Ключевые узлы в рабочем процессе Comfyui ComfyUI MOSS TTS

MossTTSModelLoader (#1)

Загружает выбранное семейство моделей OpenMOSS и собирает внутренний TTS трубопровод. Выберите вариант Local 1.7B для быстрой итерации на одном GPU или переключитесь на более крупную модель Delay 8B, когда вы придаёте приоритет выразительности и сходству. Держите один загрузчик на семейство задач, чтобы каждая нисходящая ветвь оставалась автономной.

MossTTSGenerate (#2)

Основной синтезатор одного говорящего, который потребляет ваш текстовый запрос и опциональные эталонные аудиозаписи для создания речи 24 кГц. Предоставьте чистый, хорошо пунктуированный текст для более чёткого ритма и подключите короткий голосовой клип, когда вам нужно клонирование zero-shot. Переключайте семена между фиксированным и случайным, чтобы сбалансировать воспроизводимость и исследование.

MossTTSVoiceDesign (#9)

Генерирует новый голос из описательной подсказки вместе с текстом для озвучивания. Сосредоточьтесь на описании тембра, возраста, акцента и энергии, чтобы управлять идентичностью, оставаясь кратким. Это сильный выбор, когда лицензирование или использование реального голоса нецелесообразно.

MossTTSSoundEffect (#12)

Синтезирует невербальное аудио из короткого текстового описания. Пишите компактные подсказки, которые закрепляют источник, действие и пространство, затем итерайте, чтобы соответствовать сцене. Отлично подходит для атмосферы и одноразовых эффектов внутри того же графа ComfyUI MOSS TTS, который вы используете для диалогов.

MossTTSDialogue (#15)

Анализирует теги говорящих в скобках и воспроизводит многократные разговоры в виде одного аудиовыхода. Используйте [S1], [S2] и так далее, чтобы отметить каждую реплику, и опционально подключите эталонные клипы для каждого говорящего, чтобы сохранить идентичность на протяжении всех реплик. Держите реплики краткими для наиболее надёжных переходов между говорящими.

Дополнительные возможности

  • Начните с модели Local 1.7B для быстрых черновиков, затем переключитесь на контрольную точку Delay 8B, когда вам нужно большее сходство или более богатая просодия.
  • Для клонирования zero-shot используйте чистый голосовой клип продолжительностью 5–15 с минимальным реверберацией и шумом для улучшения передачи тембра.
  • В диалоге держите теги говорящих консистентными и без пунктуации, как [S1], чтобы избежать ошибок разбора.
  • Создавайте подсказки для дизайна голоса с 3–6 характеристиками, такими как тембр, возраст, акцент, стиль и энергия, для предсказуемых результатов.
  • Используйте пунктуацию и разрывы строк в вашем тексте, чтобы контролировать паузы и ритм в выходах ComfyUI MOSS TTS.
  • Добавьте узел SaveAudio после любого предпросмотра, если хотите автоматический экспорт файлов для пакетного рендеринга.

Ссылки: OpenMOSS/MOSS-TTS • MOSS-TTS-Local-Transformer • MOSS-TTS • MOSS-Audio-Tokenizer • comfyui-moss-tts

Благодарности

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем richservo за пользовательские узлы ComfyUI MOSS-TTS, OpenMOSS за репозиторий MOSS-TTS и OpenMOSS-Team за модели MOSS-TTS (Delay 8B и Local 1.7B) и MOSS Audio Tokenizer за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведённым ниже.

Ресурсы

  • richservo/comfyui-moss-tts
    • GitHub: richservo/comfyui-moss-tts
  • OpenMOSS/MOSS-TTS
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-TTS (Delay 8B)
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-TTS-Local-Transformer (Local 1.7B)
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS-Local-Transformer
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-Audio-Tokenizer
    • Hugging Face: OpenMOSS-Team/MOSS-Audio-Tokenizer
    • arXiv: 2602.10934

Примечание: Использование упомянутых моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | Генератор выразительного голоса

Создавайте реалистичную речь с эмоциями, стилями и клонированными голосами быстро.

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

ACE-Step 1.5XL Base текст в музыку | AI Sound Generator

Мгновенно превращает ваш текст в музыку, созданную ИИ.

ACE-Step 1.5XL Turbo comfyui workflow | Генератор текста в музыку

Преобразует ваш текст в потрясающую музыку быстро и четко.

Flux 2 Dev | Фотореалистичный генератор изображений из текста

Реализм изображений следующего уровня с мощным контролем генерации

Animatediff V2 & V3 | Текст в Видео

Изучите AnimateDiff V3, AnimateDiff SDXL и AnimateDiff V2, и используйте Upscale для получения результатов высокого разрешения.

Z-Image | Быстрая фотореалистичная базовая модель

Супербыстрый генератор изображений с потрясающей ясностью и полным контролем.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • RunComfy MCP
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.