ComfyUI>Рабочие процессы>IndexTTS2 ComfyUI рабочий процесс | Генератор выразительных голосов

IndexTTS2 ComfyUI рабочий процесс | Генератор выразительных голосов

Workflow Name: RunComfy/IndexTTS2-ComfyUI
Workflow ID: 0000...1447
С помощью графика текст-в-речь на основе IndexTTS2 вы можете преобразовать краткие аудиореференции в эмоционально насыщенные голосовые выходы, которые отражают реальный человеческий тон и нюансы. Этот инструмент помогает создавать повествования, учебные материалы и диалоги с естественной подачей и точным эмоциональным контролем. Вы можете настроить кондиционирование тембра, добавить подсказки эмоций и мгновенно просмотреть результаты. Идеально подходит для дизайнеров и создателей, стремящихся к реалистичному клонированию голоса для проектов персонажей или повествования. Быстрая настройка и варианты экспорта упрощают эффективность рабочего процесса.

IndexTTS2 ComfyUI workflow Workflow

IndexTTS2 ComfyUI workflow | Emotional Voice Cloning & Speech Synthesis
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

IndexTTS2 ComfyUI workflow Examples

IndexTTS2 ComfyUI рабочий процесс: Эмоциональное клонирование голоса с использованием референсного аудио#

Этот рабочий процесс IndexTTS2 ComfyUI превращает короткий референсный клип в естественную, выразительную речь, соответствующую тембру и стилю говорящего. Вы предоставляете чистое референсное аудио, необязательные подсказки эмоций и ваш сценарий; график генерирует высококачественные голосовые клоны и экспортирует их в формате FLAC для архивного использования или MP3 для быстрого обмена.

Построенный вокруг модели IndexTTS‑2 и узлов ComfyUI IndexTTS, этот рабочий процесс идеально подходит для создателей, дизайнеров персонажей, педагогов и пользователей RunComfy, которые хотят быстрое, воспроизводимое эмоциональное TTS. Все происходит внутри ComfyUI, так что вы можете проверять входные данные, настраивать параметры и быстро повторять примеры повествования, диалога и озвучивания.

Ключевые модели в рабочем процессе Comfyui IndexTTS2 ComfyUI#

  • IndexTTS‑2 от IndexTeam. Современная система текст-в-речь, выполняющая клонирование голоса с учетом референсов и контроль выразительности. Она условно ориентируется на короткий пример говорящего и, опционально, на эмоциональные подсказки для воспроизведения естественной речи из текста. См. карточку модели на Hugging Face и сопровождающую статью для получения деталей архитектуры и обучения: IndexTTS‑2, проект IndexTTS, статья IndexTTS‑2.

Как использовать рабочий процесс Comfyui IndexTTS2 ComfyUI#

На высоком уровне график принимает три входных данных — аудио тембра референса, текст и необязательное эмоциональное аудио — затем запускает генерацию и экспортирует результат. Группы ниже показывают, где добавить входные данные и как они связываются с конечной речью.

Загрузите аудио референса голоса#

Эта группа подготавливает идентичность говорящего. Загрузите чистый образец целевого голоса в LoadAudio (#13), желательно одного говорящего, говорящего четко без музыки или эффектов. Используйте AudioCrop (#37), чтобы изолировать стабильный сегмент, чтобы система научилась постоянному тембру. Короткие сегменты с устойчивым тоном и нейтральной подачей, как правило, обеспечивают наиболее надежное клонирование. Обрезанный референс отправляется вперед для кондиционирования генератора.

Загрузите текст#

Введите ваш сценарий в PrimitiveStringMultiline (#14). Четкая пунктуация помогает модели делать выводы о паузах и акцентах, так что пишите текст так, как вы хотите, чтобы он был произнесен. Если вы планируете много предложений, держите каждое предложение хорошо сформированным и избегайте эмодзи или редких символов. Текст напрямую поступает в узел синтеза для рендеринга.

Загрузите аудио референса эмоций#

Предоставьте необязательный клип, который захватывает эмоцию или подачу, которую вы хотите — например, возбуждение, спокойствие или мрачность — через LoadAudio (#15). Обрежьте его с помощью AudioCrop (#38), чтобы сохранить только ту выразительную часть, которую вы хотите имитировать. Это отдельно от референса тембра и фокусируется на ритме, энергии и тоне. Если вы пропустите этот шаг, рабочий процесс IndexTTS2 ComfyUI будет полагаться только на текст для произношения.

Контроль эмоций: Используйте аудио референса эмоций#

Эта область соединяет вашу подсказку эмоций с генератором. Обрезанный клип эмоций подает на вход emo_audio_prompt на IndexTTS2Run (#12), направляя каденцию и интенсивность, сохраняя при этом целевой голос. Вы также можете использовать текстовые контролы эмоций узла, чтобы направить стиль, если у вас нет примера аудио эмоций. На практике аудио эмоций, как правило, дает более сильную, более последовательную выразительность, в то время как текст эмоций обеспечивает легкое направление. Комбинируйте их, когда вы хотите как конкретный пример, так и текстовую подсказку.

Генерация и экспорт#

IndexTTS2Run (#12) синтезирует речь, используя ваш текст, референс тембра и любые указания по эмоциям. Выход направляется в SaveAudio (#17) для без потерь FLAC и в SaveAudioMP3 (#39) для небольшого, удобного для веба предпросмотра. Используйте поля имени файла на узлах сохранения, чтобы поддерживать организацию дублей при итерациях. Этот дизайн упрощает A/B тестирование различных текстов или эмоций, сохраняя ту же идентичность говорящего.

Ключевые узлы в рабочем процессе Comfyui IndexTTS2 ComfyUI#

IndexTTS2Run (#12)#

Это основной генератор, который оборачивает IndexTTS‑2 и предоставляет контролы для семплирования, поиска луча и кондиционирования эмоций. Настройте top_p, top_k и temperature, чтобы сбалансировать стабильность и разнообразие — более низкие значения дают более последовательные чтения, более высокие значения увеличивают спонтанность. Используйте num_beams, когда хотите, чтобы узел искал больше кандидатов на чтение, обменивая скорость на качество. Для длинных сценариев max_mel_tokens и max_text_tokens_per_sentence помогают предотвратить превышение, ограничивая размеры аудио и текстовых фрагментов. Эмоции можно управлять с помощью emo_audio_prompt, emo_alpha для силы смешивания или с помощью use_emo_text и emo_text, когда вы предпочитаете текстовую подсказку. Помощники по производительности, такие как deepspeed, custom_cuda_kernel и unload_model, доступны в зависимости от вашего оборудования. Реализация узла предоставляется настраиваемыми узлами ComfyUI IndexTTS: ComfyUI_IndexTTS, а основная модель задокументирована здесь: IndexTTS‑2, проект IndexTTS.

AudioCrop (#37) — референс тембра#

Используйте этот узел, чтобы изолировать чистый, устойчивый отрывок из вашего образца говорящего. Избегайте фонового шума, смеха или экстремальных эмоций, так как эти детали могут просочиться в клонированный голос. Обрезка до постоянного тона улучшает фиксацию идентичности и уменьшает нежелательные артефакты.

AudioCrop (#38) — подсказка эмоций#

Эта обрезка выбирает выразительную подсказку, которая контролирует подачу. Выберите часть с точным ритмом или интенсивностью, которую вы хотите, и держите её краткой, чтобы избежать размывания сигнала. Для лучшей согласованности используйте подсказки эмоций от того же говорящего, что и референс тембра, когда это возможно.

Дополнительные опции#

  • Держите референсное аудио сухим и монофоническим; удалите реверберацию, фоновую музыку и сильную компрессию для более чистого клонирования.
  • Пунктуируйте намеренно. Запятые, точки и вопросительные знаки помогают модели размещать паузы и интонации, которые соответствуют вашему намерению.
  • Для воспроизводимых дублей отключите случайность в узле или ведите заметки о выборе текста и аудио, чтобы вы могли заново сгенерировать тот же вывод позже.
  • Если VRAM ограничен, включите выгрузку модели между запусками; это может добавить небольшую временную стоимость, но освобождает память для других графиков.
  • Уважайте права на голос. Используйте только те референсные записи, которые вы уполномочены клонировать, и раскрывайте синтетическую речь, где это требуется.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем RunningHub за референсный рабочий процесс, RunComfy за рабочий процесс Cloud Save, Index Team за IndexTTS и IndexTTS-2, авторов статьи IndexTTS2 и billwuhao за настраиваемые узлы ComfyUI IndexTTS за их вклад и поддержку. Для получения авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.