ComfyUI F5 TTS ワークフロー | テキストから音声へ＆ボイスクローン

ComfyUI F5 TTS: ゼロショットテキストから音声へとボイスクローンを1つのワークフローで

このComfyUI F5 TTSワークフローでは、テキストから自然な音声を生成し、ComfyUI内で直接声をクローンできます。ComfyUI-F5-TTSカスタムノードによって駆動され、参照ベースのクローン用の完全なパスが含まれています: 短いWAVと一致するトランスクリプトを提供してモデルを条件付けし、参照スピーカーの音色とスタイルに従った新しいセリフを合成します。グラフには、複数のモデルバリアント、言語、ボコーダーのためのすぐに実行可能なテストも同梱されており、すばやく出力を比較してナレーション、ボイスオーバー、キャラクターダイアログ、または製品デモに最適なものを決定できます。

すべてが明確なグループに整理されているため、ComfyUI F5 TTSを2つの方法で使用できます: 英語、フランス語、ドイツ語、日本語での高速ワンクリックTTS、または内蔵レコーダーやペアファイルを介したボイスクローン。正確なサンプルトランスクリプトを取得するのに役立つコンパクトなWhisperトランスクリプションパスも含まれています。

ComfyUI F5 TTSワークフローの主要モデル

Fish Audio F5-TTS。短い参照から話者の特徴を学習し、複数の言語で高品質な音声を生成するゼロショットTTS。モデルの詳細とトレーニングの背景については、プロジェクトを参照してください。 GitHub
OpenAI Whisper。参照クリップを自動でトランスクリプトし、サンプルテキストを正確に一致させることでクローンの品質を向上させます。 GitHub
BigVGAN。シャープでクリスプな出力のためのデコードオプションとして利用できる高忠実度ニューラルボコーダー。 GitHub
Vocos。速度と低遅延に焦点を当てた高速軽量ニューラルボコーダーの代替案。 GitHub
ComfyUI-F5-TTSカスタムノード。F5-TTSと互換性のあるバックエンドをノードにワイヤリングし、このグラフ全体で使用されます。 GitHub

ComfyUI F5 TTSワークフローの使用方法

高レベルでは、ワークフローは迅速なモデル比較のための独立したグループと専用のクローンレーンを提供します。好みの声とボコーダーを確認するために事前設定されたグループを試聴し、その後自分のサンプルでクローン作成に進みます。以下の各サブセクションは、グループが何を行うかと、重要な入力を説明します。

Audio From Inputsテスト

このレーンは参照トランスクリプションと条件付けを示します。LoadAudio (#4)はWAVを取り込み、Apply Whisper (#13)はそれをトランスクリプトし、F5TTSAudioInputs (#26)はサンプル音声とWhisperテキストを使用して音声を条件付けた後にプレビューします。クリーンな音声サンプルを提供し、Whisperがトランスクリプトポートを埋めるのでペアが正確に一致します。ファイルを直接提供したい場合は、同じファイル名のペアの.wavと.txtをComfyUI/inputに配置し、ComfyUIを再起動してグラフがそれらを認識できるようにします。

Multi voiceテスト

このグループは、単一の合成ノードを使用して1行内でスタイルの切り替えを示します。F5TTSAudio (#17)はラベル付きセグメントでスクリプトを読み、1回で複数のキャラクタースタイルや強調の変化を試聴できます。ComfyUI F5 TTSが対照的な音色やナレーター対キャラクターペースをどのように処理するかを聞くのに最適な方法です。

Audio EN

F5TTSAudio (#15)を使用してシンプルな英語TTSを行います。スクリプトを入力し、デフォルトのF5プリセットで基本的な発音とペースを評価するためにプレビューします。このレーンは、クローン作成やマルチボイスミキシングに移行する前の迅速な反復に最適です。

F5v1

このパスは、F5 v1バリアントに対してF5TTSAudio (#33)ノードを実行し、メインF5プリセットとのトーンとプロソディーを比較できます。ENレーンと同じテキストを使用して、違いを簡単に判断できるようにします。長いプロジェクトのデフォルトモデルを選択する際に役立ちます。

Audio FR

このレーンは、フランス語の合成をF5TTSAudio (#27)でフランス語プリセットに設定してターゲットにします。フランス語のスクリプトを提供し、出力をプレビューして鼻母音とリエゾンの処理を確認します。ENレーンと切り替えて、明瞭さと速度を比較します。

Audio DE bigvgan

ここではF5TTSAudio (#30)がドイツ語プリセットとBigVGANボコーダーを使用して、より明るくクリスプなデコードを行います。スタジオのような光沢や存在感が欲しい場合にこのレーンを使用します。よりソフトなレンダリングを好む場合は、Vocosレーンと比較してください。

Audio JP

このパスはF5TTSAudio (#25)を使用して日本語プリセットを使用します。日本語のスクリプトを貼り付けて、ピッチアクセントとモーラタイミングを評価します。アニメスタイルの読み上げや日本のオーディエンス向けの製品ラインの出発点として適しています。

E2テスト

このグループはF5TTSAudio (#29)をE2互換プリセットとVocosボコーダーで実行し、代替バックエンドを試聴します。F5ランとのレイテンシーと音色特性を比較するために使用します。

自分の声をクローンする

ComfyUIで直接録音、ペアリング、クローンします。VrchAudioRecorderNode (#43)のマイクを押し、"Sample Text to Record"ボックスTextbox (#42)に表示されるプロンプトを読みます。レコーダーはあなたのWAVをF5TTSAudioInputs (#44)にルーティングし、話した正確なテキストとともに、プレビュー前にあなたの音色とスタイルでモデルを条件付けます。最高の結果を得るために、静かな部屋で話し、参照テキストが言ったことと完全に一致するようにし、新しいセリフをタイプしてグラフを実行します。

ComfyUI F5 TTSワークフローの主要ノード

`F5TTSAudio` (#15)

EN、FR、DE、JP、F5v1、およびE2グループ全体で使用されるコアのシングルパスTTSノード。スクリプトを提供し、言語と配信に適したモデルプリセットとボコーダーを選択します。再現可能なテイクが必要な場合は、シードを固定してください。スタイルを探求する場合は、ランダム化してください。実装はComfyUI-F5-TTS拡張機能によって提供されます。 GitHub GitHub - FishAudio/F5-TTS

`F5TTSAudioInputs` (#44)

参照WAVと一致するトランスクリプトを消費して話者の表現を構築し、その声で新しいセリフを合成するクローンエントリーポイント。一定の大きさでクリーンなサンプルを使用し、トランスクリプトが正確であることを確認して、類似性を最大化し、アーティファクトを減少させます。ここでモデルプリセットやボコーダーを切り替え、より明るいまたは中立的なデコードが必要な場合があります。 GitHub - FishAudio/F5-TTS

`Apply Whisper` (#13)

参照サンプルの自動トランスクリプション。ハードウェアと言語に対して速度と精度のバランスを取るWhisperサイズを選択し、その出力テキストをクローンノードに供給して、オーディオとテキストが完全に一致するようにします。サンプルテキストが実際に話された内容と異なる場合に発生する条件付けエラーを防ぎます。 GitHub

`VrchAudioRecorderNode` (#43)

外部ツールを必要とせずにクローン用の短いスピーカープロンプトをキャプチャするイングラフレコーダー。録音を保持し、停止するためにリリースし、すぐにComfyUI F5 TTSがあなたの声でどのように聞こえるかを確認します。マイクを近くに置き、部屋の騒音を減らして最もクリーンな結果を得ます。

オプションのエクストラ

参照には5〜15秒間のクリーンな音声を使用し、音楽や効果音は含めないでください。
サンプルトランスクリプトが録音と完全に一致することを確認してください。わずかな不一致でもクローンの忠実度を低下させる可能性があります。
同じ行でVocosとBigVGANを比較して、速度と詳細の間で決定してください。
一貫した再テイクが必要な場合は、シードを固定してください。スタイルを探索する場合は、ランダム化してください。
多言語プロジェクトの場合、最初にEN、FR、DE、およびJPレーンを試聴し、発音とペースに満足したらクローン作成を最終化します。

謝辞

このワークフローは、以下の作品とリソースを実装および構築しています。ComfyUI-F5-TTSノードのniknah、F5TTS-test-all.json例ワークフローのniknah、およびr/StableDiffusionコミュニティの「Voice Cloning with F5-TTS in ComfyUI」ガイドの貢献と維持に深く感謝します。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。

リソース

niknah/ComfyUI-F5-TTS
- GitHub: niknah/ComfyUI-F5-TTS
niknah/ComfyUI-F5-TTS (例ワークフロー: F5TTS-test-all.json)
- GitHub: example_workflows/F5TTS-test-all.json
r/StableDiffusion/コミュニティガイド (Voice Cloning with F5-TTS in ComfyUI)
- GitHub: example_web_viewer_005_audio_web_viewer_f5_tts.json
- ドキュメント / リリースノート: Effortlessly Clone Your Own Voice by using ComfyUI and Almost in Real-Time! (Step-by-Step Tutorial & Workflow Included)

注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスおよび条件に従います。

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio: 高品質な音声生成のための高度なビデオから音声へのモデル。

ACE-Step 音楽生成 | AI オーディオ作成

画期的な拡散技術でスタジオ品質の音楽を15倍速く生成します。

EchoMimic | オーディオ駆動のポートレートアニメーション

提供されたオーディオと同期したリアルなトーキングヘッドとボディジェスチャーを生成します。

Hunyuan3D 2.1 | 画像から3Dモデルへ

2.0からの大きな飛躍: 写真を瞬時に驚異的な3Dモデルに変換。

フェイススワッピングのためのFlux PuLID

Flux PuLIDでフェイススワッピングプロジェクトを新たな高みに引き上げましょう。

MimicMotion | ヒューマンモーションビデオ生成

参照画像とモーションシーケンスを使用して、MimicMotionで高品質なヒューマンモーションビデオを生成します。

FLUX Controlnet Inpainting

ControlNetを使用してFLUX.1-devをガイドし、リアリズムを向上させます。

Wan 2.1 Fun | トラジェクトリーモーションコントロール

静止写真を動画にアニメートするモーションパスを設計します。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

ComfyUI F5 TTS | 自然音声クローンエンジン

ComfyUI F5 TTS: ゼロショットテキストから音声へとボイスクローンを1つのワークフローで

ComfyUI F5 TTSワークフローの主要モデル

ComfyUI F5 TTSワークフローの使用方法

Audio From Inputsテスト

Multi voiceテスト

Audio EN

F5v1

Audio FR

Audio DE bigvgan

Audio JP

E2テスト

自分の声をクローンする

ComfyUI F5 TTSワークフローの主要ノード

F5TTSAudio (#15)

F5TTSAudioInputs (#44)

Apply Whisper (#13)

VrchAudioRecorderNode (#43)

オプションのエクストラ

謝辞

リソース

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

ACE-Step 音楽生成 | AI オーディオ作成

EchoMimic | オーディオ駆動のポートレートアニメーション

Hunyuan3D 2.1 | 画像から3Dモデルへ

フェイススワッピングのためのFlux PuLID

MimicMotion | ヒューマンモーションビデオ生成

FLUX Controlnet Inpainting

Wan 2.1 Fun | トラジェクトリーモーションコントロール

`F5TTSAudio` (#15)

`F5TTSAudioInputs` (#44)

`Apply Whisper` (#13)

`VrchAudioRecorderNode` (#43)