ComfyUI F5 TTS: ゼロショットテキストから音声へとボイスクローンを1つのワークフローで
このComfyUI F5 TTSワークフローでは、テキストから自然な音声を生成し、ComfyUI内で直接声をクローンできます。ComfyUI-F5-TTSカスタムノードによって駆動され、参照ベースのクローン用の完全なパスが含まれています: 短いWAVと一致するトランスクリプトを提供してモデルを条件付けし、参照スピーカーの音色とスタイルに従った新しいセリフを合成します。グラフには、複数のモデルバリアント、言語、ボコーダーのためのすぐに実行可能なテストも同梱されており、すばやく出力を比較してナレーション、ボイスオーバー、キャラクターダイアログ、または製品デモに最適なものを決定できます。
すべてが明確なグループに整理されているため、ComfyUI F5 TTSを2つの方法で使用できます: 英語、フランス語、ドイツ語、日本語での高速ワンクリックTTS、または内蔵レコーダーやペアファイルを介したボイスクローン。正確なサンプルトランスクリプトを取得するのに役立つコンパクトなWhisperトランスクリプションパスも含まれています。
ComfyUI F5 TTSワークフローの主要モデル
- Fish Audio F5-TTS。短い参照から話者の特徴を学習し、複数の言語で高品質な音声を生成するゼロショットTTS。モデルの詳細とトレーニングの背景については、プロジェクトを参照してください。 GitHub
- OpenAI Whisper。参照クリップを自動でトランスクリプトし、サンプルテキストを正確に一致させることでクローンの品質を向上させます。 GitHub
- BigVGAN。シャープでクリスプな出力のためのデコードオプションとして利用できる高忠実度ニューラルボコーダー。 GitHub
- Vocos。速度と低遅延に焦点を当てた高速軽量ニューラルボコーダーの代替案。 GitHub
- ComfyUI-F5-TTSカスタムノード。F5-TTSと互換性のあるバックエンドをノードにワイヤリングし、このグラフ全体で使用されます。 GitHub
ComfyUI F5 TTSワークフローの使用方法
高レベルでは、ワークフローは迅速なモデル比較のための独立したグループと専用のクローンレーンを提供します。好みの声とボコーダーを確認するために事前設定されたグループを試聴し、その後自分のサンプルでクローン作成に進みます。以下の各サブセクションは、グループが何を行うかと、重要な入力を説明します。
Audio From Inputsテスト
このレーンは参照トランスクリプションと条件付けを示します。LoadAudio (#4)はWAVを取り込み、Apply Whisper (#13)はそれをトランスクリプトし、F5TTSAudioInputs (#26)はサンプル音声とWhisperテキストを使用して音声を条件付けた後にプレビューします。クリーンな音声サンプルを提供し、Whisperがトランスクリプトポートを埋めるのでペアが正確に一致します。ファイルを直接提供したい場合は、同じファイル名のペアの.wavと.txtをComfyUI/inputに配置し、ComfyUIを再起動してグラフがそれらを認識できるようにします。
Multi voiceテスト
このグループは、単一の合成ノードを使用して1行内でスタイルの切り替えを示します。F5TTSAudio (#17)はラベル付きセグメントでスクリプトを読み、1回で複数のキャラクタースタイルや強調の変化を試聴できます。ComfyUI F5 TTSが対照的な音色やナレーター対キャラクターペースをどのように処理するかを聞くのに最適な方法です。
Audio EN
F5TTSAudio (#15)を使用してシンプルな英語TTSを行います。スクリプトを入力し、デフォルトのF5プリセットで基本的な発音とペースを評価するためにプレビューします。このレーンは、クローン作成やマルチボイスミキシングに移行する前の迅速な反復に最適です。
F5v1
このパスは、F5 v1バリアントに対してF5TTSAudio (#33)ノードを実行し、メインF5プリセットとのトーンとプロソディーを比較できます。ENレーンと同じテキストを使用して、違いを簡単に判断できるようにします。長いプロジェクトのデフォルトモデルを選択する際に役立ちます。
Audio FR
このレーンは、フランス語の合成をF5TTSAudio (#27)でフランス語プリセットに設定してターゲットにします。フランス語のスクリプトを提供し、出力をプレビューして鼻母音とリエゾンの処理を確認します。ENレーンと切り替えて、明瞭さと速度を比較します。
Audio DE bigvgan
ここではF5TTSAudio (#30)がドイツ語プリセットとBigVGANボコーダーを使用して、より明るくクリスプなデコードを行います。スタジオのような光沢や存在感が欲しい場合にこのレーンを使用します。よりソフトなレンダリングを好む場合は、Vocosレーンと比較してください。
Audio JP
このパスはF5TTSAudio (#25)を使用して日本語プリセットを使用します。日本語のスクリプトを貼り付けて、ピッチアクセントとモーラタイミングを評価します。アニメスタイルの読み上げや日本のオーディエンス向けの製品ラインの出発点として適しています。
E2テスト
このグループはF5TTSAudio (#29)をE2互換プリセットとVocosボコーダーで実行し、代替バックエンドを試聴します。F5ランとのレイテンシーと音色特性を比較するために使用します。
自分の声をクローンする
ComfyUIで直接録音、ペアリング、クローンします。VrchAudioRecorderNode (#43)のマイクを押し、"Sample Text to Record"ボックスTextbox (#42)に表示されるプロンプトを読みます。レコーダーはあなたのWAVをF5TTSAudioInputs (#44)にルーティングし、話した正確なテキストとともに、プレビュー前にあなたの音色とスタイルでモデルを条件付けます。最高の結果を得るために、静かな部屋で話し、参照テキストが言ったことと完全に一致するようにし、新しいセリフをタイプしてグラフを実行します。
ComfyUI F5 TTSワークフローの主要ノード
F5TTSAudio (#15)
EN、FR、DE、JP、F5v1、およびE2グループ全体で使用されるコアのシングルパスTTSノード。スクリプトを提供し、言語と配信に適したモデルプリセットとボコーダーを選択します。再現可能なテイクが必要な場合は、シードを固定してください。スタイルを探求する場合は、ランダム化してください。実装はComfyUI-F5-TTS拡張機能によって提供されます。 GitHub GitHub - FishAudio/F5-TTS
F5TTSAudioInputs (#44)
参照WAVと一致するトランスクリプトを消費して話者の表現を構築し、その声で新しいセリフを合成するクローンエントリーポイント。一定の大きさでクリーンなサンプルを使用し、トランスクリプトが正確であることを確認して、類似性を最大化し、アーティファクトを減少させます。ここでモデルプリセットやボコーダーを切り替え、より明るいまたは中立的なデコードが必要な場合があります。 GitHub - FishAudio/F5-TTS
Apply Whisper (#13)
参照サンプルの自動トランスクリプション。ハードウェアと言語に対して速度と精度のバランスを取るWhisperサイズを選択し、その出力テキストをクローンノードに供給して、オーディオとテキストが完全に一致するようにします。サンプルテキストが実際に話された内容と異なる場合に発生する条件付けエラーを防ぎます。 GitHub
VrchAudioRecorderNode (#43)
外部ツールを必要とせずにクローン用の短いスピーカープロンプトをキャプチャするイングラフレコーダー。録音を保持し、停止するためにリリースし、すぐにComfyUI F5 TTSがあなたの声でどのように聞こえるかを確認します。マイクを近くに置き、部屋の騒音を減らして最もクリーンな結果を得ます。
オプションのエクストラ
- 参照には5〜15秒間のクリーンな音声を使用し、音楽や効果音は含めないでください。
- サンプルトランスクリプトが録音と完全に一致することを確認してください。わずかな不一致でもクローンの忠実度を低下させる可能性があります。
- 同じ行でVocosとBigVGANを比較して、速度と詳細の間で決定してください。
- 一貫した再テイクが必要な場合は、シードを固定してください。スタイルを探索する場合は、ランダム化してください。
- 多言語プロジェクトの場合、最初にEN、FR、DE、およびJPレーンを試聴し、発音とペースに満足したらクローン作成を最終化します。
謝辞
このワークフローは、以下の作品とリソースを実装および構築しています。ComfyUI-F5-TTSノードのniknah、F5TTS-test-all.json例ワークフローのniknah、およびr/StableDiffusionコミュニティの「Voice Cloning with F5-TTS in ComfyUI」ガイドの貢献と維持に深く感謝します。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
リソース
- niknah/ComfyUI-F5-TTS
- GitHub: niknah/ComfyUI-F5-TTS
- niknah/ComfyUI-F5-TTS (例ワークフロー: F5TTS-test-all.json)
- r/StableDiffusion/コミュニティガイド (Voice Cloning with F5-TTS in ComfyUI)
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスおよび条件に従います。
