日本語音声データセットJSUTを転移学習し、音声合成フレームワークのNVIDIA/tacotron2で日本語の音声合成を行います。
今回はNVIDIA/tacotron2用の台本を作成します。
JSUTデータセットの準備
下記サイトのJSUTの「台本」と「読み上げ音声データ」のデータセットを利用します。
JSUT - https://sites.google.com/site/shinnosuketakamichi/publication/jsut
WSLコンソールで下記のコマンドを実行し、ダウンロードと解凍を行います。
[WSLコンソール]
1 | wget http://ss-takashi.sakura.ne.jp/corpus/jsut_ver1.1.zip |
NVIDIA/tacotron2用の台本作成
ダウンロードしたJSUT用の台本をNVIDIA/tacotron2用の台本に変換するソースコードは以下の通りです。
[ソースコード]
1 | import os |
上記の処理を実行すると、filelists/transcript_utf8.txtというファイルが作成されます。
このファイルがNVIDIA/tacotron2用の台本となります。
次回は、読み上げ音声の作成を行います。