今回は日本語音声データセットJSUTの読み上げ音声を、音声合成フレームワークのNVIDIA/tacotron2の読み上げ音声に変換します。
必要ライブラリのインストール
読み上げ音声の変換を行うためには以下のライブラリをインストールします。
[WSLコンソール]
1 | pip install librosa==0.8.0 |
読み上げ音声の変換
JSUTの読み上げ音声を、NVIDIA/tacotron2の読み上げ音声に変換するソースコードは次のようになります。
[ソースコード]
1 | import os |
上記のソースコードを実行すると次のようなログが表示されます。
[実行結果]
1 | ・・・(途中略)・・・ |
wavフォルダが作成されその中にNVIDIA/tacotron2用の読み上げ音声が出力されます。
フォルダ容量は1.53GBほどになりました。
次回は、音声合成の学習を行い・・・・たかったのですが、どうしてもうまくいかなかったのでまた別内容の記事を書き始めようと思います。<(_ _)>