【ゼロから学ぶXR技術 #7】ちゃんと音声合成を試してみる(2/3)
今回は、人の声で合成するコーパスベースの音声合成ソフトの「VOICEROID2」を実際に検証します。まずはダウンロードするファイルサイズですが、ベースとなる音声が必要だからと思われますが、圧縮されたインストールファイルのサイズが約900MBと極大です。インストール自体は非常にシンプルで、製品版として利用するには、指定された英数字20文字を入力してアクティベーションが必要です。
早速起動してみると、指定したテキストを音声合成するだけなら、何も考えずに利用できるインターフェースだと感じました。ただ、社会貢献や業務システムなどと言っているお堅い私にとっては、今回選択したボイスロイドの 「紲星あかり」が主張しすぎなのが気になります。別の記事で紹介した通り、XRの世界はこちら側の感性にやや寄っているので、慣れていくしかありません。
社会貢献領域からみると異世界 → サブカル領域の方が多く、プロトコル変換が必要。
https://social-bizcreator.com/blog/2020/05/05/zerovr01/
まずはやってみる
中央上段のテキスト入力エリアに合成したい文章を入力して、再生ボタンを押すだけで待ち時間もなく、非常に高速な音声合成が実行されます。そして、驚くべきはその合成品質です。まずは、当ブログのサイト説明をコピ&ペーストして、何の設定もせず変換した結果がこれです。移行期間中はファイルを削除しておりリンク切れとなります
ひと昔前の機械的な印象はなくなり、十分実用に耐えるレベルだと感じましたが、読者の皆さんの印象はどうでしょうか?
AHS VOICEROID2 紲星あかり SAHS-40046
|
実は、最初にこのテキストを音声合成した時に、誤植が1か所あることに気づかされました。トップページにあるサイトの説明なので、さすがに何度もチェックしたつもりでしたが、それを一発で発見できたため、文書のレビュー用のツールとして普段の仕事でも使ってみようと思いました。
実際、もう十分なんですが。。。
さて、これで満足しては、他の機能を確認できないので、ブログの記事を色々と音声合成してみて、違和感のある言葉をいくつか取り上げて、チューニングにより、どのように変化するかを確認しました。そして、「創意工夫」のイントネーションにかなりの違和感があったため、意味的な区切りが異なりそうな、いくつかの四字熟語とともに、チューニングを試してみました。移行期間中はファイルを削除しておりリンク切れとなります
四字熟語が全般的に苦手というわけではなさそうです。花鳥風月や我田引水はかなり自然な印象です。眉目秀麗はギリギリOKで、創意工夫については、本来、創意と工夫の二つとして発音する方が自然なところを、4文字セットとして発音している感覚を受けました。そこで、アクセント句を創意と工夫の間に設定し、間にポーズを入れるほどではないが、二つに聞こえるイメージで設定し、自動では「クフー」と読ませているところを、「クフウ」と、はっきり「ウ」に変更してみました。移行期間中はファイルを削除しておりリンク切れとなります
どうでしょうか?まだ、微妙な感じですね。上の画像にはピンクのラインが入っていますが、これは抑揚を調整する機能で、これを使えばさらに細かく調整ができそうです。ただし、この調整は直感的に操作できず、マニュアルなしではどように操作するのか分かりませんでした。音の高さも同じインターフェイスのため、こちらも学習してからリトライの予定です。
あれこれと工夫してチューニングした単語やフレーズは、辞書への登録が可能です。そして、次回以降はそのチューニングに基づいて音声合成されるため、使い込むほどに品質が高まるところもグッドポイントです。
まとめ
今回は、音声合成を検証しました。会社で利用するにはインターフェースが恥ずかしいですが、変換速度とその品質は大変すばらしいものでした。この変換機能をエンジンとしてAPIで利用できれば最高ですが、そういう用途のソフトウェアではないので、勝手にRPAとの連携といった変化球で、面白い使い方を考えたいと思います。
次回は、「キャラミん Studio」を使って、この合成した音声を3Dアバターに説明させることにチャレンジします。