【ゼロから学ぶXR技術 #6】ちゃんと音声合成を試してみる(1/3)

【ゼロから学ぶXR技術 #6】ちゃんと音声合成を試してみる(1/3)

XR技術を自分自身で体験し、しっかり理解をした上で、ビジネスの着想につなげようというシリーズですが、今回は音声合成を試してみます。音声合成はXR技術ではないと思う読者がいると思いますが、私の中ではワンセットの技術なのです。

その理由ですが、私は匿名化の潜在ニーズを切り口として、市場創造型の新規ビジネスを検討しており、XR技術による3Dアバターの実験もその一部です。匿名化の観点では、アバターによるビジュアルの匿名化だけでは不十分であり、必然的に音声変換や音声合成との組み合わせにより、匿名化を実現することとなります。

匿名化の潜在ニーズについて、もう少し触れておきましょう。インターネットのコミュニティの世界で実名を利用してしている人は少数派でしょう。どうしても実名である必要がない限り、ハンドルネームで参加するでしょうし、メールアドレスの登録が必要な場合でも、ユーザー登録するだけのフリーのダミーアカウントを使ったことがある人も多いのではないでしょうか?

最近は匿名であるが故の、コミュニティにおける誹謗中傷による悲しい事件が報道されていますが、私は匿名の力を借りて、実名では勇気が足りなかったり、面倒と感じてしまう、ちょっとした善行の後押しをすることで、優しい社会に近づくための仕組みを作れるのではないかと考えています。

具体例として、「働かないおじさん」に注目してみると、彼らは働く能力があるにもかかわらず、働く必要がないので、手を抜いている人たちです。しかし、本来は経験豊富で後進の育成をする実力があり、手を抜くことに対して罪悪感も多少あるため、環境が整えば、後進育成(善行)のサポートをしてくれることが分かっています。(意識変革セミナーのコンテンツで確認済みです。)

では、どうして積極的に後進育成を行わないのでしょうか?それは、なんと彼らはすごく恥ずかしがり屋さんなのです。若い人たちが同席している場では、ほとんど発言もしませんが、おじさん同士では雄弁に色々と語ってくれるのです。世代的な理由から、デジタル技術についてはやや疎く、利用方法を間違えることに恥ずかしさも感じており、新しいデジタルツールから逃げようとする傾向が見られます。それが若者との距離を広げる要因にもなっており、後進育成における悪循環になっています。

本人たちは口が裂けても言いませんが、複数のサンプルおじさんからのヒアリングで分かることは、これらの行動にはおじさんに共通の認識があり、「間違ったところを、他人に見せたくない。」、特に「若者には馬鹿にされたくない。」というプライドがあるのです。だから、何かを教えるにも、時代遅れと思われたくないですし、デジタルツールは間違った使い方を指摘されることが恥ずかしくて仕方がないのです。

これは、「働かないおじさん」に限ったことではなく、匿名であれば恥ずかしくないので、自分のちょっとしたノウハウを公開して、人の役に立てたいとか、実名では色々と説明が面倒だが、匿名ならレベルの高い教育コンテンツを提供したいという人もいるのではないでしょうか?

私はこのような例を、匿名化の潜在ニーズと定義し、XR関連技術(特に3Dアバターによる映像、ライブ配信向け音声変換や録画向け音声合成、そして、それらを統合するためのUnityによるプラットフォーム開発)を正しく理解したうえでビジネス開発を行うために、このシリーズであれこれと実験しているわけです。

さて、ようやく本題の音声合成ですが、今回は株式会社 AHSの「VOICEROID2」を検証します。このソフトウェアは、株式会社エーアイのAITalk®をエンジンとして利用しています。これは従来の機械音ではなく、人の声で合成するコーパスベース音声合成方式をとっており、かなり自然な音声合成を実現しています。そして、声優については、様々なサンプルを比較した結果、「紲星あかり」を採用しました。実験的に利用するのであれば、ソースネクスト株式会社の「音読みのプロ」も同じエンジンを利用しており、安価に男性と女性の音声が利用できますが、ベースとなる声優による音声のバリエーションや細かなチューニングを求めるなら、VOICEROID一択と思います。(現時点では個人での非営利での利用を想定しており、商用利用の場合はコストの精査が必要です。)

少し横道にそれますが、VOICEROID2を購入すると「キャラミん Studio」という3Dモデルでミュージックビデオするためのソフトウェアが90日間限定利用ですがバンドルされます。歌やダンスはさておき、カメラワーク可能なステージに3Dモデルを導入し、その3Dモデルの動作をカスタマイズできるうえ、本来はミュージックビデオ制作用ですから、合成した音声に合わせてその3Dアバターの動作や口の動きを制御できるとなれば、オンラインセミナーへの転用の可能性を検証するしかありません。こちらは、別途、90日以内に検証します。

今日はここまでです。これからVOICEROID2のインストール作業に入るので、実際の使用感については次回の記事をお待ちください。ちゃんと動作すれば、明日には投稿できると思います。