014: 音声合成の正しい使い方 最初の録音で「冷たくしゃべって」

音声合成の正しい使い方 最初の録音で「冷たくしゃべって」

 

013: 音声合成の正しい使い方 それじゃ方言や感情はできないの?

で、色々な手法を解説しました。その中の「元になる音を録音するときに、ニュアンスを込めて」という手法をやってみました。

音声合成の声の作り方

ここで使っている音声合成は、人間がしゃべった声を分解して、音素片という単位にしたものを、シンセで合成するタイプ。

005: 音声合成の正しい使い方 親和性の高い技術・音声認識

全体の流れは↑こちらでご確認下さい。

最初にしゃべってもらう時に、もしも感情を入れたらどうなる?というのが今回聴いていただく声です。

一定を保つのは大変

とはいえ、音素片がどこでどう組み合わされるか、は作った時点が分かりません。つまり、原稿を読んでいる間、ずーっと同じテンションで「冷たく」(今回の声は)保ってくれないといけない。さらに、冷たい度合いも一定に。これはもう技術です。

今のところ、ハリウッドのスパイ映画にあるように、ちょこっとしゃべったらその人の声、となるようなところまではまだ来ていません。

人間は、午前と午後でも声が違うし、ずーっとしゃべって筋肉を使い続けると、どんどん声も変わってしまいます。プロは、それを分かって修正もできるすごいワザを持っています。

実際にどうなるか、お聴きください

感情や表現は、きっちりとルール化さえできれば、再現は可能になります。誰か作ってください、それまで待ちますね。

これで終われれば今日は楽なんですが。なんですか?一応説明があるから読め、ですか。そうですか、そうなんですね。はいはい。言うがままに合成しますよ。さて。このルール化の開発については、需要と供給の関係です。でも、この関係のバランスを技術の発展が変えることもあります。例えば、ディープラーニング、これで様々な感情のイントネーションの言葉や会話を集め、AIでそれを分析、最終的にルール化、なども当然のように行われています。私は、シンプルなので、頑張って手で直さないといけませんが、いいんです、それで。味があると一部で評判が良いので。

そうではなく、少しこなれた技術でも対応ができる場合があります。それは、音素片を作るために、人間の声の録音をするときに、少し感情を込めると、ニュアンスがちゃんと合成音に反映できるのです。ちょっと冷たい感じでしゃべってもらい、作ったデータを聴いてもらいます。どうぞ!

あの、ちゃんとした紹介もしてくれてないのに、いきなり登場ですか。まあ、お仕事ならしょうがないですけどね。

あら、ごめんなさい、あとでちゃんと紹介しますね。

 

どうでしょう。なんとなく「冷たい」感じは伝わりますでしょうか。

他にも「無理やり標準語をしゃべる関西人」

以前やったことがあるのが、関西の人に割と普通に標準語の原稿を読んでもらった時。お手本などは出さずに、やりたいようにやってもらいました。

そうすると、ちゃんとそんな感じに。

同じ人で、明るく!暗く…恥ずかしそうに、むかむかしながら♯、などとお願いしてやってみたいです。

需要の問題なんですよね。それを作るのにもコストがかかる。

なので、需要を作っていって、楽しい合成音をたくさん世の中に出したいと思います。

 

だから、声優さんが音声合成の中の人になるケースが多いのですね。

最新情報をチェックしよう!