音声合成の正しい使い方 最初の録音で「冷たくしゃべって」
013: 音声合成の正しい使い方 それじゃ方言や感情はできないの?
で、色々な手法を解説しました。その中の「元になる音を録音するときに、ニュアンスを込めて」という手法をやってみました。
音声合成の声の作り方
ここで使っている音声合成は、人間がしゃべった声を分解して、音素片という単位にしたものを、シンセで合成するタイプ。
005: 音声合成の正しい使い方 親和性の高い技術・音声認識
全体の流れは↑こちらでご確認下さい。
最初にしゃべってもらう時に、もしも感情を入れたらどうなる?というのが今回聴いていただく声です。
一定を保つのは大変
とはいえ、音素片がどこでどう組み合わされるか、は作った時点が分かりません。つまり、原稿を読んでいる間、ずーっと同じテンションで「冷たく」(今回の声は)保ってくれないといけない。さらに、冷たい度合いも一定に。これはもう技術です。
今のところ、ハリウッドのスパイ映画にあるように、ちょこっとしゃべったらその人の声、となるようなところまではまだ来ていません。
人間は、午前と午後でも声が違うし、ずーっとしゃべって筋肉を使い続けると、どんどん声も変わってしまいます。プロは、それを分かって修正もできるすごいワザを持っています。
実際にどうなるか、お聴きください
感情や表現は、きっちりとルール化さえできれば、再現は可能になります。誰か作ってください、それまで待ちますね。
これで終われれば今日は楽なんですが。なんですか?一応説明があるから読め、ですか。そうですか、そうなんですね。はいはい。言うがままに合成しますよ。さて。このルール化の開発については、需要と供給の関係です。でも、この関係のバランスを技術の発展が変えることもあります。例えば、ディープラーニング、これで様々な感情のイントネーションの言葉や会話を集め、AIでそれを分析、最終的にルール化、なども当然のように行われています。私は、シンプルなので、頑張って手で直さないといけませんが、いいんです、それで。味があると一部で評判が良いので。
そうではなく、少しこなれた技術でも対応ができる場合があります。それは、音素片を作るために、人間の声の録音をするときに、少し感情を込めると、ニュアンスがちゃんと合成音に反映できるのです。ちょっと冷たい感じでしゃべってもらい、作ったデータを聴いてもらいます。どうぞ!
あの、ちゃんとした紹介もしてくれてないのに、いきなり登場ですか。まあ、お仕事ならしょうがないですけどね。
あら、ごめんなさい、あとでちゃんと紹介しますね。
どうでしょう。なんとなく「冷たい」感じは伝わりますでしょうか。
他にも「無理やり標準語をしゃべる関西人」
以前やったことがあるのが、関西の人に割と普通に標準語の原稿を読んでもらった時。お手本などは出さずに、やりたいようにやってもらいました。
そうすると、ちゃんとそんな感じに。
同じ人で、明るく!暗く…恥ずかしそうに、むかむかしながら♯、などとお願いしてやってみたいです。
需要の問題なんですよね。それを作るのにもコストがかかる。
なので、需要を作っていって、楽しい合成音をたくさん世の中に出したいと思います。
だから、声優さんが音声合成の中の人になるケースが多いのですね。