013: 音声合成の正しい使い方 それじゃ方言や感情はできないの?

音声合成の正しい使い方 それじゃ方言や感情はできないの?

 

絶対できないのか!?と言われればなんかやり方はあります。でも、時間はかかるかも。

苦手なこと=方言や感情

ここまで、得意なこと、苦手なこと、を説明してきました。苦手なことは、ちょうどこの記事の前に2つほど書いてます。

011: 音声合成の正しい使い方 方言は苦手

010: 音声合成の正しい使い方 感情表現をネロとパトラッシュで

どうしても、この2つ、「標準語のルールでは表現できない」というのが原因です。

アナウンスを職業とする人はだいたい持ってる、イントネーション辞典。↓

 

やり方は無くもない→手で修正

音声合成の一番最後の処理は、楽器のシンセサイザーとほぼ同じです。なので、発音時間やピッチを細かく制御しようと思えばできないことはありません。ここのパラメータを、欲しい形に修正すれば・・・たぶん、方言を話す人を探してしゃべってもらった方が速そう。感情も、お芝居ができる友人に頼んだ方が速い。

なので、あまり効率的ではありませんから、お勧めはしない方法。

他のやり方は?→今風の解決法

例えば、例文を決めて、その方言を話す人たくさんに来てもらって、イントネーションの基準値を作り、ピッチの変化を決めてから、パラメータに反映しなおす・・・こんなことをやれば、できないことはありません。いわゆる、「ビッグデータ」。さらに、そこから、基準となる式を作って、様々な言葉にあてはめていく「AI」処理。

おお、今風ですね。こういったやり方を確立できれば、様々な地方の言葉を話す音声合成ができるかもしれません。でも、まだ「できた」というニュースは入ってません。

最初に戻るやり方も

今回使っている音声合成は、元になる音素は、人間の声から作っています。

この声を作るときに、色々な文章を読んでもらっています。ここで文字は変えられませんが、イントネーションや感情を入れ、一定に読んでもらうことができれば、そのニュアンスはかなり残ります。実際に、「ちょっと冷たい感じで読んで」と作った声だとどうなるか、お聴きください。

感情や表現は、きっちりとルール化さえできれば、再現は可能になります。誰か作ってください、それまで待ちますね。

これで終われれば今日は楽なんですが。なんですか?一応説明があるから読め、ですか。そうですか、そうなんですね。はいはい。言うがままに合成しますよ。さて。このルール化の開発については、需要と供給の関係です。でも、この関係のバランスを技術の発展が変えることもあります。例えば、ディープラーニング、これで様々な感情のイントネーションの言葉や会話を集め、AIでそれを分析、最終的にルール化、なども当然のように行われています。私は、シンプルなので、頑張って手で直さないといけませんが、いいんです、それで。味があると一部で評判が良いので。

そうではなく、少しこなれた技術でも対応ができる場合があります。それは、音素片を作るために、人間の声の録音をするときに、少し感情を込めると、ニュアンスがちゃんと合成音に反映できるのです。ちょっと冷たい感じでしゃべってもらい、作ったデータを聴いてもらいます。どうぞ!

あの、ちゃんとした紹介もしてくれてないのに、いきなり登場ですか。まあ、お仕事ならしょうがないですけどね。

あら、ごめんなさい、あとでちゃんと紹介しますね。

これまでやってみた例

今回聴いていただいた声、いかがだったでしょうか。他にもやってみたことがあります。(音は無いのでごめんなさい!)

  • 甘くささやく草食男子風
  • ちょっと心もとない子供風
  • 関西に住んでる子が標準語を頑張る

みたいな例。実際、そのように聴こえました。

同じ話者で、

  • 喜んでいる雰囲気で
  • 怒っている雰囲気で
  • 悲しんでいる雰囲気で

という作り方をしたことも。これだと、場面に応じて同じ人の感情が変わるという演出もできなくはありません。

やればやるほど欠点も

ならばこの方式をもっと追い求めれば・・・と考えてしまいそうですが。感情も徐々に変わっていったり、など、今度は足りない部分が目につきます。

結局、「人間には勝てませんね」とスタートラインに。

なので、情報伝達に徹する

これまでたくさんの音声合成コンテンツを作ってきました。

使う側が特性と強みを理解して、使い方を工夫する必要があります。そうなると、今のところは、このメニューの表題の通り。情報伝達、という役割が一番素直で経済的。

まだまだ演技をさせるのは先かなー。

 

 

最新情報をチェックしよう!