008: 音声合成の正しい使い方 苦手なこと=決められたルール以外

音声合成が苦手なこと=決められたルール以外

私もダンスが苦手です・・・

意外に難しい日本語のルール

そもそも、日本語には同じ文字でも読み方が異なる場合があります。日本語の教科書として正しくても、慣例で違う発音をされるものもあります。

例えば、今回ツイッターでも聴いていただいた、

「今日は」

皆さんはどう読みますか?これが一つだけぽつんとあったら、迷うのではないでしょうか。でも、

  • みなさん、今日は! お元気ですか?

となれば、こんにちわ

  • 今日は朝から雨です

となれば、きょうは

のように、「文章の中に入ると、その前後の意味やつながりからどちらかに規定される」という性格がそもそもあるのです。

音声合成の上流の形態素解析

日本語の普通のテキストデータは、すぐにシンセサイザーに入れられません。上で説明した、日本語としてどの部分に使われているか、前後はどうなっているか、などにより、イントネーションのデータがいっしょに作られます。

このイントネーションのデータは、韻律、と呼ばれます。

  • 文字データ+韻律データ

をシンセサイザーに与え、日本語のイントネーション付きの音声になるわけです。

文章を作る側の能力

なんか入力した文字が期待したようにしゃべってくれないぞ、という時は、まずは「国語の授業で教わった正しい日本語の並べ方」を意識すると、期待したイントネーションが得られるかもしれません。

つまり、作り手側の国語能力も出力に影響するのです。

そうすると得意なのは出版物やニュース

私のブログもそうですが、一人で考えたことを一人で書いている、という文章は多いと思います。違うのはあるのか?

それが、商業文章です。内容の間違えだけでなく、言い回し、言葉遣い、単語、なども徹底的に校正されています。なので、こちらはツールにぶち込むだけで相当のヒット率(正答率)になります。

逆に言えば、そのような文章を心がければ、修正も減る、ということになります。

でも・・・つまらない

ニュースや論文みたいな文章は、それこそ情報伝達。エンタメの要素は基本的には不要です。でも、自分はエンタメ屋さん。しゃべり言葉の面白さも入れつつの、正しい日本語を気を付けつつ・・・自分なりに面白い文章も追及していきます。

実は、こういう自分のスタイルで、どこがヒット率が悪いか、もだんだん分かってくると、いきなり正解!も出しやすい。やはり、クセは慣れです。

では、上記を踏まえて、今回のツイート内容をお聴きください。

今度も、音声合成が苦手なこと。これも、ツイッターのテキストの文を見てくれ ないとだめですよ。まずは、今という字、日本の日の字、そのあとにひらがなの 「葉」。この3文字があったら、皆さんはどう読みますか? きょうは? こん にちわ? 前後が無いとどっちでも読めます。私のルールだと、今日は、となり ます。実際に国語として正しいのは、どちらも。でも、単体で出てきたら、こっ ちを選ぶ、というルールなのです。決められていることは守る、そんな律義な性 格なんです。ファジーとかゆらぎとかランダムとか、そういう子がうらやましい なー。

まずは日本語ルールをしっかりと適用し、あとは癖を利用する。こういうところが「コツ」になるのかも。

 

 

NO IMAGE
最新情報をチェックしよう!