017: 音声合成の技術 パラメータその1声の高さ

音声合成の技術 パラメータ その1声の高さ

音声合成は、楽器のシンセサイザーと同じ。

発音の元となる音を、様々なパラメータを変えて、音楽にするのが楽器。

言葉に聴こえるようにするのが音声合成です。

どんなパラメータがあるの?

シンセサイザー、というと上の写真みたいにいっぱい色々なスイッチがあるイメージ。

音声合成も色々あります。代表的なものとしては、

①音の高さを変える
②音の速さを変える
③音の波形構成を変える

などでしょうか。

シンセサイザーの事を知りたい人はこちら。↓

今回は①音の高さ

人間のしゃべりでも、音の高さは重要。

電話に出るとき、つい声が高くなってしまうご婦人のなんと多いことか。

実際に印象が大きく変わります。やってみました。

こんにちわー。前に、早口言葉をやってみました。あれは、パラメータを速めたので、次からは、色々とやってみます。ちなみに、さわれるパラメータは、色々あります。まずは、速度ですね。早口言葉でやってみました。もちろん遅くもできます。あと良く使うのが、声の高い・低い。これも結構簡単に変わります。あとは、周波数構成をフィルターで変えるもの。こちらもものすごい変わります。

今回は、簡単にさわれるものとしては、音の高さ。ちょっと高くしてみますね。

えーと、声が高くなっていますが、いかがでしょうか?なんか、私って誰って感じ。

それじゃ、今度は低くしてみますね。

おいおい、まったくこれは誰がしゃべっているのか分からんよ。しかも気持ち悪い。

あー、戻った。良かった。このまま、って言われたら私、ツイッターでの展開をボイコットするところだった。

実際に使われてます

この音の高さによる聴こえの違い。

視覚に障害がある人がPCを使う時に使うスクリーンリーダー。

例えばカタカナ語が混ざる文章。

カタカナ部分だけを低く読む、などの設定ができます。

これにより、認識しやすさがアップします。

まだまだ普及には課題

視覚に障害が無い人にも、音声による情報提供はあり得る、と思っていますが、まだ普及するには色々な課題が。

その中で一番大きいのは、ツールでしょうか。

自動的に文章をツールに入れれば、即座に音に変換することはできます。

でも、そこでは期待されるイントネーションや読み方にならないことも多々あります。

↑この文章でやってみましょう。

ありゃりゃ。案外正確。

でも、「ツール」の登録されてるイントネーションは、今風じゃないですね。ここを修正してみます。

この修正は、テキストから変換された中間言語と呼ばれるデータの、イントネーション記号をカットする、ということで行いました。

つまり、これがコストや時間になってしまうわけです。

どこかでツールについてもまとめてみます。

 

最新情報をチェックしよう!