音声合成の技術 パラメータ その1声の高さ
音声合成は、楽器のシンセサイザーと同じ。
発音の元となる音を、様々なパラメータを変えて、音楽にするのが楽器。
言葉に聴こえるようにするのが音声合成です。
どんなパラメータがあるの?
シンセサイザー、というと上の写真みたいにいっぱい色々なスイッチがあるイメージ。
音声合成も色々あります。代表的なものとしては、
①音の高さを変える
②音の速さを変える
③音の波形構成を変える
などでしょうか。
シンセサイザーの事を知りたい人はこちら。↓
今回は①音の高さ
人間のしゃべりでも、音の高さは重要。
電話に出るとき、つい声が高くなってしまうご婦人のなんと多いことか。
実際に印象が大きく変わります。やってみました。
こんにちわー。前に、早口言葉をやってみました。あれは、パラメータを速めたので、次からは、色々とやってみます。ちなみに、さわれるパラメータは、色々あります。まずは、速度ですね。早口言葉でやってみました。もちろん遅くもできます。あと良く使うのが、声の高い・低い。これも結構簡単に変わります。あとは、周波数構成をフィルターで変えるもの。こちらもものすごい変わります。
今回は、簡単にさわれるものとしては、音の高さ。ちょっと高くしてみますね。
えーと、声が高くなっていますが、いかがでしょうか?なんか、私って誰って感じ。
それじゃ、今度は低くしてみますね。
おいおい、まったくこれは誰がしゃべっているのか分からんよ。しかも気持ち悪い。
あー、戻った。良かった。このまま、って言われたら私、ツイッターでの展開をボイコットするところだった。
実際に使われてます
この音の高さによる聴こえの違い。
視覚に障害がある人がPCを使う時に使うスクリーンリーダー。
例えばカタカナ語が混ざる文章。
カタカナ部分だけを低く読む、などの設定ができます。
これにより、認識しやすさがアップします。
まだまだ普及には課題
視覚に障害が無い人にも、音声による情報提供はあり得る、と思っていますが、まだ普及するには色々な課題が。
その中で一番大きいのは、ツールでしょうか。
自動的に文章をツールに入れれば、即座に音に変換することはできます。
でも、そこでは期待されるイントネーションや読み方にならないことも多々あります。
↑この文章でやってみましょう。
ありゃりゃ。案外正確。
でも、「ツール」の登録されてるイントネーションは、今風じゃないですね。ここを修正してみます。
この修正は、テキストから変換された中間言語と呼ばれるデータの、イントネーション記号をカットする、ということで行いました。
つまり、これがコストや時間になってしまうわけです。
どこかでツールについてもまとめてみます。