音声合成の正しい使い方 人間のしゃべりとは違うという事実
色々な合成方式
音声合成は、色々な方式があります。
音を出す部分でも、人間の発声のメカニズムを計算によってシミュレーションして出す方式、実際に人間が発音した波形を細かくして、それを再合成する方式。波形をさらに計算して使う方式、などなど。
さらに、イントネーションの生成、それに伴う中間部の処理、などで、各社色々な技術を開発し、今に至ります。
でも、共通していることは、「人間っぽいしゃべりを目指していること」です。
人間っぽさの追求の意味
コミュニケーション、情報伝達の様々な方法の中で、言葉によるもの、はまだ多くの価値があり、さらに実際につかわれています。その担い手は、合成が登場するまではずーっと人間。であれば、合成が人間を目指すのは当然の流れです。
でも、今の技術、ある意味95点までは来ていると思いますが、もう実用に入って行ってもいい気がします。だからといって研究や開発を止めてしまうと、95点止まり。100点はあり得なくても、そこを目指してきたことで、95点までたどり着いた事実は貴重です。
100点じゃない、けど問題ない!
重要なのは、使う事。8ビットの頃のゲームの表現。ドットの悪者におそれおののき、ドットのお姫様に恋をしたのは、グラフィッククオリティではなく、それが与えてくれた情報。だから、音声合成も、どんどん今の技術でも使っていくべき、と思いつつも、なかなか進んでいる印象はありません。(世間的にはたくさん出回ってきていると認識されていると思いますが、自分はもっと色々な場所で使われてしかるべき、と考えています)
今回のテキストはこんな感じ。
音声合成は、CPUで計算して作った人工の声です。
音素片、という波形の小さな単位をつなげたり、波形を計算して作ったり、と色々な方法があります。
昔はロボットみたいな声だったけど、今は結構なめらかになってきました。私も結構滑らか、と言われますが、もっともっと上手な技術がたくさんあります。で も、いいんです。味がある、とも言われていますので。
でも、いくら滑らかになっても、やっぱり人間が話すのとは違う、独特の癖があります。これから、少しずつ実例を出しながら、それを知ってもらって、もっと 皆さんも上手につかってもらえるようになればうれしいです。いいんです、私は これで。
味があるのは本当
なにやら、言い訳みたいなことを言ってますが、実はこれも本質だと思っています。人間ではない、ということ。これがしっかりと認識されて使われること、が重要だと考えます。
人工人格とコミュニケーションをするには、こういう領域を勉強すると役に立ちます。
人の形にすると、やはりしゃべることを期待されます。