音声合成の正しい使い方 親和性の高い技術・音声認識
音声合成、というとスマートスピーカー
での活用を思い浮かべる人が増えました。
しかし、実は合成はその構成要素の一部。
合成は単体で使われることもありますが、システム的にUIを構成しようとすると、音声認識と組みあわせることが多いのです。今回は、音声合成の理解をより進めるため、簡単に認識の解説もいたします。
スマートスピーカーの処理の大まかな流れ
収録からテキストまで
機械が音を検知すると、物理的な成形を経て、音声認識(囲ってあるところ)の処理が行われます。出力としては、テキストになることが多いです(汎用的に処理できるため)。
スマホの検索文字を打つ代わりに、マイクで入れると文字になる、というのはこの形です。
テキストから、アクションを決める
出力されたテキストを見て、プログラムにより何を行うかを振り分けます。今回は、呼びかけに対して言葉を返す、というスマートスピーカーによくある処理を想定しています。
テキストから発音されるまで
テキストは、いよいよ合成プロセスに送られます。まずは日本語の形としてどうなっているか、それが分かると、イントネーションが決まります。これをシンセサイザーに奥って、あとは音響的な成形をされ、各種処理に回されます。
人間の「おはよう」がスマートスピーカーの「おはようございます」という返しまでに、こんなことが行われているわけです。
全部合わせて、入り口と出口のUIが完成
このように、色々な処理を経て、問いかけに音声合成が答える、ということが達成できました。
決められた言葉を順番に出す、という情報提示から、いわゆる機械のインターフェースとしての活用が多くなると、認識技術との組み合わせは今後も増えると考えられます。
↑↑
こんな長い説明を踏まえまして、今回の合成はこちら。
今、あちこちで普及してきたスマートスピーカーは、この音声認識と音声合成の 両方が使われています。まずは音声認識で、人間の言葉をテキストに変換しま す。次に、そのテキストに対応したアクションをします。そのアクションの一つが、
音声合成で返答をすること
だから、技術は違うけど、いっしょに働く仲間みたいなものです。認識ちゃん、 というキャラがいるのかどうかは分かりません。
いやー、新キャラが勝手に登場してしまいました。こちらも仕込みをせねば。
今の人気はこちら。
今、自分の横にあるのはこちらです
音楽再生機能も求めるならこれでしょう。BOSEですから。