005: 音声合成の正しい使い方　親和性の高い技術・音声認識

2021年1月12日
2021年1月12日
音声合成

音声合成

1 音声合成の正しい使い方　親和性の高い技術・音声認識

音声合成の正しい使い方　親和性の高い技術・音声認識

音声合成、というとスマートスピーカー

での活用を思い浮かべる人が増えました。

しかし、実は合成はその構成要素の一部。

合成は単体で使われることもありますが、システム的にUIを構成しようとすると、音声認識と組みあわせることが多いのです。今回は、音声合成の理解をより進めるため、簡単に認識の解説もいたします。

スマートスピーカーの処理の大まかな流れ

収録からテキストまで

機械が音を検知すると、物理的な成形を経て、音声認識（囲ってあるところ）の処理が行われます。出力としては、テキストになることが多いです（汎用的に処理できるため）。

スマホの検索文字を打つ代わりに、マイクで入れると文字になる、というのはこの形です。

テキストから、アクションを決める

出力されたテキストを見て、プログラムにより何を行うかを振り分けます。今回は、呼びかけに対して言葉を返す、というスマートスピーカーによくある処理を想定しています。

テキストから発音されるまで

テキストは、いよいよ合成プロセスに送られます。まずは日本語の形としてどうなっているか、それが分かると、イントネーションが決まります。これをシンセサイザーに奥って、あとは音響的な成形をされ、各種処理に回されます。

人間の「おはよう」がスマートスピーカーの「おはようございます」という返しまでに、こんなことが行われているわけです。

全部合わせて、入り口と出口のUIが完成

このように、色々な処理を経て、問いかけに音声合成が答える、ということが達成できました。

決められた言葉を順番に出す、という情報提示から、いわゆる機械のインターフェースとしての活用が多くなると、認識技術との組み合わせは今後も増えると考えられます。

↑↑

こんな長い説明を踏まえまして、今回の合成はこちら。

音声合成と良くセットで使われる、音声認識、という技術があります。合成とは違いますので、ご注意下さい。音声認識は、人間の声を聴いて、それをテキストに落とす技術です。これはこれで結構大変なことをやってるんですよ。
今、あちこちで普及してきたスマートスピーカーは、この音声認識と音声合成の両方が使われています。まずは音声認識で、人間の言葉をテキストに変換します。次に、そのテキストに対応したアクションをします。そのアクションの一つが、
音声合成で返答をすること
だから、技術は違うけど、いっしょに働く仲間みたいなものです。認識ちゃん、というキャラがいるのかどうかは分かりません。