音声合成

音声合成を使った一気通貫のプランニングを行います

音声合成とは？

色々な方法が昔からありましたが、最近では「テキストデータ」を「音声データ」に変換する技術として、スマートスピーカー、ロボット、駅のアナウンス等に使われるようになりました。

例えば、「お疲れ様」というテキストをしゃべらせたい場合。以下のような処理が行われます。

テキストデータ「お疲れ様」を作成
日本語の分析処理が行われ中間データが生成
その中間データと、声の素となる「音素データ」から音声波形に合成
システムの音声再生部に波形が送られ、声として外に出る

合成音による情報提供がもたらすもの（顧客に対し）

これまで、様々なサービスでは文字による情報提供が多く使われていました。膨大なテキストデータが自動的に音声化できることで、音声合成の「合成音」による情報提供が気軽にできるようになりました。

目から情報を取り入れるのではなく、耳から情報を取り入れる。これにより、これまでと違ったサービス提供も可能になります。

例えば・・・

運転中に情報を得る
作業中に情報を得る
目が不自由な人、高齢者が音で情報を取得できる

などなど。

合成音による情報提供がもたらすもの（情報提供側）

情報を提供する側にとっても、大きなメリットがあります。

これまでのように、アナウンスしたい内容が決まったらアナウンサーにしゃべってもらう、という作業が発生しません。テキストを打てば、すぐにアナウンスができあがります。ちょっとした修正や、情報更新も通常のウェブに対する作業と同じです。より正しい・新しい情報を的確に届けることができます。

「声」に人格を感じてしまう

良いことはたくさんあります。しかし、気を付ける点も。テキストにより視覚情報として情報提供する事との違いがあります。それは、「声」になった瞬間、聴く人はその「声」の主を勝手に想像してしまうのです。通常のフォントではあまりそういうことはありません（丸文字など特殊なフォントである種の人格を感じることはありますが）。

人格の設計が必要

そうなると、単に伝えたい内容のテキストを音声合成で処理するだけでは、人格による様々な付帯影響が出てしまいます。例えば、冷たい、偉そうに聴こえる、ふざけているように思える、イライラする・・・などなど。もちろん、可愛い、格好いい、親しみやすい、というプラスの感情を想起することもあります。

つまり、使う声によってふさわしい内容、言葉遣い、表現が必要になってくるわけです。そのために必要なのは・・・

キャラクター設計

「声」の主を感じてしまうのであれば、その主を作りましょう。これは、架空の人物を作ることとほぼ同じです。つまり、エンタメ業界ではおなじみの「キャラクター設計」です。その主の産まれた境遇、性格、特技、くせ、思考の特徴・・・などなど。逆に言えば、これが無い場合、声による情報提供が100%意図通りに行かない場合も出てくるのです。