音声合成の正しい使い方 どうぶつの森のモノマネ
あsdjk多ポイウエブい終えポイ乳母jだs;lkじゃえおぴあjおいぐあじゃd;lkじゃ dg杯dぼパいう亜dbじゃjk;あjk;だklgじゃてあjk
なんでしょう。これ。
しゃべること、それが目的
音声合成は、100%、或いは100%以上人間の性能を目標に、常に開発を続ける分野です。でも、常に100%にはどこか届かないところがある分野でもあります。
ならば、100%になったら使う、という方もいます。でも、エンタメの領域の考え方は「面白い使い方ができれば、完成度に応じて使います」というところ。ここでマネタイズができれば、開発側も使い手側も良い状況を作れます。
まだ合成技術が低かったころは、しゃべった雰囲気が出せればそれでもOK、さらにそこに音声が乗ればOK。初期は、文字が一つずつでながら、ピピピピ、と音が鳴っただけでもしゃべった「こと」にしていました。
補間機能
人間の認知機能はなかなか素晴らしい。あやふやさもありますが、うまく足りない情報を補う働きもあります。
なんでもいいんです、までは言いませんが、キャラの動きと共に、テロップが進む。そこにシンクロしてなんらかの音が出てくれば「しゃべっている」という形が頭の中で完成します。
今回紹介するツイッター投稿はこちら。
枯れた技術の水平思考
任天堂の横井軍平氏の言葉。やりたいことを最先端の技術で出したい、という技術屋マインドもありつつ、ちゃんと販売できる価格にするならば、最先端技術にこだわらず実現できるものを使う、ということ。わざわざ古い技術縛りで作る、ということではない、と思ってます。
やりたいことを、今製品に使えるレベルの技術でできるなら、それを使う。或いはその時にできる使い方で使う。
演出で必要なことを行う、という大前提
どうぶつの森のキャラたちが、全部流暢な日本語をしゃべる、という世界はそもそも必要ではない、ということもあるかと思います。くちゅくちゅ可愛い感じで一生懸命しゃべってる絶妙な感じが、そもそもこの世界には合っている、という気がします。
なので、「流暢にしゃべらせたかったが技術が追い付かないから代替案としてこうした」ではない例だと思います。
結論としては「意図して技術を使う」という超当たり前の使い方をしっかりすること。技術を見せるためのデモアプリではない場合、この考え方は不可欠です。