サイトアイコン シニアIT支援サイトCLASeC

音声認識のこれからを考える

音声認識
(2020年9月20日更新)
iOSのSiriに留まらず、WindowsのCortana(コルタナ)、GoogleのOK Google、更にはAmazonのAlexa(アレクサ)に至るまで、コンピュータもしくは電子機器が備える高度な音声認識機能が増えてきました。それらの大きな特長は、AI(人工知能) に裏打ちされていることです。即ち、人と人とが話すように、自然な言葉を理解し、それに対する応答ができるというわけです。電子機器に音声で認識させる手法は、文章を打つよりも圧倒的に早く伝わりますし、微妙なニュアンスを表現することが可能になります。人の発した音声を高速で理解し解釈できる技術、そして、自然な音声合成技術の発達が、音声認識の可能性を大いに高めつつあります。

さりとて、どうやったらその音声認識を誰もが使うようになるのか?という点については、幾つかのハードルを越えなければならないだろうな、と勝手に考えています。所謂、爆発的普及のポイントです。個人的には『面白い』『役に立つ』『気恥ずかしさがない』の3つが鍵だと推察しています。
その3つを思う時、要するにそれは人に話しかけたくなる三要素と同じであると感じます。これらの要素を音声認識がもつためには何が必要なのか、人間相手の場合と比較しながら、一つひとつ紐解いてみたいと思います。

単に笑える話をするというだけではなく、興味のある会話ができるかということです。それが人に話しかける大きな動機の一つにまずなるでしょう。
この辺のあたりは、Siriが様々な問いかけに対し意味深な言葉を返してくる点などはメディアでも取り上げられたりしました。Siriにはそういう性能があると言えるでしょう。しかし、十分かと問われれば、まだまだこれからと言わざるを得ません。扱う機器が異なっても同じ問いかけをして同じ回答が来るのなら、やはり面白味には欠けます。また、季節やシチュエーション、時事によっても内容が変わってこなければなりません。
これは「正確な回答を返す」という面とは真逆の方向でもあります。そのため、次の『役に立つ』とは矛盾しかねない能力です。その場その場で臨機応変に返答するというのは、問いかけ以外の様々な情報も加味した上で可能なことであり、それはともすれば個人情報の収集にも繋がります。

そういう点を踏まえれば、音声認識を有するAIは個々の端末に独立したアシスタントとしてのみ機能すべきなのかもしれません。個々のAIは個人情報を収集するものの、その保管は端末に留める、あるいは個々の情報が絶対に共有されないような仕組みになっている。そうでありながら、個別化した全てのAIは、全世界から集めた共通情報には自由にアクセスできるというような……。言わば集合的無意識のような無限とも言える情報の塊が存在し、それに個々のAIが独立して繋がっている形が最適なのかもしれません。

人間であれば、利用価値のある相手だから話しかけているのだと言ってしまうと、あまり良いイメージになりません。しかし、ある意味では単に楽しいから話しかけている相手でも、自分が「楽しむ」ことに対しては、役に立っているとも解釈できます。つまり、どういった場合にせよ、どこかに役に立つという成分は残っています。
音声認識については、役に立つと言うことは重要かつ基本的な価値であり、面白いことよりももっと明確に求められている機能でしょう。
ですが、的確に役に立つのは意外と難しい。話している人間の意をちゃんと汲まなければなりません。人間同士だって上手くできない場合が多々あるのですから、音声認識にとっても困難なことでしょう。
目的語もなく「点けて」と言われるかもしれません。その時、テレビを点けるのかラジオを点けるのか明かりを点けるのか。テレビは何チャンネルを最初に映すのか。どこからどこまでの明かりを点けるのか、明るさは……。それらがちゃんとできて初めて「役に立つ」と言われるとすれば、やはりこれも個人情報の収集が必要になってきます。

とはいうものの、この機能はどんどんと進歩して欲しいと願っています。

見知らぬ人に気軽に話しかけられる人がいます。それは、ほんの少しでも相手に興味があるからでしょうし、暇潰しの一環であったとしてもそれは「暇をつぶすという役に立っている」とも言えるでしょう。つまり、その行為の中に上述した2つの理由(「面白い」と「役に立つ」)が内包されています。しかし、それらの意味合いは非常に希薄と言え、強い欲求ではないでしょう。それでも話しかけることができるのは、気恥ずかしさがないからです。この気恥ずかしさの障壁というは高いが故に、一度越えてしまうと他人に対する親近感は容易に生まれます。

正直、この点が一番大事だと思っています。私はタブレットをもっているものの、音声認識を今ほとんど使っていない理由は正にこれです。私は、留守番電話に音声を録音することですら躊躇います。
面白いし、役に立つ人がいるのに、気恥ずかしさからその人に話しかけられない。それは実にもどかしいものです。音声認識に対する思いも似たようなところがあります。

では、どのようにしたら、機械に話しかけることの気恥ずかしさを乗り越えられるでしょうか。
一つは、見た目です。外観が意思をもった姿であることは、割と大切です。人間の姿どころか、犬や不思議な生物の形をしているだけで、不思議と話しかけやすくなります。ただ、機能性を重視した電子機器ではそうもいきませんし、万人が好く生物の姿というのもなかなか実現するのは難しいです。そうなると、その電子機器がどれだけ洗練された形をしているかが、ポイントになりそうです。残念ながら、音声認識できる電子機器は、未だそこまでの域には到達できていないように思います。あるいは、眼のような耳のようなデザインをほんの少しでも加えるだけでも良いかもしれません。シャチやパンダが可愛く見えて親近感が湧くのは、単なる模様のせいです。

もう一つは名前です。親近感を生むのに、固有の名前はとても重要です。生まれて間もない赤ん坊に対してすら、人は名前を訊ねては話しかけます。本人は勿論、自分の名前なんて理解できませんから、相手の意識をこちらに向けるためではないです。ただただ、話しかける方が気持ちをこめやすい、ということです。ましてや、自分の付けた名前なら、相手が例え機械であっても、ずっとずっと心のこもった言葉をかけやすいでしょう。
そのため、固有の名前を認識できるような機能を音声認識できる機器には是非搭載して欲しいのです。特定の音声周波数スペクトラムにしか認識しないのであれば、特定の人の音声にしか反応せず、誤作動もないでしょう。他人の命令は聞かないという、変な忠義心がちょっと面倒ではありますが。しかし、それぞれの使用者で異なる固有名称を登録し、その言葉が投げかけるのを常時待っているのでは、待機電力を使用し過ぎになりかねません。人のように、普段は全く気にしていないが自分の名前を聞いたらすぐに反応できるみたいに、特定の音波が来たときのみ、その音声をエネルギー源として作動し得るメカニカルなユニットが必ずや要ると考えます。
「留五郎、明かりとエアコン点けて、風呂沸かして」こんな言葉が聞こえるかもしれません。音声認識の名前は『留五郎』です。一つの家族の固有の一員、そうなってこそ、音声認識は受け入れられるのではないかと思う昨今です。ただ、音声認識してくれても、強力なお掃除ロボをもっていなければ、なかなか風呂は沸かせません。その辺がいささか難儀なところではあります。

モバイルバージョンを終了