コンピューター学習システム、Androidはどのようにユーザーの声を理解しているのか

コンピューター学習システム、Androidはどのようにユーザーの声を理解しているのか 1

話しかけることがメインのインターフェースになる未来。

現在すでに、音声認識機能はスマートフォンに広く取り入れられています。バリバリ使用している人はまだ少ないでしょうが、将来的には話してコントロールするのがメインのインターフェースになる可能性も小さくありません。そのために1番必要なのはなにか、それは機械にユーザーの話した内容を理解させること、です。もちろん、これはなかなか大変。ネタ元のWiredが、グーグルのAndroidを取り上げて解説しています。

Androidにユーザーの声を理解させるのに最適な方法は何か、それは人のように会話から学ぶこと。グーグルがAndoroidで開発を続けているのがまさにこれ、人の脳のような学習システム。グーグルの「神経ネットワーク」の研究員であるVincent Vanhoucke氏によると、Jelly Beanにおける音声認識のエラーは25%も減少したと言います。

Androidの音声認識ソフトウェアに話しかけると、話したことがスペクトログラム化され、それを分断しグーグルが持つ8箇所のサーバー内コンピューターに送信。そして、そこでデータをプロセスし、Vanhoucke氏率いるチームが開発した神経ネットワークモデルによって利用されて行くというしくみ。

Jelly Beanには、この神経ネットワーク技術の最先端が導入されていますが、使い道はこれだけではありません。人間の脳のように学習するシステムは、画像検索にも大きく貢献していくと考えられています。今日の画像認識は、画像をピクセルの集合としてとらえていますが、将来的には画像を実際の物として見て認識できるシステムが完成するかもしれません。

コンピューターの人間化、便利だけれどやっぱりちょっと怖い。

Wired

そうこ(Eric Limer 米版