進化するグーグル画像認識ソフトウェア、画像の「状況」まで理解できるように

進化するグーグル画像認識ソフトウェア、画像の「状況」まで理解できるように 1

「フリースビーで遊んでいる少年達のグループ」という画像の様子までわかるのです。

画像認識に関する技術は、現在までかなり発展してきましたが、まだまだ先に行くようです。グーグルとスタンフォード大学が共同で研究開発しているソフトウェアは、画像に映るものを単語だけでなく、状況として理解できます。

ネタ元のニューヨーク・タイムズ紙によると、このシステムのソフトウェアに使われるアルゴリズムは、画像の中で何が起きているのかを説明できるんだそう。「公園で遊んでいる犬」とか「ダートロードでバイクにのる選手」など、画像内の状況をちゃんと把握できるのです。

このソフトウェアの実現には2つの神経回路が必要です。1つは画像を認識するもの、そしてもう1つは言語をプロセスするものです。システムはコンピューター学習を採用しており、読み込まれた多くの画像と文章がどのように関連づくかを学んでいきます。研究チームが開発しているソフトウェアは、既存の類似ソフトよりも2倍の正確さをたたき出しているといいます。

2倍と言えども、完璧ではありません。たとえば、トップ画像のオレンジの項目にあるようにちょっとしたミス(犬3匹の画像に対して2匹と認識)があるもの、黄色の項目は関連ありだけど惜しい(スケーターのジャンプと書かれていますが、ジャンプしているのは自転車のライダー)もの。は検討違い(食べ物と飲み物がたくさん入った冷蔵庫の表記ですが、画像は標識にシール)です。精度をあげるためには、これからますますの開発が必要になります。

研究にはグーグルが関わっていることから、近い将来グーグルの画像検索が変わる可能性も多いにあります。「ここがこうで、あーしてこう!」と詳細にしぼって検索できるのは、いろいろ捗るのでしょうね。…いろいろと。

source: Google Research Blog, Stanford University via New York Times

Jamie Condliffe - Gizmodo US[原文

(そうこ)