グーグルの人工知能「DQN」、ピンボールは得意でもパックマンは苦手

先のことは考えない…名前が名前なだけに?

グーグルは去年人工知能開発会社のDeepMindを買収しましたが、それ以来人工知能に厳しい課題を与えて鍛えてきました。その課題とは、Atari 2600のゲームです。って、大したことないじゃんと思われるかもしれませんが、Atariのゲーム49種類のプレイぶりから、DeepMindの人工知能の強みも弱みも見えてきました。

今週発売の学術誌ネイチャーに掲載された論文では、DeepMindの人工知能エージェント「Deep Q-Network」、略して「DQN」がいかにゲームのプレイ方法を学習していったかが詳細に記されています。DQNの育ち方には、従来の人工知能とはまったく違うものがあります。彼はゲームのルールをあらかじめ教えられることはなく、すべて体当たりで試行錯誤しながら学習していったんです。つまり、正しい操作を偶然発見するまでひたすらキーをランダムに叩き続けたわけです。

この学習の仕方はある種のゲーム、たとえば上の動画のスペース・インベーダーとかポン(Pong)、ビデオピンボールなどにおいてはすごく効果的で、DQNが人間のプロゲームテスターを負かすほどでした。でも49種類中20種類のゲームでは、人間には及びませんでした。ゲームごとに人間とどんな差があったのか、こちらで見られます。この結果についてMIT Technology ReviewのTom Simonite氏は次のように説明しています。

クラシックゲームのミズ・パックマン(訳注:パックマンと大体同じ)は、このソフトウェア最大の弱点を端的に示している。それは、数秒後のことさえも先に計画することができないのだ。だからこのシステムは、迷路を無事に通りぬけ、最後のエサを食べてレベルをクリアする方法を割り出すことができない。それはまた、特定の魔法のエサを食べると、普段絶対に避けたいゴーストを自分が食べられるようになることを学習できない。

つまりDeepMindのソフトウェアは、現在のことしか考えられない。それは、どんな操作がうまくいくのかとか、次の操作を選択するために過去の経験をどう使えばいいかといったことを学習するために、ゲームプレイのビデオフレームのうち直近4コマ(たった15分の1秒)しか振り返らない。ということは、それはきわめて即時に成功するような戦術で進行可能なゲームしかマスターできないということだ。

日本のネットで言う「DQN」のことかと見紛うような弱点が書かれていますが、多分今後のバージョンではもっと記憶力が強化されて、長期的な戦略判断もできるようになると思われます。そして最終的には、検索キーワードを理解したり、文章を翻訳したりといった実世界の複雑な問題にも応用されていくことでしょう。でも今のところ、パックマンで我々が負けることはないみたいです。

source:Nature

Sarah Zhang - Gizmodo US[原文

(miho)