ゾンビが繁殖した時の参考になりそう。
非営利団体のAI研究企業OpenAIが、人工知能にかくれんぼを学習させてみました。いくつか動かせる障害物を自由に使わせ、閉鎖された空間と開放された空間にて、何日も並行して何百万回も鬼と子を対決させた結果…? あ、バーチャル空間での実験です。
AIは自ら、6つの戦略を編み出したのだそうです。もしかしたらゾンビや連続殺人鬼から逃げるとき、大いに参考になる可能性がありそうです。
bOinGbOinGが取り挙げた動画をどうぞ。対戦ゲームみたいでおもしろいですよ!
ルール
使われたのはオブジェクト(箱)とランプ(坂道)とバリケード(壁)。鬼はLiDERのようなセンサーを持ってるので子との距離を知ることができ、また視界に入る子を認識できるようになっています。そして両者は箱をロック(固定)することが可能で、同じチームしか解除できません。
閉鎖空間にて
まずは閉鎖された狭い空間の中で実験してみました。空間は2つの部屋に別れています。まず子が編み出したのが「ドア・ブロッキング」という技。箱を自分がいる部屋の入り口に固定することで、鬼の侵入を防ぎます。その後AIは複数の子らを協力させて入口を塞ぎ、籠城することを学習しました。ですが鬼も坂道が使えることに気付き、壁を乗り越えてくるように。すると今度は子が坂道オブジェクトを自分がいる部屋に運び込み、その上で入口を塞ぐことを覚えました。一進一退の攻防ですね。
開放空間にて
つぎは広い開放された空間で、部屋が区切られておらず、真ん中にちょっとしたパーティションがあるだけというフィールドで実験。まず子は坂道と箱を固定し、バリケードを三角形に組んで閉鎖された部屋を作りました。すると鬼は箱の上に乗った状態で箱をサーフィンのように動かしながら子を見つける離れ業が炸裂します。すると今度は子はすべてのオブジェクトをロックし、サーフィンできないように対策。バリケードで三角を作って隠れることを学んだのでした。
ここでAIが目指すもの
強化学習で使われたアルゴリズムは「セルフ・プレイ」といいます。OpenAIいわく、鬼と子は互いにひとつの目標を目指してしのぎを削り合い、両チームには成功と失敗により+1と-1のポイントで成果を与奪、そしてエリア外に出ると罰が与えられるよう設計しているとのことです。
ちなみに実験開始時「エピソード0」には、鬼と子はただランダムに動いていたものの、「エピソード269万」までで鬼が追いかけることを学び、860万回目までで子はドアを塞ぐことを学習。鬼が坂道を使いこなせるようになったのは1450万回目という途方も無い繰り返しがあったのだそうです。
最終的に「エピソード4340万」以後は、子が役割を分担し、坂道を室内に持ってくる係と、ふたつの箱を運びやすい位置に準備する係にわかれていきました。開放空間でもほぼ同じ進化を辿り、エピソードは4万8100万にまで到達したとのことでした。
OpenAIでは、鬼と子がありえない行動で、物理エンジンの意図しない方法を悪用する方法を見つけたことも併記されています。
それはまず箱に乗ったまま移動するサーフィン、そして開放空間でエリアを指定しなかったときに起こった永遠の逃走。また子がバグを利用して、部屋の角の隙間から坂道を投げ捨てたり、鬼が坂道を壁まで押して衝突した勢いで空中に飛び上がり、一気に子のいる場所に落下する、という4種類でした。人間も法の目をかいくぐってインチキしますもんね。使える手段を選ばない、大胆な頭脳戦が繰り広げられました。
OpenAIにはGifアニメが掲載されているので、ぜひご覧ください。
優しさ=効率化?
仲間のために箱を準備する行動ですが、これはAIからすると単に最も効率が良い方法に辿り着いただけだと考えられます。ですが人間の目から見ると、それが優しさや思いやりだと感じてしまうかもしれないな、と思いました。「AIは心を持つか?」という永遠の疑問はまだまだ解決しなさそうですが、こういうことから少しずつ「心」らしいものを芽生えさせていくのかもしれません。
たしかによくよく考えると、人間の世界でも優しさと効率化は紙一重って気がしないでもないですよねぇ。
Source: YouTube, OpenAI via bOinGbOinG