今度はポーカーでAIが人間を超える! その重要な意味とは?

今度はポーカーでAIが人間を超える! その重要な意味とは?

ギャンブルに強い、だけじゃないらしい。

1月30日まで20日間、12万ハンド(ゲーム)もの規模になるテキサスホールデムポーカー大会「Brains Vs. Artificial Intelligence」が行なわれ、「Libratus」というコンピュータプログラムが4人のプロポーカープレーヤーに170万ドル(約2億円)という大差をつけて圧勝しました。この勝利は単に人工知能(AI)がゲームに勝ったというだけではなく、AI史にとって重要なマイルストーンなのです。

この結果が示しているのは、今回行なわれたヘッズアップ・ノーリミット・テキサスホールデムポーカー(HUNL)も、オセロ、チェス、チェッカーズ、囲碁などに並んで、AIが人間最強のプロを超えたゲームの一員となったということです。

しかし、チェスや囲碁と違い、この人気の高いポーカーのルールはブラフ隠しカード不完全な情報など、コンピュータにとって非常に扱いにくい要素があります。コンピュータ科学者たちは、HUNLがゲーム攻略の「最後の砦」であり、AI開発において重要なマイルストーン、つまり、人間により近い知能への大きな一歩としています。

「Brains Vs. Artificial Intelligence」トーナメントは1月11日にピッツバーグのRivers Casinoで始まり、カーネギーメロン大学のコンピュータ科学者たちによって作られたAIのLibratusと、4人のプロポーカープレーヤー、Dong Kimさん、Jimmy Chouさん、Jason Lesさん、そしてDaniel McAulayさんを戦わせるというものです。4人は20万ドル(約2300万円)の賞金を当然狙っていたわけですが、Libratusに勝ったという名誉も同時に狙っていました。彼らは世界でも有数のHUNLプレーヤーですが、対するAIは非常に手強い相手ですからね。

Libratus(ラテン語で「均衡した」という意味)は9日間で5,000ハンド近くプレイし、結果45万9154ドル(約5300万円)もリードしました。月曜日が終わる頃には、2位との差は70万1242ドルにまで広がりました。プレーヤーたちは、AIの一歩先を行くのに苦戦していたようで、カーネギーメロンの発表において、Chouさんは「AIは日増しに強くなっていくんだ。僕らのより強いバージョンみたいだよ」と発言していました。

リミット・テキサスホールデムは2015年にはAIによって「攻略」されていました。しかしHUNLはAI開発者にとってより大きな挑戦なのです。カードは部分的に隠され、プレーヤーは実際に起こっていることのごく一部しかわかりません。勝つためには直感を信じ、他のプレーヤーの行動を読む必要があります。つまり、今までのゲーム用AIと違い、Libratusは不確定要素と、ゲームの特徴の中でも人間の独壇場とされていたことを相手にしなければならなかったのです。

攻略にあたり、コンピュータ科学教授であり、カーネギーメロン大学のチームを率いるTuomas Sandholmさんと、彼の生徒のNoam Brownさんは、Libratusにポーカーのルールを分析し、自分自身で戦略を作り出すアルゴリズムを搭載しました。驚くべきなのは、この学習アルゴリズムが適用できるのはポーカーだけではないということです。

Libratusは「Bridges」と呼ばれる強力なスーパーコンピュータを使い、現在のトーナメントも含めて過去のプレイをシラミつぶしに分析してポーカーのスキルを磨いています。ゲーム中、Bridgesはリアルタイムで計算を行ない、Libratusがハンドごとに決め手の戦略を選べるよう助けるのです。

WiredのライターであるCade Metzさんは記事を投稿し、「Libratusの成功には人間の手が加わっている」と注意を促しました。Libratusのプレイスタイルは日ごとに大きく変わっており、Metzさんはそれを根拠に、研究者がシステムの行動をマッチ毎に変えているのではないかと仄めかしました。

しかしSandholmさんによれば、日ごとの大きな変化は、BridgesがAIの戦略を研ぎ澄ましていることを考えれば驚きではないとしています。トーナメント中のLibratusの進化に、人間プレーヤーは困り果てている様子。「最初の2日くらいはかなり希望があったんだけど」とChouさん。「でも弱点を見つける度に僕らから学んで、次の日には弱点が消えているんだ」

170126_aipokerwin02.jpg

ではそういった改善は、Metzさんの言うように人の手によるものなのでしょうか? その可能性は低そうです。

LibratusとBridgesのコラボレーションは、膨大な力(Bridgesは1500万core hoursの計算力と2.5ペタバイトのデータにアクセス可能)と、ディープラーニングの柔軟性に支えられています。相手と自分の成功や失敗から学んでいるのですから、当然Libratusは時間とともに戦略を変えてくるでしょう。質という意味では、トーナメントの開始時点と終了時点でLibratusは全く違うものになっているハズです。

ポーカーに勝つのも良いのですが、このシステムはより幅広い分野での応用が期待されています。Sandholmさんによれば、現実世界の状況とは、言わば「不完全な情報」を使った「ゲーム」なのです。彼は、似たようなシステムが交渉サイバーセキュリティー医療プランニングなどに使われていく未来を想定しています。

より概念的な話をすると、Libratusは人工汎用知能(AGI)の開発に向けた大きな一歩でもあるのです。AIは学ぶ視野が狭く、チェスや囲碁などひとつのタスクに特化する以外ではおバカになりがちです。しかしAGIは汎用性に優れ柔軟性があり、ポーカーのルールから株の取引まで多くの新しい情報を学習できるのです。

私たちの脳は、言ってみれば生物汎用知能の最たる例です。ここ最近のAIの飛躍的進歩と、Libratusのポーカートーナメントでの勝利は、私たち人間のように考えて行動する人工知能に少しずつ近づいていることを意味しています。

開発チームのひとりであるBrownさんは「ボットが人間相手にブラフしているのを見た瞬間、『そんなこと教えてないぞ。できるなんて知らなかった』と思いましたよ。そういうことできるものを作れたというのは、満足感がありますね」と。

しかし、 ルイビル大学のコンピュータ科学教授Roman V YampolskiyさんはThe Guardian上で警鐘を鳴らしています。「ポーカーどころの騒ぎではありません。ビジネスや軍事の分野で人間を圧倒できる機械ができるのです。人類がそれにどう反応するのか、心配でなりません。」

いずれは、多くの人間が不要になってしまう世の中になってしまうのでしょうか。ライターの私たちも大丈夫かな...。

トップ棋士を次々と破る謎のネット棋士「マスター」…正体はGoogleの人工知能AlphaGoだった

image: Carnegie Mellon University
source: Carnegie Mellon University, Brains Vs. AI Poker Tournament, YouTube, Science, Wired, The Guardian

George Dvorsky - Gizmodo US[原文
(scheme_a)

    あわせて読みたい

    powered by