「このふたりは握手シマス...」→シター! MITの新たなAIはビデオを見て先を予測できる

応用法を当てられた人は賢い!

MITコンピュータ科学・人工知能研究所(CSAIL)で新しく開発されたアルゴリズムは、ビデオに映っている複数の人間が次に何をするか予測できるそうです。

ほう...なぜそんなことをコンピュータが学ぶ必要が?と思いますよね。

たとえばTVドラマの中でふたりの人間が近づいたら、「予測:握手する(Prediction: handshake)」「予測:キスをする(prediction: kiss)」という具合に予測するんです。こちらのデモンストレーション動画では見事にバシバシ当てていっています。

テレビに設置することであらゆるドラマ・映画のエンディングを予測してしまう究極のネタバレ装置をMITは開発しようとしている...わけではありません

実はこれ、近い将来ロボットが人間と交流をするときに自然な言動ができるようにするためだそうです。相手が握手をしようとしたらロボットも手を差し出す、相手がハグをしようとしたらロボットも腕を広げる、と本当にロボットが人間と自然なコミュニケーションをするためには人間が何をしようとしてるのか正確に予測する必要があるんですね。

人間の直感と同じ精度をアルゴリズムに与えるために、研究者たちは「ジ・オフィス(The Office)」や「デスパレートな妻たち(Desparate Housewives)」といったTVドラマ、YouTube動画を数えきれないほど分析したそうです。そうして開発されたアルゴリズムは動画の1コマを元に、手や人間の顔のパターンを認識し次に画面に映る人間が何をするか予測するとのこと。たとえば顔が近づいている場合はふたりの人間はキスするんだな、と考えるわけです。

確かに人間である私たちは何も考えずに握手の手が伸びたり、おじぎしたりするわけですが、ロボットにそれを教えるのは難しそう。

アルゴリズムが学習に使ったのはなんと600時間分の動画。その結果ハグ、握手、ハイタッチ、キス、といったアクションを1秒前に予測できる確率は43%とのこと。まだ人間と同じ精度とまではいきませんが、感心ですね。

しかし、本当にロボットと握手やハグをする日がくるんでしょうか...。

source: MIT CSAIL

Andrew Liszewski - Gizmodo US[原文

(塚本 紺)