1998年に発売された家庭用ゲーム機、ドリームキャストの味を決定づけた名作ソフト『シーマン ~禁断のペット~』。その開発者として知られるゲームクリエイターの斎藤由多加さんが、2017年6月に「シーマン人工知能研究所」なるサイトを立ち上げました。
「シーマンの続編のためのプロジェクトが始まったのか!?」とも思える字面ですが、サイトの説明によると、AIが用いる会話エンジンについての研究を目的としているとのこと。『シーマン』ではマイクを使って妙ちきりんな人面魚とユル~く対話したものですが、その経験がAIの会話エンジンにも活かせるのではないか?と仮説を立てたそうです。
斎藤さんがイメージする会話エンジンとはどういうものなのか、また同研究にて提唱されている日本語の抑揚を認識する「メロディ言語認識」とは一体どのようなものなのか、そしてファン積年の願いである『シーマン』の新作はあり得るのか、気になる疑問を斎藤さんご本人に伺いました。

──「メロディ言語認識」は、日本語の抑揚を認識するとありますが、これはどういったものなのでしょうか?
斎藤由多加(以下、斎藤):抑揚認識の技術はまだ出回っていませんが、音声認識の次のバージョンとして、そういったものが出てくるであろうという前提で研究をしている人は複数います。「メロディ言語認識」は僕の造語で、業界では「ピッチ認識」というのが正しい呼び方です。ただ、この認識エンジンが存在したとしても、単体だと使い方がまだ不明です。ですが僕らは、そこに覆いかぶさるライブラリーみたいなものが用意されて初めて立体的に物事が認識される、その周りの部分を今作っているところです。あとはそれに沿ったメロディー言語独自の文法体系のような決めごとを作っています。
──メロディ言語認識を使えば、もっと口語的に音声アシスタントとの会話などが成立するのでしょうか?
斎藤:そうです。ちょうど20年前、1997年から98年にかけて音声認識を作り始めたんですが(『シーマン』の発売は1999年7月)、たとえばシーマンが「昨日どこに遊びに行ってたの?」って聞いてきた時に、「クラ⤴ブ」って答えても「クラ⤵ブか、オマエ女の子好きなんだな」と返してくる。これの連続なんですよ。この違いはピッチでないと認識できないので、今のところはまだ認識できないんです。「食べる⤴?」も、「食べる」になってしまいます。でも、僕らが普段しゃべっている口語って「それはおいしいですか?」なんて言わずに、「それおいしい?」って言うじゃないですか。もし、それがとれるとしたらって割り切ると、文法がずいぶん変わるなと思ったんです。
省略された会話から何かを抽出して意味にするなら、そのためのメロディがとれれば、言語の文法は体系化されるのではないか? そういった仮説をここ3年ほど組み立てていて、メロディに規則性があることがわかってきたので、それを新しい文法に当てはめて「メロディ文法」という名前をつけ、文字的には完結してなくても意味的には完結している、という結論に至りました。
──新しくできた単語(バブみ、ワンチャンなど)にはどのように対応するのでしょうか?
斎藤:新しい単語については、その意味がわからない人間もいるように機械にもわからないです。でも、たとえばその単語が尻上がりに「けちょもけ⤴?」となったら、その意味はわからなくても何かを聞いているんだろうというのは不思議とわかると思うんです。それが外国語であっても。単体の言葉の意味とは別に疑問形というフォーマットはありますからね。
──日本語の会話が遅れている理由はなんだと感じているでしょうか?
斎藤:みんな日本語の文法があると考えて頑張っていますけど、結局そこからモノができていません。じゃあどうしようか?というところで止まっていると思います。誰かが「日本語の文法は無い!」って言い切らない限りは、それを作らなきゃとはなりません。下一段活用の何形だとか、そういう文語表現に関しては文法から可逆表現が可能ですが、 今しゃべった文章が何活用の何形かなんて、みんな普段考えないじゃないですか。たとえば、「今度食べたらぶっ殺す」っていう文章が何ワードで構成されているのか?って質問しても、日本語だとわからないんです。アルファベットなら単語間にスペースが入るから即座にわかるんですけど、何ワードかわからない言語はそもそも組み立てられるのか、単位が曖昧なものを組み立てられるのか。それがイロハのイとして崩壊しているような気がします。
でも、「今度食べたらぶっ殺す」をシーマン言語にすると、2ワードなんです。
──少ないですね。名詞、動詞、助詞などで考えるともっと多くなりそうです。
斎藤:正確には3ワードなんですけど、つまりは「食べたらぶっ殺す」を1ワードとして、これを「食べる」の活用形だと定義したんです。「食べる」の活用形の現在形の命令否定レベル5なんです。「食べてんじゃねーぞ」がレベル4、「食べるなよ」がレベル1という具合ですね。現在形や未来形を行き来しながら、「食べたかったなー」とか「食べてないもん」とか、そういった活用形が700~800くらいあります。でも、それは日本語のテストで出すにはあまりにも多い。だから「食べれ」とか「食べろ」とかの五段活用で覚えさせているんですけど、そういった認識とはアプローチを変えた、慣用表現も含めた1パッケージとして中にパラメーターを持たせて考えています。たとえば、「食べる」の依頼形のレベル5は何かというと……。
──「食べてください」……でしょうか?
斎藤:もうちょっと上で、「食べてもらわないと困るんだよね」みたいな感じです。「食べる」と「困る」を分けて考えないようにしました。それは他の「眠る」とか「走る」とかにもすべて通用するので、日本人は動詞の意味は省略して慣用句に当てはめて文章を考えているんじゃないか、だから話しながらポンポン出てくるんじゃないか?と。でも、その代償に脳というHDDを大量に消費してしまっているので、他の言語を学ぶスペースが空いていないのでは?とも思います。私の仮説ですけどね。
──もう完全に、日本語として文法の固定観念を捨て去ったアプローチのように感じます。
斎藤:今までもっていた名詞や動詞といった決まりごとを取っ払ったら、まったく違う文法体系が浮かび上がってきて、僕たちはそれで会話しているんじゃないか?と思ったんです。調べてみると日本語の文法は半分以上が戦後に作られたもので、かなり後付けでした。その文法で何かが組み立てられたのか? あるいは組み立てられるのか?って頭の良い人が今みんな困っちゃってるんですよね。ゆえに日本語は遅れに遅れていると思うんですけど、それを壊すだけではなくて、もっと上手い形にできたらいいなと思いました。
助詞とか「です」とか「ます」とかはわかりますけど、そこから先に進まないじゃないですか。
──文法的にそれが解剖できたからといって、それを使って美しい文章が組み立てられるというわけでもありませんしね。
斎藤:そうですね。「お茶だからなんだってんだ」といった文章も僕らは普段から使っていて、これも「お茶です」の活用形です。でも、こうした活用を紙や教科書に書き出して「食べてんじゃねーよ、ハイ復唱しましょう」とかやっちゃうと頭がおかしくなると思います(笑)。これは、教科書で教えるアカデミズムは断片でしかあり得ないということの象徴ではないかなと。──体系化することで構築される何かも出てくることを考えると、誰かが挑まないといけないのかもしれません。
斎藤:そんな感じです。それで社名にも『下町ロケット』風の意味合いを込めて「シーマン人工知能研究所」にしました。いかにも「下町の玉三郎」みたいでいいじゃないですか(笑)。なので、資金繰りもしばらくはTシャツを売るとかでやっていくつもりです。──Tシャツといえば、斎藤さんのツイートでスタッフの皆さんが「Don't Panic」とプリントしてあるTシャツを着ていましたが、これはどういった意味を込めて使用しているキーワードなのでしょうか? 『シーマン』のパッケージにも書いてありますよね?
斎藤:いかにもさっきの話の慣用句っぽく捉えているのがカウンターカルチャーな匂いというか、ふざけた感じがして良いというか。それで使っています。Seemingly, a new project is being started. Guess what from the web-address on their back. pic.twitter.com/h9eiUjGosL
— 斎藤由多加 (@YootSaito) 2017年5月25日
──97年頃に音声認識の研究をしていたと仰っていましたが、『シーマン』の開発をされていた頃はどのような苦労があったのでしょうか?
斎藤:当時の音声認識はナビゲーションというのが主流で、ディクテーションという認識は当時のドリームキャストにはメモリが小さくて入りませんでした。あらかじめ用意された選択肢の中から一番認識確率の高いものを引っ張ってくるのがナビゲーションで、ワープロに使うような「今日は雨だったけれどもトンネルを抜けたら雪だった」みたいな、文章に置き換え直してくるのがディクテーションですね。限られた選択肢の中から選ぶのではなく、限られていない言葉の中から選ぶという意味で作文的です。
当時ドリームキャストに実装できたのはコマンド選択向けのナビゲーション認識でした。そもそもディクテーションでやるようなゲームはありませんし、それだと100個くらいしか認識できないんです。そのため、選択肢が100個以上あるような質問はできません。
「お前どこから来たの?」って聞いた時に、国内だと日本で済みますけど、海外版を出す時にこの質問が国を聞いているのか、州を聞いているのか、パターンが無限すぎて聞けないということがありました。今の人たちにはイメージしづらいと思うんですけど、当時はネットにつながっていないので、全部1つのハコの中で完結していないといけませんから。
──今の時代に『シーマン』を出すとしたらどんな存在になるのでしょうか?
斎藤:これはよく聞かれる質問なんですけど、今の会話エンジンができるまでは作る気がないです。なぜかというと、固定長の会話……、つまりあらかじめ用意されたシナリオの会話にのっとってシナリオが分岐して会話が変わっていっても、結局のところ分量を変えただけの固定長会話なんですよね。お決まりの会話だけこなしてしゃべらなくなるロボットみたいなのは、もうやりたくないんです。
順番が無ければ長さも固定されない、シナリオが無くてもしゃべる自立型の会話を僕は勝手に“AI”と呼んでいるんですけど、それが完成しない限りは作りませんね。

──自立で会話できるAIとメロディ認識による会話エンジンが融合したら、もはや人間との会話と遜色がなさそうです。
斎藤:人間と言うとちょっと大げさかもしれないですけど、相手が何を言っているのかのその度合いやレベル、ニュアンスまで数値化して、IBMのWatsonとかに「早く調べろっつってるだろ」と言ったら「調べるけど、ちょっと急いでます」って返してくるだとか。そうした「しゃべった言葉&ニュアンス」の、プロトコルの部分だけIBMのような会社の方々が協力してくれれば、すべての機械のフロントエンドプロセッサへ会話エンジンを渡して、あとは他社さんが頑張ってくれれば会話もできるようになる、みたいなことを目指しています。その調べる部分まではやろうと思ってなくて、あくまでも人間側のラストワンマイルをやっているつもりです。
でも、そこは命取りな部分でもあると思っていて、競うなら光ファイバーの部分ではなくラストワンマイルにして、そこをキッカリ作っておいて、海外から黒船が現れた時にはどうぞどうぞと言えるようにしておきたいなと思っています。
──最後に、もし究極の会話エンジンがあるとしたらそれはどんなものになると思いますか? また、それに至るに必要な研究はどういったものだとお考えですか?
斎藤:究極かどうかはわからないですけど、当面僕が重要だと思っているのは言葉と言葉の間(ま)です。『シーマン』を作っている時も間がすごく重要だったんですけど、続編の『シーマン2 ~北京原人育成キット~』を作った時は開発チームが大きくなったせいで、セリフとセリフの間を全部カットしちゃったんですよ。たとえば、「○○だよなぁ……(2秒)、でもさぁ」っていう風にしたいところも全部マシンガンみたいに話しちゃったんですよね。その修正に追われて発売が延びてしまったことがあります。間というのは白い間だけでなく、ため息なども含むもので、「疲れたぁー……」って言ったら「疲れた時には○○がオススメです」みたいに返すのではなく、「どうしたの?」って慰めてくれるような、そんな機能はいわゆる昨今の音声アシスタントには入っていないと思うんです。人の気持ちを汲み取ってくれるようなことが『シーマン』の役割なんじゃないかなと思っています。
ビッグデータやディープラーニングのエンジンに渡したりせず、ローカルで「先週もそんなこと言ってたよね?」みたいな、そういう傾向分析はビッグデータにはありません。海外から来ているAIはほとんどがECや購入動機のために作られていますから、そういう風にユーザーのことを覚えたりするものはないです。気持ちを推し量るAIというものは存在しません。そのために重要なのはため息だったり間だったりといったものです。
すぐに顔認識などで疲れを検知するだとか、嘘をついているだとかいうFBIみたいなことをやろうとするんですけど、そうじゃなくて、言葉に宿る文脈が大事だと僕は思っています。
──まさに、間は文脈に宿るものですね。
斎藤:今のSiriのような一問一答型のAIには文脈や短期記憶は宿らないですよね。多少はあるかもしれませんけど、それは購入履歴だったりするわけで。なので「文脈と間」、つまりはお財布ではなく気持ちです。それを汲み取って人を癒やしてくれるものでないと家庭にはなかなか置かれないと思いますし、僕も置きたいとは思いません。──その気持ちや間という部分が、売り手からすると必要の無い要素だと判断されているのかもしれませんね。
斎藤:それこそ日本というワビサビの国ならではの発想です。『her/世界でひとつの彼女』という映画がありますけど、タイトルは「はぁ~……」というため息のことを指しているんじゃないかと僕は思っています(笑)。あの感じを出せるようにならなきゃなと感じていますし、アーサー・C・クラークのSF小説からNASAが人工衛星を作ったように、あり得ない模範の中に何かを学びたいですね。でも僕がやっているパートは、AIという大きな枠の中でも言語処理という本当に小さなパートなので、実際に裏側で動くものとのコンビネーションで、お互いに価値が出るものだと思っています。これはあくまでも、人間とのやりとりの橋渡しをするものだと考えているので。
僕がやっているのは、人工知能の人間側の役目かなと思っています。機械に理解してもらうには人間側でやっておくべき数値化みたいなものがあって、引っ越し屋でいうと、住人が段ボールにつめてから渡すようなものです。上手く段ボールにつめるのは引っ越し屋の仕事ではなくて、住人側がやるべきことだと思っています。
人工知能を引っ越し屋とするなら、今のところ住人側がけっこう乱暴なので、人間側が丁寧にやっておかないと、そこのところが一緒になってしまうぞ、ということかもしれません。
今回は特別にインタビューの中でも話題に上がった、シーマン人工知能研究所のTシャツ(サイズXL・ネイビー/サイズS・グレー、デザインは共通)を合計2名様にプレゼント!

プレゼントをご希望の方は、ハッシュタグ「#ギズモードシーマン」をつけてツイートしてください。当選した皆様とのやり取りはTwitterのDMで行いますので、ギズモード・ジャパン公式Twitterのフォローをお願いいたします。なお、サイズ/カラーの指定はできませんので、ご了承ください。
募集は7月27日(木)午前10時00分までです。ご応募お待ちしております!
Photo:ギズモード・ジャパン編集部
Image: @ Seaman AI ALL Rights Reserved. via シーマン人工知能研究所
Source: シーマン人工知能研究所, Twitter
(ヤマダユウス型)