究極のバイオハック、と言ってもいいかもしれません。
昨年秋に東京大学が行なったハッカソンJP HACKS。その中に他とはちょっと毛色が違ったデバイスがありました。
ヘッドフォンとカメラが一体になったデバイス「Sight」、テーマは「感覚の拡張」です。カメラで撮ってヘッドフォンで聞く…? まずは使用デモ動画をご覧ください。
トンネルを進んでいく映像。ランプが現れたり、出口が近づいたりと視覚を使って人間がとらえている景色の変化を音の変化として聞くことができるもの。色の違う積み木を音で聞き分けたり、手のグーとパーを当てたりということもできます。
そして先日「Sight」は、経済産業省の未踏事業に採択され、本格的な開発に乗り出すことになりました。「世界が聴こえる」感覚拡張デバイスと、彼らの目指す人間の未来について話を聞きました。
*「未踏事業」は、経済産業省所管のIPA(情報処理推進機構)が実施している、世の中を変えていく優れたクリエイターを育てる事業。採択されると、研究費などの援助を受けながら9カ月間にわたり各分野のメンターの指導のもとプロジェクトを進める。「あの感じ」を聞く
ギズモード・ジャパン編集部(以下ギズ) まずは未踏事業への採択おめでとうございます。ハッカソンから始まった「Sight」ですが、どんなモチベーションで開発をはじめたんですか?例えばSightを開発していた時期は秋だったんです。銀杏並木の道で銀杏の葉が降ってくる。積もった葉を踏んだときのさくさくした感じとか、まだ踏まれてないところのふわふわした感じ。これはどう考えても人の生活を支援することだけを目的として開発されたデバイスでは実現しえないものです。僕たちの視覚は生きていくため以上の情報を得ています。大学の講堂のアーチをくぐるとき、だんだん近づいていくと、自分の視覚のなかでアーチが大きくなっていく、そういう「あの感じ」みたいな感覚を音で体験できるようにならないかと。
ギズ 視覚を音として「あの感じ」を聞くために、Sightはどのような仕組みなのですか?このプロセスとパラレルなのが、コンピュータービジョン(コンピューターによる画像認識、処理などの研究)がやっていることです。入力された画像から特徴量を得て(人間の第一次視覚野で行なわれる。エッジ・かどを識別)、次にその配置から高レベルな情報を探っていく(人間の高次視覚野で行なわれる。運動方向の分類、物体認識)。抽象化していった先にある情報を全部まとめると、最終的に「クルマ」になる。僕たちはその途中のレベルの情報、エッジ・かどの情報の段階であえて音にして、その先の抽象化は脳に任せるんです。そうするとこれまでよりも幅広い情報を得られる可能性があるからです。
「いかようにも人の脳は変わりうる」
ギズ お話を聞いていると、「イルカになる」とか「知覚の仕方を拡張するとか」バイオハック的な試みにも感じられます。目で見るという行為を再定義することにもつながるでしょうか?伏見 というか、「見る」ってことに目が必要なのかってことかもしれないですね。僕たちはそれを普段は疑ってはいないけど、実は見るという行為は目がなくても実現できるかもしれない。目が普段は見落としていた、実は無視していた情報を耳で捉えなおすことで、もっと大きな構造だとか逆に細かいテクスチャーがわかるようになるとしたら、それはすごく面白い展開だと思います。ギズ 例えば「Sight」を24時間着けたままで生活するようになったときに、そのことによって人間の脳の機能や知覚のやり方が変わることってあると思いますか。「Sight」が情報の入力の構造を変えることで、それに適応する形で脳の構造が変わるっていうのは十分ありえるかな、と思っています。ただその先でどういった知覚の世界が広がっているのかは、やってみないとわからない。そこは僕ら自身の体で実験しているようなものです(笑)。また「Sight」によって今まで使われてこなかった脳の機能が出てきて、それによって人間の脳が広義的に進化することもあるかもしれない。そういった点で考えてみると、これは脳の機能自体を変えてしまうバイオハックの試みとも言えます。
鈴木 例えばアクロバット飛行をするようなパイロット。僕たちは宙返りすると、すぐにどっちが上かわからなくなるけど、常に飛び回っているような人はそういった環境での定位能力はすごく高くなっているんです。特定のスキルを日頃から行使していると、他の人と違った知覚ができるようになるっていうのはごくごく普通にあることなんです。音が聞こえているとき、今の僕たちは頭の方向を変えても、そんなにセンシティブには音の聞こえ方は変わらない。けどSightを着けているときに頭の方向が90度変われば、まったくサウンドスケープは変わる。Sightをずっと着けて暮らしているうちに、方向による音の聞こえ方の変化にすごくセンシティブになるかもしれない。そういう地味なとこから、知覚の変化が出てくるのではと思っています。和家 脳の進化というと大げさに聞こえるかもしれませんが、ピアノの練習を始めると、指の感覚に対して反応する脳の領域が拡大することが知られています。いかようにも人の脳は変わりうる。どれくらいすぐ変わるのか、どれくらい強く持続するのかまだわからないけれど、きっと何か変化はあるはずです。今度こそ人間はイルカになれる?
ギズ 未踏事業の期間を含めた今後の開発でやっていくこと、目指していくゴールはどんなものでしょうか。鈴木 「音」に関してはまだ手探りです。どうしたら聞き分けられるのか、不快じゃない音にできるのかは試行錯誤しています。ただ、緑いっぱいの田園では軽やかなメロディが聞こえるとか、音楽的なものにしてしまうと乗せられる情報量はかなり小さいしざっくりとしたものになってしまう。今のところは、自然からサンプリングして変換した環境音のようなものがいいなと思っています。ただしこれがベストなのかはまだわからない。音と空間的な特徴をどう対応づけるのかは、これまでもいろんな研究者が苦労してきたところです。伏見 ソニフィケーション、視覚的な何かを耳で聞こえるようにする技術が流行ったのが15年前くらいだと思います。先行研究は2001、2002年ごろが多い。みんなイルカになりたくてやってみた。でもこれは無理じゃないかと去っていったんです。そこにもう一度僕らが挑んでみる。武器があるとすると、ひとつは画像認識の技術がどんどん発達してきていることです。視覚的な画像から意味を抽出するアルゴリズムが発達してきました。その力を借りて昔の人たちができていなかったことができてくるのではと思っています。ギズ 最近ギズモード・ジャパンでもとりあげたんですが、画像をアップロードすると人工知能がそれが何かを教えてくれるウェブサイトとか出てきましたよね。伏見 まさにそういう技術の基礎を借りてこようと思っています。いまはディープラーニングの技術を応用した新しいバージョンに取り組んでいるところです。ディープラーニングのいま使っている一般物体認識のためのネットワークでは、15以上の層にわけてニューロンユニットを配置しています。入力に近い、つまり浅い層では、エッジ検出など単純な処理を学習し、深い層になるほど抽象的なものや景色の特徴を学習できるような仕組みです。「犬」をみたときに「ふわふわ」「目が2つ」「茶色っぽい」など「犬」を判断するための手がかりが、もっとも深い層のユニットに現れているイメージ。そこで学習されている情報を音に変換することで、ディープラーニングやぼくたち人間が物体を認識するために使っている高い抽象度の高い情報を変換しようという試みですね。鈴木 障がい者支援という文脈ではたくさん高度な技術がそろってきています。例えば指差すとその先が何色になってるかを教えてくれるとか。そういう意味では、実用的なものは作れるレベルになってきている。だから、僕たちはすぐさま実用化というよりはもう少し先を見ています。ギズ 現在は基礎の開発に取り組むフェーズにあるということですよね。現段階でも「Sight」のテクノロジーの一端を体験することはできますか?伏見 音響による空間知覚を体験できるようなキットを作って試してもらえたらいいなと。バンドを巻いてそこにiPhoneをさすような形を考えています。「Sight」は、カメラと音を出す装置があれば実現できるんです。スマートフォンのカメラは前方向しか撮れないので、普通の視野よりは狭くなりますけど。今は「簡単に配布・体験できるキット」と「正確に認識できるフラッグシップモデル」の2ラインの開発を同時進行している状況です。和家 (現時点のプロトタイプでは)目隠しをしているけど、本当に必要かどうかはわからないです。メガネ型にして、見ながら音が聞こえてもいいかもしれないし。今はコンセプトが先行している状態で、「Sight」の最終形態や、どう使われるか、どういった形で、誰が、どんな風に、は決まっていない段階なんです。具体的にどういった応用先があるかは、体験した人が考えていってくれるかもしれないし。それに向けた基礎の開発をやろうとしています。ギズ ありがとうございました!メンバーからは「すぐに役立つ便利なデバイス」をつくるのではなく、ヒトの感覚拡張にこだわって制作する姿勢が伺えました。
本格的な開発は始まったばかりのSightですが、開催中の東京大学制作展 EXTRA 2015「グッバイ・マイ・ボディ」にて体験することができますよ。
UPDATE(7/24 14:30): 「未踏事業」の説明部分を修正しました。
source: Sight(和家尚希、鈴木良平、伏見遼平、宗像悠里)
(斎藤真琴/取材協力:Haruka Mukai)