グーグルの頭脳が処理するのは「言葉」から「意味」へ

※ギズモード今回のテーマは「Memory [Forever]」

特集一覧はこちらからどうぞ

グーグルの頭脳が処理するのは「言葉」から「意味」へ 1

情報を扱う会社にとってデータセンターが頭脳だとしたら、グーグルの頭脳はずばぬけていると言えます。グーグルはどんどん進化していますが、基本的には、全てを「知りつくす」ビジネスで、その扱うデータは膨大です。

グーグルがいかにその頭脳を磨いているのか、続きで解説します!

 膨大なデータを処理するためのグーグルの主要武器はMapReduceという自社開発システムです。通常のフレームワークでは、きちんとタグ付けされ、整理されたデータベースが必要になるのに対し、MapReduceはプロセスをシンプルにすることで、どんなデータでも処理でき、たくさんのマシンに分配することができています。

MapReduceには、その名のとおりふたつのステップがあります。MapステップReduceステップです。2008年時点、WiredではGoogle Books内での単語出現頻度の判定タスクを想定した解説をしています。

Mapステップには、MapReduceの独自性が表れています。マスタコンピュータがリクエストを受け取ると、それをより小さな、処理しやすい「サブ問題」としてワーカーコンピュータに分配します。「サブ問題」は、データが複雑な場合はワーカーコンピュータによってさらに分割されます。例で言うと、Google Books全体はマスタコンピュータによってたとえば著者別に分割され(おそらく実際はスキャンされた順とかですが)、ワーカーコンピュータに分配されていきます。

次にそのデータは保存されます。効率を最大化するため、元データはワーカーコンピュータのローカルハードドライブに保存され、マスターコンピューターには処理結果のみが戻されます。

次にReduceステップです。データを保存しているコンピュータから、別のコンピュータが、データを受け取り、問題を処理しやすいフォーマットに整形します。Google Booksの例で言うと、ここでは処理データを個々の単語とその単語のGoogle Books全体での出現頻度のリストに整形します。

MapReduceシステムのアウトプットは、Wiredによると「データについて記述されたデータセット」です。このケースでは、アウトプットされたデータには、各単語に対し、その単語のGoogle Booksでの出現頻度が記述されています。単語を聞くと、その単語がGoogle Booksに何回出て来るかを答えてもらえる、ということになります。

グーグルの頭脳が処理するのは「言葉」から「意味」へ 2

MapReduceは、グーグルが膨大なデータを処理するための技術のひとつにすぎません。もうひとつのすごい技術は、すでにグーグルのマシンが持っているデータ、すなわちインターネット上のデータ全体の処理技術です。

先月のWiredではグーグルの「Webを支配するアルゴリズム」が検討される様子を伝えていました。そこでのポイントは、グーグルには、固定されたアルゴリズムはひとつもない、ということです。むしろ、グーグルは常に技術を進化させています。ソーシャルメディアなどの新たな検索対象を開拓し、検索のパーソナライズなどの手法で検索精度をより高めています。

が、グーグルの技術の究極目的は、検索された言葉と、検索結果のWebサイトをマッチさせることにとどまりません。グーグル検索の神、アミット・シングハルさんは「言葉のマッチングだけじゃだめ。意味のマッチングが必要なんだ。」と説明します。

言葉は、使われる言葉全部を集めても、有限のデータセットです。言葉を保存するだけなら巨大なデータセンターは不要で、辞書があれば足りてしまうでしょう。が、意味の方は、おそらく人類にとってもっとも深遠なデータセットであり、我々人類が日々処理し、格闘しているものです。

我々人間の中にはいわばMapReduce機能、またはもっと柔軟に微妙な問題まで扱える機能があり、言葉や現象の意味を探し、文脈や背景を捉え、我々がどう反応すべきかを考えているのです。

ある意味、グーグルのデータ処理機能は我々の能力を大きく超えていますし、MapReduceのようなフレームワークはそれを表す一例と言えます。が、意味を処理する能力は、まだまだ、たった一人の人間でも、グーグルのマシン群より高いと言えるでしょう。

グーグルの「頭脳」が、「意味」のうえでも人間を超える日はやってくるのでしょうか?

Memory [Forever]とは?

ギズモード今回のテーマは「Memory [Forever]」。

デジタルにエンコードされたメモリー、永久に残るメモリーの意味を一緒に考えていきます

[Wired, Wikipedia, and Wired / Image credit to CNET]

Kyle VanHemert(原文/miho)