Google I/Oで発表されたAIたち。Bard、PaLM 2関連まとめ

  • 17,037

  • author Kyle Barr and Andrew Liszewski - Gizmodo US
  • [原文]
  • 福田ミホ
  • Twitter
  • Facebook
  • LINE
  • はてな
  • クリップボードにコピー
  • ×
  • …
Google I/Oで発表されたAIたち。Bard、PaLM 2関連まとめ
Image: Google/Gizmodo US

Google全力のAI。

今回のGoogle I/Oは、キーノートの開始前から、「AIといえばGoogle」な存在感を取り戻したいっていう狙いがビシビシと伝わってきました。ミュージシャンのDan Deacon氏がエレクトリカルな音楽を演奏し、画面にはAIが生成した動画が表示されてました。

当然キーノート本体も、AIの話題だらけでした。検索からオフィス系アプリから法人系サービスからスマホの壁紙まで、あらゆるところでAIを強調してました。以下にそのすべてをまとめていきます。

次期言語モデル「PaLM 2」

230511_googleioai2
言語モデル・PaLM 2には複数サイズあり。(Image: Google/Gizmodo US)

Googleはまず、AIチャットボットなどの基盤となる大規模言語モデル(LLM)の最新版を発表しました。新LLMのPaLM 2は100以上の言語で訓練され、コーディングや数学、文章作成にますます長けているとのこと。

GoogleいわくPaLM 2にはサイズ違いで4バージョンあり、モバイル端末上で動かせるくらい小さな「Gecko(ヤモリ)」なんてのもあります。ピチャイ氏のデモでは、ユーザーがPaLM 2に対しコードのレビューを求め、さらに韓国語でコメントを入れさせてました。PaLM 2は現在一部のデベロッパーがプレビュー中ですが、それ以外のデベロッパーもウェイティングリストに登録可能です。

PaLM 2は、2022年のPaLMと今年3月発表のマルチモーダルモデル・PaLM-Eに続くバージョンとなります。さらに医療ベースのLLM、Med-PaLM 2ってのもあって、医療系の質問により正確に回答できるそうです。

GoogleいわくMed-PaLM 2は、米国の医師資格試験問題の85%に正解しています。医療分野でAIを使うことには倫理的な問題も大きいのですが、ピチャイ氏はMed-PaLMを使ってX線画像からの診断などを可能にしたいと言ってます。

Bardもだいぶ成長

Googleの会話AIの「実験」には大きなアップグレードがありました。今BardではPaLM 2を使っていて、Google AssistantとBard担当のバイスプレジデント・Sissie Hsiao氏によれば、その能力は「急速に向上している」そうです。たとえばPaLM 2は20以上のプログラミング言語を学習しているので、コーディングやデバッギングもできるとのこと。

また今までBardを使うにはウェイティングリスト登録が必要でしたが、今後は180以上の国ですぐ使えるようになります。さらに日本語と韓国語に対応し、まもなく40前後の言語も追加されます。

Hsial氏のデモでは、Bardがチェスのゲームで特定の動きをするPythonのスクリプトを作ってました。Bardはコードの各部分の説明をしたり、ベースのコードへの追加を提案したりもできます。

BardはGmailやSheets、Docsにも直接統合可能で、各アプリにテキストをそのままエクスポートできます。Google検索を使って、反応に画像や説明を付加したりもできます。

サードパーティアプリとも連携でき、Adobeの生成AI・Fireflyを使ったデモもありました。

検索におけるAI

230511_googleioai3
Image: Google / Gizmodo US

Googleの主食とも言える検索は、AIを使ってユーザーの検索キーワードに対する「スナップショット」を作るようになります。ブラウザ版ビューで説明すると、AIが生成したサマリがページの一番上に表示され、AI生成テキストに関連するリンクが右側に出てくる感じです。

ユーザーがクリックするとビューが開いて、テキストの各行に、話題を深堀りするようなリンクが出てきます。Googleいわく、これが「ジャンプ地点」となってここから公式な情報源や非公式なブログに飛べます。

AIスナップショットでは、何らかの商品を検索するとその価格やコメントを表示するので、買い物にも役立ちます。たとえば「坂道のある5マイルの通勤にちょうどいい自転車」を検索すると、デザインや電動補助の有無といった検討項目を箇条書きにして、条件に合ったいろんなブランドの自転車を並べてくれます。

このシステムはモバイル環境でも使えます。検索画面に「画像」「動画」「ニュース」といったタブの中に「Converse(会話)」タブが追加されるんです。Androidではスナップショットが画面のかなりの部分を占めるようになり、検索結果は下の方に押しやられてます。ユーザーのそれ以前のプロンプトは上の方に残り、スクロールして前の結果に戻ることもできます。下の方にスクロールしていくと、普通の検索結果みたいにリンクが出てきます。

ただし、Googleはこのシステムを「実験」と呼んでいて、使える人は限定されます。アクセスしたい人は、新たな「Search Labs」プラットフォームに登録する必要がありますが、こちらはウェイティングリストになってます。AIをコーディングのヘルプに使う場合も同様です。

WorkspaceアプリとGmailでもAI

GmailやGoogle Docsでの生成AIについてはすでに発表済みでしたが、今回さらなる機能が追加されました。これら生成AIと「サイドキック」機能も限定的にリリースされつつありますが、今年中により多くのユーザーが使えるようになるようです。

Microsoftの365アプリへの生成AI統合と同様、Google は生成AIをオフィス系アプリに入れ込みつつあります。Google Workspace担当バイスプレジデントのAparna Pappu氏は、GmailやDocsでの文章作成機能の実装に加え、SlidesやSheetsといったWorkspaceアプリへのAI機能追加を発表しました。Sheetsではユーザーのプロンプトに基づいて、たとえば「犬の散歩ビジネスの顧客リスト」とかのテンプレートを作ってくれます。

またGoogleは「Help me write」(文章作成支援機能)を発表、これはAIを使って、メールの返信をフルに生成してくれるものです。ピチャイ氏は、運行中止になったフライトへの返金を求めるメールを生成する例をデモしてました。Gmailには今までもSmart ComposeとかSmart Replyといった生成機能がありましたが、Help me writeはそこに追加されるわけです。GmailではAIの「サイドキック」がメールのスレッドを要約したり、やりとりに関連する文書を見つけたりしてくれます。

Slidesに関しては、テキストからの画像生成でスライドショーに入れる画像を作れます。画像は候補として複数生成され、候補が気に入らなければユーザーがより詳細な指定をして生成し直すこともできます。またスライドの各ページのサマリを作って、発表者むけの手元資料にしてくれたりもします。

Docsでも既存のAIがさらに進化し、生成されたテキストに基づいてさらなるプロンプトを提案したり、生成された画像をそのまま貼り付けたりできます。

壁紙やテキストメッセージも生成

230511_googleioai4
Image: Google / Gizmodo US

生成AIはAndroidスマホのカスタマイズにも使われ、壁紙を作ったりもできます。ただ生成のプロンプトは何でもありのフリーフォーマットじゃなくて、テーマとスタイル(デモでは「湾岸の街」を「ポスト印象派スタイルで」という指定をしてました)をそれぞれ入力するようです。壁紙が決まったら、周りの文字などのカラーパレットはMaterial Youで自動調整されます。壁紙に関しては、絵文字を入れたり、手持ちの写真に視差効果を入れて動く壁紙にしたりも可能です。

メッセージアプリにも生成AIが入ります。「Magic Compose」機能では、返信内容を提案したり、リライトしてくれたりもします。文章のスタイルを「ワクワク」とか「チル(ゆるく)」とか「シェイクスピア」とかから選んだりもできます。メッセージAIは今年夏、ベータで使えるようになります。

これらは今年のAndroid 14のローンチとともに使えるようになります。新たなインターフェースで、ロックスクリーンのショートカットやウィジェットの位置情報や色、テーマをフルに編集・パーソナライズできます。

消しゴムマジックが進化

消しゴムマジック(Magic Eraser)のアップデートも発表され「Magic Editor」となりました。余計な人やモノを消す機能に加えて、いろんな編集もできるようになります。デモでは人物が持ってるバッグのストラップを消したり、被写体の位置や背景の天気を変えたりもしてました。

230511_googleioai5
GIF: Google

Google Mapsに没入感を

230511_googleioai6
GIF: Google

Google Mapsでは、今まではランドマークに重点を置いてたイマーシブビュー機能が拡張されます。今までストリートビューで無数に撮られてた画像と衛星画像も活用し、移動経路の見せ方をより深めてくれて、ほとんどゲーム動画みたいです。交差点のプレビューとか、行き先での駐車スペースの多い少ないといったことがわかるようになるし、自転車レーンの鳥瞰図も見られます。経路のプレビューには天気情報まで反映されるので、「向こうは寒いから上着を持っていこう」とかの判断に役立ちます。

経路のイマーシブビューは世界各地の都市を中心に、今後数カ月で使えるようになります。対象の都市は、アムステルダム、ベルリン、ダブリン、フィレンツェ、ラスベガス、ロンドン、ロサンゼルス、ニューヨーク、マイアミ、パリ、シアトル、サンフランシスコ、サンノゼ、東京、ベニスです。

230511_googleioai7
GIF: Google

デベロッパー関連では、「エアリアルビューAPI」が発表されました。これを使うと、より没入感あるスポット情報が追加できるようになり、たとえば3Dの俯瞰したビューを追加できるので、ユーザーは指定の場所の周辺の様子も確認できます。たとえば不動産アプリでこのAPIを使って物件の俯瞰ビューを追加すれば、家探ししてるユーザーは、周りの公園とか主要道路へのアクセスを直感的に把握できます。

Googleは実験的リリースとして、「Google Earthの裏の高解像度3D画像」をデベロッパーに公開しています。デベロッパーがこれを使えば、自前で衛星画像や3Dモデルを用意する必要なく、より没入感あるアプリが作れます。Google公式ブログでは、国立公園の3Dマップを入れたり、著名な建築物の上に関連するファクトや歴史をオーバーレイで表示したりといった例をあげて、観光系アプリに最適なツールだとしています。

強力なAPI推し

Googleは今年3月、PaLM APIの発売を発表しました。彼らとしては、既存サービスでPaLMを使うことで、PaLM APIをOpenAIのAPIみたいにポピュラーにしたいのだと思われます。

Google CloudのCEO、Thomas Kurian氏は、彼らがSalesforceのような数々の法人向けサービスと提携したことを発表しました。またPaLMは、Google Cloudを通じてUberやWendy's、Canvaといった企業にも使われているそうです。

Canvaは今年すでに、ベータAIツールのいくつかをソフトウェアに導入してるし、Wendy'sのドライブスルーでもGoogle Chirpをベースとしたチャットボットが使われてます。Googleはコード生成モデルのCodeyも発表し、ReplitのようなSaaS(ソフトウェア・アズ・ア・サービス)の中で活用されていることを明かしました。これでユーザーは、プログラムのコードをほぼ一瞬で書かせられます。

Googleにとっての意味

Googleは今改めてAIへの注力をアピールしてますが、現状だとそれがあんまりうまく行ってないように見えます。主力の研究者が、野放しのAI開発の危険性を警告するためにGoogleを去っています。Googleのエンジニアによる流出した内部文書には、Googleは独自のAI開発からオープンソース開発に軸足を移すべきだと書かれています。

「我々はワクワクしながら大胆なアプローチをしています…我々は、責任を持ち、きちんとやりたいという深いコミットメントを裏付ける形で取り組んでいます」ピチャイ氏はキーノートで言ってました。

今回のキーノートは、AIにおけるGoogleの存在感を改めて高めるためのものでした。去年OpenAIと提携したMicrosoftに先を越されてしまったし、対抗して打ち出したBard AIは精度の低さを露呈、Googleの権威も株価もだだ下がりだからです。GoogleはこのタイミングでBardを広く公開し、Google検索も刷新することで、検索分野での独占状態を回復、または少なくとも維持したいのです。

ただ、BardやPaLM 2がどんなに進化してるといっても、生成するテキストやコードに完ぺきはなく、間違いがつきものです。またPaLM 2にはスマホに載せられる「Gecko」から巨大な「Unicorn」まで複数サイズがありますが、巨大なモデルほど学習も運用も高コストになります。Microsoft・OpenAI陣営と比べてより効率よく開発・運営していけるのか、検索や広告、モバイルOSといったGoogleの優位性をどう活かすのかなどなど、まだまだわからない展開です。