高性能すぎて危険!文章を自動で編み出すAI

  • 10,890

高性能すぎて危険!文章を自動で編み出すAI

絶対悪用されそう…

非営利のAI研究グループ、OpenAIの研究者は、テキスト生成AIに文章中の次の言葉を予想させるためのトレーニングを行いました。ところが結果は彼らの予想を遥かに上回り、人間の書く文章を真似るのがうまくなりすぎたので、起こりうる被害を調査するために研究を中止せねばならなくなってしまいました。

イーロン・マスク氏は、AIは人類にとって「最大の存在危機」であると信じてはばかりません。マスク氏はOpenAIの主要出資者の一人で、組織に直接的には関わっていませんが、研究者たちも彼と同じ懸念を抱いているようです。

先日、OpenAIはテキスト生成技術の最新研究の論文を公開しましたが、通常とは異なり、悪用されることを恐れて研究を部分的に公開しました。また、完全に学習させたモデルは公開せず、研究者の実験のためだけにより小さなモデルを公開しました。

1ツイートぶんの文章から長文を生成

研究チームは、8百万のWebページから抽出した40GBのデータを使ってGPT-2ソフトウェアを学習させました。これは以前のGPTに使われたデータの10倍になります。データセットの作成には、Reddit内を検索し、リンクされている記事の中で最低でも3つ好評価が付いているものを収集しています。トレーニングが完了したAIは、タネとなる短い文章を入力すると、実に自然な続きの長文を生成することができるようになりました。「高度に技術的、あるいは難解な話題」には手こずるものの、もっと日常会話的な文章であれば50パーセントの確率で「納得いく結果」が得られたそうです。

一つの例では、人の手によって以下の文章が入力されました:

アンデス山脈の中でも遥か遠く、これまで人類未踏だった谷で、科学者がユニコーンの集団を発見したと衝撃の報告があった。さらに驚きなのは、ユニコーンが完璧な英語を話したことだった。

このわずかな文章を元に、AIは人間が書いたと言われても納得してしまうような続きを9段落にかけて生成しました。以下はAIによって書かれた続きです。

科学者はこの群を、その特徴的なツノにちなんで、オウィディウスのユニコーンと名付けた。4本のツノと白銀の毛並みを持つこれらの動物は新発見だ。

約2世紀にかけて謎とされてきた現象のルーツがついに解明されたと言える。

ラパス大学の進化生物学者であるJorge Pérez氏と数人の研究者がアンデス山脈を探索していたところ、動物も人もいない小さな谷にたどり着いた。そこでPérez氏は、二つの岩山と銀の雪に囲まれた天然の噴水を発見した。

GPT-2は、与えられた文章のクセや内容を読み取ることがとても得意です。

The Guardianはこのソフトウェアを試す機会があったので、ジョージ・オーウェルの「1984年」の冒頭の文章を入力しました:「四月の明るく寒い日で、どこの時計も13時を指していた」プログラムは文章のトーンを読み取り、独自のディストピアSFを綴りました。

私はシアトルでの新しい仕事に向かって車を走らせていた。ガソリンを入れてキーを差し込み、ひたすら走った。運転しながら、私は想像に思いを巡らせていた。今から100年後の2045年、私は中国の地方の貧困地域で先生をしていて、中国史と科学の歴史の科目から授業を始めるのだ。

さらに、本来の用途とは違うこと、たとえば翻訳や要約に関しても、GPT-2は性能を発揮します。論文によると、ソフトウェアに的確に指示を出すだけで、それぞれのタスクに特化したモデルに引けを取らない結果を出したそうです。たとえば、オリンピックの競争に関する短い文章を分析させると、「レースの距離は?」「レースの開始地点は?」といった簡単な質問に答えることができるようになったと説明しています。

文章の拡散力が大きくなったいま文章AIは驚異になりうる

これらの好成績は研究者たちに不安を抱かせました。その一つは、フェイクニュースの作成を超高速化させてしまうという懸念です。The Guardianはこの研究の記事と共に、ソフトウェアで書かれたフェイクニュースも掲載しています。フェイク記事は自然に読めるし、話題に沿っていてリアルな引用まで使っていました。文法も、実際の人間が書いたフェイクニュースよりちゃんとしています。The GuardianのAlex Hern氏によると、ソフトウェアがフェイク記事を書くまで15秒しかかからなかったそうです。

その他の懸念としては、フィッシング詐欺のメールや、オンラインでのなりすまし、あるいはハラスメントなどの自動化です。しかし、人類にとって有益な活用方法もあると研究者たちは信じています。より優秀な音声認識プログラムや自動対応システムの開発ですね。

OpenAIは、リリース戦略についてAIコミュニティとの対話を予定しており、こういった研究に関する倫理ガイドラインの策定を希望しています。チームによると、半年以内にさらに情報を公開する予定だそうです。

source: OpenAI via The Guardian

    あわせて読みたい

    powered by