すごいことになりそう。
MicrosoftドイツのCTO、Andreas Braun氏が、先週、次世代大規模言語モデルGPT-4はマルチモーダルとなり、来週にも発表されると発言。先週の来週…、つまり今週中に来るということ。早ければ今日かもしれない!
ChatGPTで大いに盛り上がるOpenAIですが、GPT-4のマルチモーダルとはなんなのでしょうか? 現在のChatGPTはAIチャットbotであり、テキストで入力しテキストで回答される文字ベースのAIです。マルチモーダルは、テキスト以外もやりとりできるということです。
一報を報じたドイツメディアによれば、少なくとも4つのマルチ=画像、音、テキスト、動画に対応するとのこと。つまり、画像や動画も入り乱れてAIチャットbotと会話ができる(=生成される)ので、テキストでリクエストして、画像や音楽で返してもらうことができちゃうわけです。
GPT-4はマルチ言語対応とのことで、ドイツ語で聞いてスペイン語で答えてもらったってOK。モーダル(modal)は、動詞とくっついて可能性を示す意味があるので、マルチモーダルという単語は、まさにいろいろできちゃうよということで使われているのかな。
ちなみにAIでよく聞く大規模言語モデルとは、膨大なテキストデータを事前に学習・トレーニングすることで、リクエスト(翻訳、要約、創作など)に答える言語モデルのことです。AIトークで出てきそうな単語なので、ふわっとでも理解しておくと会話のとっかかりになるかも。
GPT-4、これまたすごいことになるぞ…!
Source: Search Engine Journal