ChatGPTリリースから、まだ1年経ってないよね…?

OpenAIが、ChatGPTでの音声・画像認識機能提供を発表しました。つまりChatGPTに画像を送ってその中身を見てもらったり、それに関連する欲しい情報をもらったりできるってことなんです。さらには合成音声のChatGPTと会話したり、音声からテキスト、テキストから音声への変換も可能になるようです。

ChatGPTでの音声・画像認識について、OpenAIはリリースのページ上でプロモーション動画を公開してます。

動画では、ユーザーがChatGPTに自転車のサドル調節の仕方を聞いてます。自転車サドル調節初心者と見られるユーザーは、サドルの下のパーツ部分を丸で囲んだ画像をChatGPTに投げ、さらに詳しいアドバイスを求めます。

するとChatGPTは、丸の中のボルトの型を認識し、六角レンチが必要だと教えます。ChatGPTは、マニュアルの画像を認識したり、工具箱の画像を見てそこから適切なサイズのレンチを見つけたりもできるようです。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bmpic.twitter.com/paG0hMshXb