ChatGPT/GPT-4の画像認識を探る:ファイルアップロード方法も解説

ChatGPT

今回は、OpenAIが開発した人工知能(AI)の最新モデル「ChatGPT(3.5)/GPT-4」について、その画像認識能力を紐解く記事をお届けします。

ChatGPTは、言語処理と画像認識の両方のタスクをこなせる驚異的なAIです。これまでのGPTモデルとは一線を画す、この新しいAIのポテンシャルを、具体的な例を交えてご紹介します。

ChatGPT/GPT-4の画像認識

画像の説明

ChatGPTは、画像を見ただけでその内容を文章にまとめることができます。
例えば、犬が散歩している画像を見せると、「犬が公園で散歩している」というように、正確にその場面を表現します。
また、一歩進んで、「なぜこの画像が面白いのか解説して」で面白画像をどれくらい解説・言語化できるのか遊んでみたり、
クリエイティブ系の制作物に対して「このデザインの良いところ・悪いところを説明して」と依頼すると、配色や配置などの観点でアドバイスをもらえたりします。

画像内の物体の検出

このAIは、画像中にある物体を見つけることができます。例として、料理の写真を見せた場合、「トマト、玉ねぎ、パスタ」といった具材を特定できます。
冷蔵庫の写真を撮って「この具材から作れるレシピを5つ提案して」なんてことも可能です。

ファイルアップロードは可能?

現時点では未実装だが今後実装予定

記事執筆時点(2023/3/24)では、ブラウザ版のChatGPT上で直接画像やファイルをアップロードすることはできません。
ただ、GPT-4の公式サイトでは、現状では一般公開されていない旨が明記されているので、今後実装されると考えられます。

URLであれば実質アップロードが可能

ブラウザ版でも、Web上にある画像であれば、そのリンクを貼り付けることで画像を認識してくれます。
こんな感じで下の例ではリンクで冷蔵庫の画像を提供しました。

Google画像検索でお目当ての画像さえみつかれば、「画像アドレスをコピー」してコピペするだけなので簡単です。
機能アップデートを期待したいですが、いち早く使いたい場合は上記の方法で試してみてください。

関連記事

コメント

タイトルとURLをコピーしました