「ビジュアル」AIモデルは実際に盲目なのか?

最新の言語モデルであるGPT-4oやGemini 1.5 Proなどは、「マルチモーダル」として宣伝されており、テキストだけでなく画像や音声も理解できるとされています。しかし、新しい研究が明らかにしたところによると、彼らは実際にはあなたが期待するようには見えないかもしれません。実際、彼らは全く見ていないかもしれません。

はっきり言っておくと、誰もが「このAIは人間のように見ることができる!」と主張しているわけではありません。でも、これらのモデルを宣伝する際に使用されるマーケティングやベンチマークでは、「視覚能力」、「視覚理解」といったフレーズが使用されています。これらのモデルが画像や動画を見て分析すると述べており、宿題や試合の観戦など、さまざまなことができると言っています。

したがって、これらの企業の主張は巧みに包み隠されていますが、モデルがある意味で見ていることを表現したいということは明白です。そして実際にそうしていますが、これは数学をするか物語を書くかをするのと同じ方法です:入力データのパターンをそのトレーニングデータのパターンに一致させます。これにより、モデルはランダムな数を選ぶときに同じように失敗します。

オーバーン大学とアルバータ大学の研究者による、現在のAIモデルの視覚理解に関する研究が行われました。彼らは、最大のマルチモーダルモデルに、2つの形が重なっているかどうか、画像にいくつの五角形があるか、あるいは単語の中でどの文字が囲まれているかといった非常に単純な視覚タスクを行いました。これらのタスクは、1年生でも正しく行うことができるものですが、AIモデルは大変な困難さを抱えていました。

「私たちの7つのタスクは非常に単純であり、人間は100%の正解率で実行するでしょう。私たちはAIも同じようにすることを期待していますが、現状ではそうではありません」と共著者のアン・ヌーエンはTechCrunchにメールで述べました。「私たちのメッセージは、『見て、これらの最高のモデルもまだ失敗している』ということです。」

イメージクレジット:ラフマンザデガーウィら

たとえば、重なる形のテストを見てみましょう。これは最も簡単な視覚推論タスクの1つです。緩く重なった2つの円、接触しているだけの2つの円、またはそれらの間に距離がある2つの円が提示されるとき、モデルは一貫して正解できませんでした。もちろん、2つの円が離れているときにGPT-4oは95%以上の正解率を記録しましたが、ゼロまたは短い距離の場合、正解率はわずか18%!Gemini Pro 1.5が最もよく答えましたが、近距離ではそれでも10回中7回しか正解しません。

(イラストはモデルの正確なパフォーマンスを示しているわけではなく、条件ごとにモデルの一貫しなさを表しています。各モデルの統計は論文に記載されています。)

また、画像内の相互に絡み合った円の数を数えることはどうでしょうか?私は平均よりも優れた馬でもこれをするでしょう。

イメージクレジット:ラフマンザデガーウィら

5つのリングがある画像を対象とすると、彼らはすべて100%の正解率を達成します。素晴らしい仕事、ビジュアルAI!しかし、さらに1つのリングを追加すると、結果は完全に崩れます。Geminiは迷子になり、一度も正解できません。Sonnet-3.5は、6回答えることができます。3分の1の確率で、GPT-4oは少し50%未満の確率で正解します。さらにリングを追加すると、一部の場合はより簡単になります。

この実験の目的は、これらのモデルが何をしているのかに関係しておらず、私たちが見ると思うものとは実際には一致していないことを示すだけです。要するに、たとえ見えなくても、6、7、8、9リングの画像の成功率が幅広く異なることは期待されないということです。

検証された他のタスクも同様のパターンを示しました:見ることや推論することがうまいか下手かではなく、あるケースではカウントできるが他のケースではできない理由が何かあるようです。

もちろん、ひとつの答えは私たちの目の前にあります:5つのリングの画像を正しく取得するのはよくできているが、残りの部分や5つの五角形の場合などは極めて糟糕なのはなぜでしょうか?(公正を期すために、Sonnet-3.5はそれなりにうまくやっています。)それはすべてのモデルが彼らのトレーニングデータに五つのリングの画像を含めており、その中でもオリンピックのリングが目立っていることによるものです。

イメージクレジット:IOC

このロゴは訓練データに何度も繰り返し出現するだけでなく、代替テキスト、使用ガイドライン、およびそれについての記事などで詳細に説明されている可能性があります。しかし、彼らのトレーニングデータのどこに6つの絡み合ったリング、または7つの絡み合ったリングが見つかるでしょうか?彼らの反応が示すところでは…どこにもありません!彼らは何を「見て」いるのか、または何がリングや重なり、これらの概念のどれを実際に視覚理解していないのか、まったく理解していません。

私は研究者たちがこれらのモデルを有すると非難している「盲目性」についてどう思うか尋ねました。他の用語と同様に、それは正確ではないがなくてはならない人間的性質を持っています。

「私は同意します。「盲目」という言葉には、人間に対しても多くの定義があり、まだAIが見せている画像に対するこのタイプの盲目性/感受性にはまだ言葉がない」とNguyenは書いています。「現在、モデルが見ているものを正確に視覚化するための技術はありません。彼らの振る舞いは入力テキストプロンプト、入力画像、および数十億のウェイトの複雑な関数です。」

彼は、モデルは正確には盲目ではないが、画像から抽出する視覚情報は概数的で抽象的であり、「左側に円がある」といったようなものだと推測しています。しかし、これらのモデルは視覚的な判断を下す手段を持っておらず、その応答は、画像についての情報を持っているが、実際には見ることができない人々の応答のようなものとなっています。

最後に、Nguyenが以下のようなものを送ってくれました。これは上記の仮説を支持するものです。

イメージクレジット:アン・ヌーエン

青い円と緑の円が重なると(質問がモデルにとって事実として受け入れるべきものであると促している場合)、結果としてシアン色に着色された領域ができることがしばしばあります、これはベン図のようなものです。もし誰かがあなたにこの質問をしたとしたら、あなたまたはどんな賢い人でも同じ答えをするかもしれません、それは完全にもっともなことです…あなたの目が閉じている場合!しかし、目を開いている人は決してそのようには答えません。

これはすべて、「ビジュアル」AIモデルが無価値であるということを意味しているのでしょうか?全くそうとは言えません。ある画像に関する基本的な推論を行うことができないということは、彼らの基本的な能力に関わるものですが、彼らの特定の能力に関わるものではありません。これらのモデルのそれぞれは、おそらく人間の行動や表現、日常の物や状況の写真など、特定のものについて非常に正確になるでしょう。そして実際、それが彼らが解釈するべき内容です。

もしAI企業のマーケティングにすべてを教えさせていたら、これらのモデルが20/20の視力を持っていると思っていました。このような研究は、モデルが人が座っているか歩いているか走っているかを言う際に、それが「見る」という意味での意味づけとは異なる方法で行っていることを示すために必要です。