Googleのフラッグシップの生成AIモデルであるジェミニ1.5 Proと1.5 Flashのセールスポイントの1つは、それらが処理および分析できるデータ量だとされています。プレスブリーフィングやデモで、Googleはこれらのモデルが「ロングコンテキスト」を活かして、これまで不可能だったタスクを遂行できると何度も主張しています。例えば、複数の数百ページの文書を要約したり、映像のシーンを横断して検索したりするなどです。
しかし、新しい研究によると、これらのモデルは実際にはそれらのことにそれほど優れていないようです。
ジェミニのコンテキストウィンドウが不足しています
モデルのコンテキスト、またはコンテキストウィンドウは、モデルが出力(たとえば追加のテキスト)を生成する前に考慮する入力データ(たとえばテキスト)を指します。単純な質問、「2020年の米国大統領選挙は誰が勝ちましたか?」もコンテキストとして機能することができますし、映画の脚本、番組、またはオーディオクリップでもコンテキストとして機能します。そして、コンテキストウィンドウが大きくなるにつれて、それに収まる文書のサイズも増えます。
ジェミニの最新バージョンは、最大で200万トークンのコンテキストを取り込むことができます。 (「トークン」は、「fantastic」という単語の音節「fan」、「tas」、「tic」のような生データの分割された部分を指します。)これは、おおよそ140万語、2時間のビデオ、または22時間のオーディオに相当します。これは商業的に利用可能なモデルの中で最大のコンテキストです。
...
Googleはジェミニで過剰広告をしています
...
「『モデルはX個のトークンを取れる』という簡単な主張に関しては、客観的な技術的詳細に基づいても何も問題はありません」とSaxon氏は述べています。「しかし、重要なのは、それを使って何ができるか?」
生成AIは、広く企業(および投資家)が技術の限界に不満を持つにつれて、ますます厳しい目で見られています。
...
ジェミニのコンテキストを優れているものの1つとして差別化させようとしている顧客は、虚偽の情報をつくり出す会議要約チャットボットやAI検索プラットフォームに対し、有望な差別化要素を模索しています。Googleは、時折ぎこちなく競合する生成AIと追いかけをしてきたが、ジェミニのコンテキストをその差別化要素の1つにすることに必死でした。
しかし、その賭けは早すぎたようです。
...
「私たちは『理解』や『推論』が長い文書の上で行われているということを本当に示す方法を確立してませんし、これらのモデルをリリースしているすべてのグループが、これらの主張を実現するために自前のアドホック評価を強制的に実施しているのか、ということを考えると知識がありません」とKarpinska氏は述べています。「長いコンテキスト処理がどのように実現されているかを知らないので、企業はこれらの詳細を共有していないので、これらの主張がどれだけ現実的かを判断するのは難しいです」。
Googleはコメントに対して返信していませんでした。
...