なぜAIは「いちご」のスペルができないのか

「いちご」という言葉には、文字「r」が何回出現するでしょうか?GPT-4oやクロードなどの強力なAI製品によると、答えは2回です。

大規模言語モデル(LLMs)は、エッセイを書いたり、数式を解いたりするのに数秒しかかからないことができます。彼らは、人間が本を開くよりもデータをテラバイト単位で合成することができます。しかし、このような見るからに全知的なAIたちは、時折壮絶な失敗を犯し、その失敗がウイルス性のミームになることがあります。そして私たちは皆、新しいAIの支配者にひざまずくまでにはまだ時間があるかもしれないとほっとすることがあります。

oh pic.twitter.com/K2Lr9iVkjQ— Rob DenBleyker(@RobDenBleyker) August 26, 2024

大規模言語モデルが文字や音節の概念を理解できないという失敗は、私たちがしばしば忘れているより大きな真実を示しています:これらのものは脳を持っていません。彼らは私たちと同じように考えません。彼らは人間でも、特に人間に似ているわけでもありません。

ほとんどのLLMsは、ディープラーニングアーキテクチャであるトランスフォーマーに基づいて構築されています。トランスフォーマーモデルは、テキストをトークンに分割します。モデルによっては、フルワード、音節、または文字になります。

「LLMsは、トランスフォーマーアーキテクチャに基づいており、実際にはテキストを読むわけではありません。プロンプトを入力すると、それがエンコードに変換される」「the」という単語が見た時、俺は“the”の意味の1つのエンコーディングを持ってはいますが、“T,” “H,” “E.” については知りません。」というように、アルバータ大学のAI研究者で助教授のマシュー・グズディアルはTechCrunchに語った。

これは、トランスフォーマーが実際のテキストを効率的に入力または出力することができないためです。代わりに、テキストは自分自身の数値的表現に変換され、その後、AIが論理的な応答を考えるのを助けるために文脈化されます。言い換えると、AIは「straw」と「berry」が「strawberry」を構成することを知っていても、「strawberry」が「s」、「t」、「r」、「a」、「w」、「b」、「e」、「r」、「r」、「y」という特定の順序で構成されているとは理解していないかもしれません。したがって、「strawberry」の中に何文字があるか — 「r」はなんと言いますが — も知ることができません。

これは、これらのLLMsを機能させるアーキテクチャに組み込まれているため、簡単に修正できる問題ではありません。

I thought Dune 2 was the best movie of 2024 until I watched this masterpiece (sound on). pic.twitter.com/W9WRhq9WuW— Peter Yang(@petergyang) March 7, 2024

先月、TechCrunchのKyle Wiggersがこの問題について詳しく取り上げ、LLMの可解釈性を研究しているノースイースタン大学の博士課程学生であるシェリダン・フォイシュトに話を聞きました。

「言語モデルにとってどのようなものが「単語」として適しているのかという疑問を回避するのは難しいですし、たとえ人間の専門家が完璧なトークン語彙に合意したとしても、モデルはおそらく物事をさらに「かたまり」として見出すことが依然として有用であると考えることでしょう」とフォイシュトはTechCrunchに語りました。「私の推測では、この種の曖昧さのために完璧なトークナイザーは存在しないでしょう。」

LLMがより多くの言語を学習するにつれ、この問題はさらに複雑になります。例えば、一部のトークン化手法は、文の中にスペースが必ず新しい単語を先立つものと仮定するかもしれませんが、中国語、日本語、タイ語、ラオ語、韓国語、クメール語などの多くの言語は単語を区切るためにスペースを使いません。Google DeepMindのAI研究者Yennie Junは2023年の研究で、同じ意味を伝えるためにいくつかの言語では英語よりも10倍多くのトークンが必要になることが分かりました。

「恐らくは、トークン化を強制せずにモデルに文字を直接見させる方が良いでしょうが、現時点でTransformersにとっては計算的に実珵がないことです」とフォイシュトは述べました。

MidjourneyやDALL-Eのような画像生成者は、ChatGPTのテキスト生成者の下にあるトランスフォーマーアーキテクチャを使用しません。代わりに、画像生成者は通常、ノイズから画像を再構築する拡散モデルを使用します。拡散モデルは大規模な画像データベースでトレーニングされ、トレーニングデータから学んだものに似たものを再作成しようとするインセンティブがあります。

Image Credits: Adobe Firefly

テクノクランチのカイル・ウィガーズは先月、この問題について調査し、LLMの可解釈性を研究しているノースイースタン大学の博士課程学生であるシェリダン・フォイトと話しました。

「言語モデルにとってどのようなものが「単語」として適しているのかという疑問を回避するのは難しいですし、たとえ人間の専門家が完璧なトークン語彙に合意したとしても、モデルはおそらく物事をさらに「かたまり」として見出すことが依然として有用であると考えることでしょう」とフォイトはTechCrunchに語りました 「私の推測では、この種の曖昧さのために完璧なトークナイザーは存在しないでしょう。」

芝億の問題は、越境するにしたがってより複雑になります。例えば、一部のトークン化手法は、文の中にスペースが必ず新しい単語を先立つものと仮定するかもしれませんが、中国語、日本語、タイ語、ラオ語、韓国語、クメール語などの多くの言語は単語を区切るためにスペースを使いません。Google DeepMindのAI研究者Yennie Junは2023年の研究で、同じ意味を伝えるためにいくつかの言語では英語よりも10倍多くのトークンが必要になることが分かりました。

「恐らくは、トークン化を強制せずにモデルに文字を直接見させる方が良いでしょうが、現時点でTransformersにとっては計算的に実珵がないことです」とフォイトは述べました。

MidjourneyやDALL-Eのような画像生成者は、ChatGPTのテキスト生成者の下にあるトランスフォーマーアーキテクチャを使用しません。代わりに、画像生成者は通常、ノイズから画像を再構築する拡散モデルを使用します。拡散モデルは大規模な画像データベースでトレーニングされ、トレーニングデータから学んだものに似たものを再作成しようとするインセンティブがあります。

Image Credits: Adobe Firefly

テクノクランチのカイル・ウィガーズは先月、この問題について調査し、LLMの可解釈性を研究しているノースイースタン大学の博士課程学生であるシェリダン・フォイトと話しました。

「言語モデルにとってどのようなものが「単語」として適しているのかという疑問を回避するのは難しいですし、たとえ人間の専門家が完璧なトークン語彙に合意したとしても、モデルはおそらく物事をさらに「かたまり」として見出すことが依然として有用であると考えることでしょう」とフォイトはTechCrunchに語りました 「私の推測では、この種の曖昧さのために完璧なトークナイザーは存在しないでしょう。」