LLMの真の推論力を問う、EsoLang-Benchの衝撃結果とは?

要約

EsoLang-Benchは、主にPythonなどの一般的なプログラミング言語で評価されている大型言語モデル(LLM)のコード生成能力を見直す新しいベンチマークです。このベンチマークでは、Brainfuck、Befunge-98、Whitespace、Unlambda、Shakespeareの5つの難解な言語を用いた80のプログラミング課題が設定されています。これらの言語のトレーニングデータは、Pythonと比較して5,000倍から100,000倍も少なく、そのためモデルの真の推論能力が試されます。

この取り組みは、従来の評価方法がモデルの実際の能力を正確に反映していないことを示す重要な意義があります。実際、最も良い成績を収めたモデルでも全体の正答率は3.8%にとどまり、Python課題での約90%の成績と大きな乖離が見られます。特に、難易度が「イージー」以上の問題には全く対応できず、Whitespace言語に至っては全ての設定で0%という結果でした。このことから、LLMのコード生成能力は、表面的な指標以上に限られている可能性が高いことが分かります。


関連記事

(関連記事はまだありません)


元記事: https://esolang-bench.vercel.app/

公開日: Thu, 19 Mar 2026 21:01:03 +0000


この記事はAIアシスト編集により作成されています。

📰 元記事: 元記事を読む

コメントする