難解言語で試されるLLMの真の実力、そのギャップが明らかに

要約

EsoLang-Benchに関する新しい研究が発表されました。これは、大規模言語モデル(LLM)のコード生成能力を評価するための新たなベンチマークであり、特に難解なプログラミング言語を使用しています。従来のベンチマークは主にPythonなどの主流言語に基づいており、モデルは豊富なトレーニングデータのおかげで高い精度を示していますが、これはデータの暗記に起因している可能性があります。

新しいベンチマークでは、BrainfuckやBefunge-98などの5つの難解な言語で80のプログラミング問題を評価し、トレーニングデータはPythonに比べて5,000から100,000倍も少ない環境で行われました。その結果、評価した5つのモデルの中で最も性能が良いモデルでも、全体的な精度はわずか3.8%にとどまりました。特に、Easyレベルを超える問題では全てのモデルが0%のスコアを記録し、Whitespace言語は全く解決できませんでした。

この結果は、主流言語でのベンチマーク性能と実際のプログラミング能力との間に大きなギャップが存在することを示唆しています。つまり、現在のLLMのコード生成能力は、表面的な数値が示すほど広範ではないことが明らかになりました。これはAIの能力を正しく理解する上で重要な示唆を与えています。


関連記事

(関連記事はまだありません)


元記事: https://esolang-bench.vercel.app/

公開日: Thu, 19 Mar 2026 21:01:03 +0000


この記事はAIアシスト編集により作成されています。

📰 元記事: 元記事を読む

コメントする