最新ベンチマークでLLMの脆弱性発見能力を評価

要約

N-Day-Benchは、最先端の大規模言語モデル（LLM）が、知識のカットオフ日以降に公開された実際の脆弱性を発見する能力を測定するベンチマークです。すべてのモデルは同じ条件でテストされ、報酬を操作する余地はありません。このベンチマークは、サイバーセキュリティの真の能力、特に脆弱性発見の評価を目的としています。テストケースは毎月更新され、モデルは最新のバージョンにアップグレードされます。

このプロジェクトはWinfunc Researchによって実施されており、最新のベンチマークの結果では、1000件のアドバイザリーがスキャンされ、そのうち47件が受け入れられました。トップのモデルはOpenAIのGPT-5.4で、平均スコアは83.93です。次いでz-aiのGLM-5.1、AnthropicのClaude-opus-4.6が続きます。

N-Day-Benchは、モデルのパフォーマンスを比較するための重要なツールとなっており、セキュリティ分野におけるAIの進展を示しています。これにより、企業はLLMがどの程度のサイバーセキュリティ能力を持っているかを把握し、実際のコードベースにおける脆弱性を発見するサポートが期待されます。

元記事: https://ndaybench.winfunc.com

公開日: Mon, 13 Apr 2026 21:54:03 +0000

この記事はAIアシスト編集により作成されています。

📰 元記事: 元記事を読む

要約

関連記事

LLMがACMデジタルライブラリにアクセスすべき理由とは？

AIエージェントが科学計算を変革！迅速な発見を支援する新時代の幕開け

AIが暗号アルゴリズムの脆弱性を発見！Claude Mythosの新たな攻撃手法

コメントする コメントをキャンセル

コメントするコメントをキャンセル