要約
N-Day-Benchは、最先端の大規模言語モデル(LLM)が、知識のカットオフ日以降に公開された実際の脆弱性を発見する能力を測定するベンチマークです。すべてのモデルは同じ条件でテストされ、報酬を操作する余地はありません。このベンチマークは、サイバーセキュリティの真の能力、特に脆弱性発見の評価を目的としています。テストケースは毎月更新され、モデルは最新のバージョンにアップグレードされます。
このプロジェクトはWinfunc Researchによって実施されており、最新のベンチマークの結果では、1000件のアドバイザリーがスキャンされ、そのうち47件が受け入れられました。トップのモデルはOpenAIのGPT-5.4で、平均スコアは83.93です。次いでz-aiのGLM-5.1、AnthropicのClaude-opus-4.6が続きます。
N-Day-Benchは、モデルのパフォーマンスを比較するための重要なツールとなっており、セキュリティ分野におけるAIの進展を示しています。これにより、企業はLLMがどの程度のサイバーセキュリティ能力を持っているかを把握し、実際のコードベースにおける脆弱性を発見するサポートが期待されます。
元記事: https://ndaybench.winfunc.com
公開日: Mon, 13 Apr 2026 21:54:03 +0000
この記事はAIアシスト編集により作成されています。
📰 元記事: 元記事を読む