## 要約
**AIの正確性を測る新たな基準「FACTS」登場**
GoogleのFACTSチームが、生成AIの正確性を測定する新しい基準「FACTS Benchmark Suite」を発表しました。従来のベンチマークは、AIモデルのタスク遂行能力を測るものでしたが、情報の正確性を評価する基準が欠けていました。特に法律や金融、医療などの正確性が重要な業界では、この点が重大な盲点となっていました。
この新基準は、AIが生成する情報の「事実性」を評価することを目的としています。具体的には、「文脈的事実性」と「世界知識事実性」の2つのシナリオに分かれており、AIがどれだけ正確な情報を返すかを測定します。初期の結果によると、主要なモデルであるGemini 3 ProやGPT-5は、70%の精度を達成できていないことが分かりました。これは、AIの正確性に対する信頼が依然として課題であることを示しています。
FACTSは、簡単なQ&Aを超えた4つのテストで構成されており、各テストは実際の開発環境で遭遇するさまざまな失敗モードをシミュレーションしています。Googleは公開された3,513例を提供し、開発者がテストデータに基づいてモデルをトレーニングすることを防ぐため、Kaggleにはプライベートなデータセットがあります。この新しい基準は、AIの開発者にとって重要な指針となるでしょう。
—
## 編集部コメント
AIの進化は私たちの働き方や創造性に新しい可能性をもたらしています。この動向がどのように発展していくか、引き続き注目していきましょう。
—
**元記事**: [https://venturebeat.com/ai/the-70-factuality-ceiling-why-googles-new-facts-benchmark-is-a-wake-up-call](https://venturebeat.com/ai/the-70-factuality-ceiling-why-googles-new-facts-benchmark-is-a-wake-up-call)
**公開日**: Wed, 10 Dec 2025 23:00:00 GMT
—
*この記事はAIアシスト編集により作成されています。*
📰 元記事: 元記事を読む