Gemini 3 Pro scores 69% trust in blinded testing up from 16% for Gemini 2.5: The case for evaluating AI on real-world trust, not academic benchmarks

要約

Gemini 3 Proの信頼性が向上：実世界の評価が重要

Googleが新たに発表したAIモデル「Gemini 3」は、従来のGemini 2.5と比較して、信頼度が16%から69%に上昇しました。これは、ユーザーが実際に求める特性に基づいた評価であり、単なる学術的な基準ではありません。この評価は、オックスフォード大学の研究者によって設立されたProlific社が実施した「HUMAINEベンチマーク」によるもので、26,000人のユーザーを対象にした盲検テストで行われました。

この結果は重要です。なぜなら、AIモデルの評価方法が従来の静的な基準から、ユーザーの実際の経験を反映したものに変わりつつあるからです。Gemini 3は、パフォーマンスや適応性、信頼性、安全性の評価で高得点を獲得しましたが、コミュニケーションスタイルでは他のモデルに劣りました。

HUMAINEの手法は、AIの評価におけるギャップを明らかにし、異なるデモグラフィックグループにおけるモデルのパフォーマンスの違いを示しました。これにより、企業が多様な従業員にAIを導入する際の重要性が増しています。ユーザーのニーズに応じた柔軟性が、AIモデルの成功の鍵となることが示唆されています。

編集部コメント

AIの進化は私たちの働き方や創造性に新しい可能性をもたらしています。この動向がどのように発展していくか、引き続き注目していきましょう。

元記事: https://venturebeat.com/ai/gemini-3-pro-scores-69-trust-in-blinded-testing-up-from-16-for-gemini-2-5

公開日: Wed, 03 Dec 2025 22:00:00 GMT

この記事はAIアシスト編集により作成されています。

📰 元記事: 元記事を読む

要約

編集部コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル