OpenAIは、AIがツールを使用し環境へ働きかけるようになった現状において、単純な質問回答テストであるベンチマークでは能力や安全性を正確に評価できなくなっていると説明しています。
OpenAIが「AIの能力は正しく測れていない可能性がある」と訴える
編集メモ: AIの環境介入能力向上に伴う既存ベンチマークの限界論は、企業がAI導入・評価指標を再構築する際の極めて重要な視点を提供しています。
OpenAIは、AIがツールを使用し環境へ働きかけるようになった現状において、単純な質問回答テストであるベンチマークでは能力や安全性を正確に評価できなくなっていると説明しています。