OpenAIは、AIがツールを使用し環境へ働きかけるようになった現状において、単純な質問回答テストであるベンチマークでは能力や安全性を正確に評価できなくなっていると説明しています。