OpenAIが2024年に公開したAIプログラミングの評価指標「SWE-bench Verified」に、重大な欠陥が判明しました。OpenAIは、現在の最先端AIモデルの能力を正確に測定するための指標としては、もはや不適切であると結論付けています。
OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚
編集メモ: AIの進化スピードに対し従来の評価指標が陳腐化しており、エンジニアはベンチマークスコアを鵜呑みにせず、常に最新モデルの特性を実務で検証する姿勢が求められます。