SWE-bench Verifiedとは？OpenAIが指摘する課題

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

上級 GIGAZINE 2026-04-29T03:00:00 約1分

編集メモ: AIの進化スピードに対し従来の評価指標が陳腐化しており、エンジニアはベンチマークスコアを鵜呑みにせず、常に最新モデルの特性を実務で検証する姿勢が求められます。

OpenAIが2024年に公開したAIプログラミングの評価指標「SWE-bench Verified」に、重大な欠陥が判明しました。OpenAIは、現在の最先端AIモデルの能力を正確に測定するための指標としては、もはや不適切であると結論付けています。

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚