OpenAIが2024年に公開したAIプログラミングの評価指標「SWE-bench Verified」に、重大な欠陥が判明しました。OpenAIは、現在の最先端AIモデルの能力を正確に測定するための指標としては、もはや不適切であると結論付けています。