OpenAIが公開した新たなベンチマーク「GDPval」を解説。HumanEvalやMMLUとの違いを明確にし、実務規模のシステム開発能力を測定するための新たな評価指標の考え方に迫ります。