データ汚染問題に対処したコーディングエージェント評価ベンチマーク「SWE-bench Pro」を詳解。なぜ旧評価指標が信頼性を失ったのか、Scale AIの新しい設計思想がどのようにベンチマークの正当性を担保しているのかを分析し、今後のモデル評価基準を解説する。