データ汚染問題に対処したコーディングエージェント評価ベンチマーク「SWE-bench Pro」を詳解。なぜ旧評価指標が信頼性を失ったのか、Scale AIの新しい設計思想がどのようにベンチマークの正当性を担保しているのかを分析し、今後のモデル評価基準を解説する。
SWE-bench Pro完全解説 設計思想・タスク構成・失敗モード分析まで
編集メモ: コーディングエージェントの性能を正当に判断するために、評価指標の設計思想やデータ汚染リスクを理解することは、モデル選択や技術投資の判断基準として非常に重要です。