SWE-bench Proとは？データ汚染と評価の最適解

SWE-bench Pro完全解説設計思想・タスク構成・失敗モード分析まで

上級 Zenn LLM 2026-04-29T03:44:48 約1分

編集メモ: コーディングエージェントの性能を正当に判断するために、評価指標の設計思想やデータ汚染リスクを理解することは、モデル選択や技術投資の判断基準として非常に重要です。

データ汚染問題に対処したコーディングエージェント評価ベンチマーク「SWE-bench Pro」を詳解。なぜ旧評価指標が信頼性を失ったのか、Scale AIの新しい設計思想がどのようにベンチマークの正当性を担保しているのかを分析し、今後のモデル評価基準を解説する。

SWE-bench Pro完全解説 設計思想・タスク構成・失敗モード分析まで