AIエージェントの評価軸を、ベンチマークスコアではなく「やり直しコスト」に再定義し、実務的なロールバック設計の重要性を説く。