ByteDanceが発表した「Seed 2.1」モデルを例に、SWE-Bench以外の指標(GDPValなど)の重要性と、モデル評価における「最後までやり切る能力」へのシフトを解説。