ByteDanceが発表した「Seed 2.1」モデルを例に、SWE-Bench以外の指標(GDPValなど)の重要性と、モデル評価における「最後までやり切る能力」へのシフトを解説。
ByteDance Seed 2.1が示す、AIの評価軸が『完遂』へ動いた
編集メモ: AIモデルの評価軸が「回答の正確性」からタスクを「最後までやり切る能力」へシフトしており、エンジニアは実務への貢献度を重視した評価指標の理解が求められます。
ByteDanceが発表した「Seed 2.1」モデルを例に、SWE-Bench以外の指標(GDPValなど)の重要性と、モデル評価における「最後までやり切る能力」へのシフトを解説。