Qwenチームが公開したGSPO(Group Sequence Policy Optimization)を解説。推論モデルの強化学習で発生する「長時間学習によるモデル破壊」という根本課題に挑む最新技術を深掘りする。
GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO
編集メモ: 推論モデルの長時間学習で生じるモデル破壊を防ぐため、Qwenが提案するGSPOの系列単位の最適化手法を理解し、高度な強化学習の安定化に活かすべきである。