Qwenチームが公開したGSPO(Group Sequence Policy Optimization)を解説。推論モデルの強化学習で発生する「長時間学習によるモデル破壊」という根本課題に挑む最新技術を深掘りする。