GSPOとは？Qwenが挑む推論モデルの強化学習の課題

GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO

上級 Zenn LLM 2026-06-01T12:28:50 約1分

編集メモ: 推論モデルの長時間学習で生じるモデル破壊を防ぐため、Qwenが提案するGSPOの系列単位の最適化手法を理解し、高度な強化学習の安定化に活かすべきである。

Qwenチームが公開したGSPO（Group Sequence Policy Optimization）を解説。推論モデルの強化学習で発生する「長時間学習によるモデル破壊」という根本課題に挑む最新技術を深掘りする。

GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO