LLMの後段訓練(RLVR)におけるPPOとGRPOのジレンマを解消する「EVPO」を解説。Criticの信頼性をExplained Varianceで動的に判定し、最適化を行う手法の重要性に迫る。
PPOかGRPOか?Explained Varianceが解くRLVRの最大のジレンマ
編集メモ: LLMの強化学習においてCriticの信頼性を動的に評価する手法は、モデルの学習効率と品質を安定させるための高度な最適化戦略として注目すべき知見です。