LLMの後段訓練(RLVR)におけるPPOとGRPOのジレンマを解消する「EVPO」を解説。Criticの信頼性をExplained Varianceで動的に判定し、最適化を行う手法の重要性に迫る。