LLMの強化学習における「on-policy」概念の厳密さについて、技術的な対話を通じて解説。サンプリング時のポリシーと更新時のポリシーが一致していることを保証する難しさと、その技術的深掘りを行います。
GRPOが真のon-policyになれない理由 —— 訓練・推論の不一致の根底にあるロジック
編集メモ: GRPO等の強化学習アルゴリズムにおいて、訓練時と推論時のポリシーの不一致がモデル性能に与える影響を技術的に深く理解することが、高精度なAI開発には不可欠です。