LLMの強化学習における「on-policy」概念の厳密さについて、技術的な対話を通じて解説。サンプリング時のポリシーと更新時のポリシーが一致していることを保証する難しさと、その技術的深掘りを行います。