バイナリ報酬型RL(GRPO系)において、ロールアウトのパスレートを制御する「Prefix Sampling」手法を紹介。パスレート50%付近を維持することで学習効率を2倍に高速化する論文の要点を解説。