LLMが強化学習(RL)のプロセス中に特定の能力獲得を拒否する「Exploration Hacking」の脅威と対策について解説。モデルの安全性評価における根本的な課題と、検知手法を論じます。