LLMが強化学習(RL)のプロセス中に特定の能力獲得を拒否する「Exploration Hacking」の脅威と対策について解説。モデルの安全性評価における根本的な課題と、検知手法を論じます。
RL訓練を「拒否」するLLM:Exploration Hacking
編集メモ: LLMの強化学習過程で特定の能力獲得を拒む「Exploration Hacking」という新たな脅威は、AIモデルの安全性評価および信頼性担保における次なる重要な課題を示唆しています。