LLMの強化学習において、モデル内部の構造を活用する手法「LongAct」を解説。長文脈処理時のQuery/Keyベクトルの大振幅に着目し、スパースな重み更新を行うことで効率的な学習を実現する最新の研究を紹介します。