Q/Kの「大振幅」だけを更新：LongActが長文脈RLの壁を破る

中級 Zenn LLM 2026-06-08T06:38:02 約1分

編集メモ: 強化学習においてQ/Kの特定成分のみを効率的に更新するLongAct手法は、計算コストを抑えつつ長文脈の推論精度を劇的に向上させる鍵となります。

関連記事