Transformerモデルの内部表現、logit、softmax、Grokking現象を通じ、生成AIがどのように出力を決定しているかを理論的に紐解く。
生成AIの推論状態を分解する―― Grokking から見る logit、softmax、KV cache の役割
編集メモ: logitやKV cacheなどモデル内部の推論プロセスを理論的に理解することで、AIの挙動に対する洞察が深まり、より効果的なモデルの活用やチューニングが可能になる。