AIのKVキャッシュを圧縮する論文「TurboQuant」の解説。モデルの重みを減らすのではなく、推論中に増えるKVキャッシュを3bitまで圧縮する技術の新規性と実用的なメリットを紐解く。