自己回帰型Transformerモデルにおいて、KVキャッシュの有無が推論スループットに与える影響を実験。baseline、KVキャッシュ、IOBindingの3種類を比較し、高速化のポイントを検証します。