vLLMの疎アテンション(Sparse Attention)を活用し、長文脈RAGの推論レイテンシを削減する方法を解説。32K〜128Kトークンの推論でTTFTを最大90%削減する仕組みと、FlexPrefillやSparseServe等のフレームワーク比較を紹介する。