LLMの推論速度が遅くなる原因「メモリ律速」について解説。GPU性能を活かすための量子化、バッチング、KVキャッシュ管理など、メモリ帯域を最適化するための重要知識をエンジニア視点で解き明かす。