Amazon EKS上でllm-dを用いたLLM推論の「Prefill/Decode Disaggregation」検証環境を構築する方法を解説。TransformerのKV Cacheなど推論の基礎知識を振り返りつつ、インフラエンジニアの視点からLLMの推論効率化を深掘りします。