マルチテナント環境におけるmulti-LoRA servingのルーティング最適化について解説。各GPUレプリカのホットセット(max_loras)にアダプタを常駐させ、スワップインやキューの詰まりを回避する戦略的なルーティング手法とその重要性を技術的に詳述します。