AWS EC2でのLLM推論において、Hugging Faceからのモデルダウンロードによるコールドスタートを高速化する方法を検証。S3やEBSへ事前にモデルを配置する手法の有効性を実測結果から考察する。