RTX 4080でローカルLLM 7モデルを実測したら「16GB VRAMの壁」が見えた

上級 Zenn LLM 2026-06-03T10:55:13 約1分

編集メモ: 限られたVRAM環境で最適なLLMを選択するには、モデル性能と実行速度をベンチマークで定量的に評価する視点が重要です。

RTX 4080 (16GB VRAM) 環境でOllamaとvLLMを用い、12種類のモデルを推論速度で比較検証した結果、gpt-oss:20bとOllamaの組み合わせが最適解であると結論付けた。

関連記事