RTX 4080 (16GB VRAM) 環境でOllamaとvLLMを用い、12種類のモデルを推論速度で比較検証した結果、gpt-oss:20bとOllamaの組み合わせが最適解であると結論付けた。