RTX 5090とOllama環境におけるLLMのローカルベンチマーク結果を公開。全てのモデルが完璧なスコアを出すという結果を逆手に取り、モデル選定の有用な失敗から得られた教訓や、v1からv2への履歴の変化を考察する。
ローカルLLMのベンチマークが全モデル満点を出した。それがこのプロジェクトで最も有用な失敗だった
編集メモ: ローカルLLMのベンチマークにおいて極端な結果が出た際は、数値の正当性を疑うと同時に、その失敗からモデルの限界と運用上の教訓を導き出す視点が不可欠である。