HumanEval等のベンチマークを用いて、主要LLM13モデルのコーディング能力を比較・評価。モデルごとのTier表を公開し、HaikuとSonnetの性能比較やローカルLLMの可能性など、評価結果を解釈する際の注意点を解説する。