LLMのベンチマークスコアに踊らされないための指標解説。MMLU-ProやChatbot Arenaなどの主要21項目のスコアが何を意味し、実開発でどのようにモデルを選択すべきかを詳しく紐解きます。