Arena AI(旧Chatbot Arena)のデータを活用したLLM比較分析連載の第3回。過去2回の性能・サイズ、指標間の相関分析を踏まえ、評価データの有用性を深掘りする内容です。