Allganize RAG Leaderboardの公開データを活用し、18の構成(ツール×LLM)における300問の設問タイプ、正誤、回答テキストを再集計。総合スコアと各要素の相関を分析する。