日本語RAGタスクにおけるモデル選定のベンチマーク拡張記録。特定の日本語モデルが海外8Bモデルを上回る結果など、実データに基づいた比較分析を紹介。