自作RAGパイプラインの評価指標における「grounded-but-wrong」の数値誤認について、IDベースの集計ミスが原因であったことを解説する訂正記事。
33件はメトリクスのアーティファクトだった:多答案データセットでID-based context recallが嘘をつく理由
編集メモ: RAGなどのAIシステムの評価において、指標の計算ロジックが不適切だと「嘘の精度」を信じ込む危険があるため、評価パイプラインの厳密な設計と検証が不可欠です。