33件はメトリクスのアーティファクトだった：多答案データセットでID-based context recallが嘘をつく理由

上級 Zenn LLM 2026-06-09T12:18:42 約1分

編集メモ: RAGなどのAIシステムの評価において、指標の計算ロジックが不適切だと「嘘の精度」を信じ込む危険があるため、評価パイプラインの厳密な設計と検証が不可欠です。

自作RAGパイプラインの評価指標における「grounded-but-wrong」の数値誤認について、IDベースの集計ミスが原因であったことを解説する訂正記事。

関連記事